大家好,又见面了,我是你们的朋友全栈君。
一、继承
org.apache.lucene.analysis.TokenStream entends org.apache.lucene.util.AttributeSource
二、详情
- TokenStream是一个抽象类,是一系列Token的枚举,这里的Token有两个来源,一是Document的Fields,一是查询语句Query;
- 这是一个抽象类,有两个具体子类:
Tokenizer,分词器,输入为Reader;
TokenFilter,过滤器,输入为TokenStream;
用法:一般先用分词器分词,然后用过滤器过滤,这样可以缩小搜索范围,提高效率;
3. TokenStream继承于AttributeSource,AttributeSource提供给TokenStream访问所有Token属性Attributes的方法。注意每一个AttributeImpl(Attribute的实现类)只有一个实例(单例模式)被创造,然后被所有的tokens重复使用。这样做是为了减少创建对象的消耗,同时允许对AttributeImpl引用的本地缓存。看incrementToken()可以获得更多详情。
三、TokenStream工作流程的核心API
- 实例化(Instantiation):实例化一个TokenStream或TokenFilter需要从AttributeSource添加相应的属性;
- 状态重置(reset):消费者在使用token前一定要先将状态reset(),因为每一个属性是单例的,被所有token使用;
- 查询属性并存储在本地:消费者从stream流中检索属性,并在本地存储指向这些属性的引用;
- 调用incrementToken():消费者不断调用incrementToken,获取下一个Token,直到返回错误;
- end():消费者调用end()表示token已经遍历完了,可以执行一些遍历结束时的操作;
- close():释放相关资源;
我的理解:把Token当做建立索引时lucene可以处理的最小单元,而TokenStream是一个存储了一系列Token的流,当你需要使用时,一个一个从流中取出Token来处理。
四、进一步解释
- 为了确保消费者和过滤器知道哪些属性是可用的,这些属性必须在实例化时被添加进去。过滤器和消费者不小在incrementToken()中检查这些属性的可用性;
- 应为TokenStream的API是基于装饰者模式的,因此所有的非抽象子类必须是final,或者至少有一个final修饰的incrementToken()的实现方法!
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/163089.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...