Lucene（8_2_0）核心API学习之 TokenStream（一）「建议收藏」

全栈程序员-用户IM • 2022年7月22日下午2:46 • 未分类

Lucene（8_2_0）核心API学习之 TokenStream（一）「建议收藏」一、继承org.apache.lucene.analysis.TokenStreamentendsorg.apache.lucene.util.AttributeSource二、详情TokenStream是一个抽象类，是一系列Token的枚举，这里的Token有两个来源，一是Document的Fields，一是查询语句Query；这是一个抽象类，有两个具体子类：Tokeni…

大家好，又见面了，我是你们的朋友全栈君。

一、继承

org.apache.lucene.analysis.TokenStream entends org.apache.lucene.util.AttributeSource

二、详情

TokenStream是一个抽象类，是一系列Token的枚举，这里的Token有两个来源，一是Document的Fields，一是查询语句Query；
这是一个抽象类，有两个具体子类：

Tokenizer，分词器，输入为Reader；

TokenFilter，过滤器，输入为TokenStream；

用法：一般先用分词器分词，然后用过滤器过滤，这样可以缩小搜索范围，提高效率；

3. TokenStream继承于AttributeSource，AttributeSource提供给TokenStream访问所有Token属性Attributes的方法。注意每一个AttributeImpl（Attribute的实现类）只有一个实例（单例模式）被创造，然后被所有的tokens重复使用。这样做是为了减少创建对象的消耗，同时允许对AttributeImpl引用的本地缓存。看incrementToken（）可以获得更多详情。

三、TokenStream工作流程的核心API

实例化（Instantiation）：实例化一个TokenStream或TokenFilter需要从AttributeSource添加相应的属性；
状态重置（reset）：消费者在使用token前一定要先将状态reset（），因为每一个属性是单例的，被所有token使用；
查询属性并存储在本地：消费者从stream流中检索属性，并在本地存储指向这些属性的引用；
调用incrementToken（）：消费者不断调用incrementToken，获取下一个Token，直到返回错误；
end（）：消费者调用end（）表示token已经遍历完了，可以执行一些遍历结束时的操作；
close（）：释放相关资源；

我的理解：把Token当做建立索引时lucene可以处理的最小单元，而TokenStream是一个存储了一系列Token的流，当你需要使用时，一个一个从流中取出Token来处理。

四、进一步解释

为了确保消费者和过滤器知道哪些属性是可用的，这些属性必须在实例化时被添加进去。过滤器和消费者不小在incrementToken（）中检查这些属性的可用性；
应为TokenStream的API是基于装饰者模式的，因此所有的非抽象子类必须是final，或者至少有一个final修饰的incrementToken（）的实现方法！

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/163089.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

学习

全栈程序员-用户IM

0 0

jlink 与 swd 接口定义

jlink 与 swd 接口定义1.JLink介绍J-Link是SEGGER公司为支持仿真ARM内核推出的JTAG仿真器。J-Link支持所有基于ARM架构的处理器或微控制器配合IAREWAR，ADS，KEIL等集成开发环境进行开发过程中进行单步控制执行调试。J-Link除了可以配合集成开发环境进行调试程序，进行程序下载之外，J-Link还可以单独使用。比如在产品的生产环节中，就可以单独使用J-Link进行固件的下载。JLink，SWD接口定义缺口向左，左边为JLink接口定义，右边为SWD接口定义JTAG

全栈程序员-用户IM
2022年4月25日
windows系统如何cmd查看端口被占用、杀进程「建议收藏」

windows系统如何cmd查看端口被占用、杀进程「建议收藏」首先是启动windows的命令窗口，按键盘上的windows+R，然后在输入框中输入cmd，既可以启动命令窗口进入windows命令窗口之后，输入命令，输入netstat-ano然后回车，就可以看到系统当前所有的端口使用情况。通过命令查找某一特定端口，在命令窗口中输入命令中输入netstat-ano|findstr”端口号”，然后回车就可以看到这个端口被哪个应用占用。查看到对应的进程id之后，就可以通过id查找对应的进程名称，使用命令tasklist|findstr”进程id..

全栈程序员-用户IM
2022年5月18日
二维图形旋转公式的推导

二维图形旋转公式的推导

全栈程序员-用户IM
2022年1月22日
数独口诀_数独技巧xwing推导过程

数独口诀_数独技巧xwing推导过程数独是一种传统益智游戏，你需要把一个 9×9 的数独补充完整，使得图中每行、每列、每个 3×3 的九宫格内数字 1∼9 均恰好出现一次。请编写一个程序填写数独。输入格式输入包含多组测试用例。每个测试用例占一行，包含 81 个字符，代表数独的 81 个格内数据（顺序总体由上到下，同行由左到右）。每个字符都是一个数字（1−9）或一个 .（表示尚未填充）。您可以假设输入中的每个谜题都只有一个解决方案。文件结尾处为包含单词 end 的单行，表示输入结束。输出格式每个测试用例，输出一行数据，代表填充

全栈程序员-用户IM
2022年8月9日
实验室仪器管理系统_实验室设备管理系统代码

实验室仪器管理系统_实验室设备管理系统代码实验室设备管理系统主要包括：实验室设备信息的管理模块，实验室设备信息的浏览查询模块，设备事故记录模块，设备资料管理模块设备的损坏管理模块,设备损坏信息浏览查询,设备类别设置,系统用户的管理。通过本系统，可以更加有效的管理学生实验室设备信息开发技术:php,mysql,apache课题名称：实验室设备管理系统1)系统简介每学年要对实验室设备使用情况进行统计、更新。其中：（1）对于已彻底损坏的做报废处理，同时详细记录有关信息。（2）对于由严重问题（故障）的要及时修理，并记录修理日期、设备名、编号

全栈程序员-用户IM
2022年10月13日
进程调度与进程切换_模式切换和进程切换有什么区别

进程调度与进程切换_模式切换和进程切换有什么区别从今天开始，我们将要开启一个新的系列【闪耀计划】，没错！这是今年上半年的一整个系列计划！本专题目的是通过百天刷题计划，通过题目和知识点串联的方式，完成对计算机操作系统的复习和巩固；同时还配有专门的笔记总结和文档教程哦！想要搞定，搞透计算机操作系统的同学，本专栏将会通过模块化的分类，刷够1000道题，为大家提供点对点的考点相关知识轰炸！值得注意的是，本专栏将会通过教程+课后习题的方式来进行巩固教学，课后习题的题量也是算入总题数的哦！

全栈程序员-用户IM
2022年10月20日

Lucene（8_2_0）核心API学习 之 TokenStream（一）「建议收藏」

相关推荐

jlink 与 swd 接口定义

windows系统如何cmd查看端口被占用、杀进程「建议收藏」

二维图形旋转公式的推导

数独口诀_数独技巧xwing推导过程

实验室仪器管理系统_实验室设备管理系统代码

进程调度与进程切换_模式切换和进程切换有什么区别

发表回复

Lucene（8_2_0）核心API学习之 TokenStream（一）「建议收藏」