Lucene(8_2_0)核心API学习 之 TokenStream(一)「建议收藏」

Lucene(8_2_0)核心API学习 之 TokenStream(一)「建议收藏」一、继承org.apache.lucene.analysis.TokenStreamentendsorg.apache.lucene.util.AttributeSource二、详情TokenStream是一个抽象类,是一系列Token的枚举,这里的Token有两个来源,一是Document的Fields,一是查询语句Query; 这是一个抽象类,有两个具体子类:Tokeni…

大家好,又见面了,我是你们的朋友全栈君。

一、继承

org.apache.lucene.analysis.TokenStream  entends org.apache.lucene.util.AttributeSource

二、详情

  1. TokenStream是一个抽象类,是一系列Token的枚举,这里的Token有两个来源,一是Document的Fields,一是查询语句Query;
  2. 这是一个抽象类,有两个具体子类:

Tokenizer,分词器,输入为Reader;

TokenFilter,过滤器,输入为TokenStream;

用法:一般先用分词器分词,然后用过滤器过滤,这样可以缩小搜索范围,提高效率;

      3. TokenStream继承于AttributeSource,AttributeSource提供给TokenStream访问所有Token属性Attributes的方法。注意每一个AttributeImpl(Attribute的实现类)只有一个实例(单例模式)被创造,然后被所有的tokens重复使用。这样做是为了减少创建对象的消耗,同时允许对AttributeImpl引用的本地缓存。看incrementToken()可以获得更多详情。

三、TokenStream工作流程的核心API

  1. 实例化(Instantiation):实例化一个TokenStream或TokenFilter需要从AttributeSource添加相应的属性;
  2. 状态重置(reset):消费者在使用token前一定要先将状态reset(),因为每一个属性是单例的,被所有token使用;
  3. 查询属性并存储在本地:消费者从stream流中检索属性,并在本地存储指向这些属性的引用;
  4. 调用incrementToken():消费者不断调用incrementToken,获取下一个Token,直到返回错误;
  5. end():消费者调用end()表示token已经遍历完了,可以执行一些遍历结束时的操作;
  6. close():释放相关资源;

        我的理解:把Token当做建立索引时lucene可以处理的最小单元,而TokenStream是一个存储了一系列Token的流,当你需要使用时,一个一个从流中取出Token来处理。

四、进一步解释

  • 为了确保消费者和过滤器知道哪些属性是可用的,这些属性必须在实例化时被添加进去。过滤器和消费者不小在incrementToken()中检查这些属性的可用性;
  • 应为TokenStream的API是基于装饰者模式的,因此所有的非抽象子类必须是final,或者至少有一个final修饰的incrementToken()的实现方法!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/163089.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • jlink 与 swd 接口定义

    jlink 与 swd 接口定义1.JLink介绍J-Link是SEGGER公司为支持仿真ARM内核推出的JTAG仿真器。J-Link支持所有基于ARM架构的处理器或微控制器配合IAREWAR,ADS,KEIL等集成开发环境进行开发过程中进行单步控制执行调试。J-Link除了可以配合集成开发环境进行调试程序,进行程序下载之外,J-Link还可以单独使用。比如在产品的生产环节中,就可以单独使用J-Link进行固件的下载。JLink,SWD接口定义缺口向左,左边为JLink接口定义,右边为SWD接口定义JTAG

  • windows系统如何cmd查看端口被占用、杀进程「建议收藏」

    windows系统如何cmd查看端口被占用、杀进程「建议收藏」首先是启动windows的命令窗口,按键盘上的windows+R,然后在输入框中输入cmd,既可以启动命令窗口 进入windows命令窗口之后,输入命令,输入netstat-ano然后回车,就可以看到系统当前所有的端口使用情况。 通过命令查找某一特定端口,在命令窗口中输入命令中输入netstat-ano|findstr”端口号”,然后回车就可以看到这个端口被哪个应用占用。 查看到对应的进程id之后,就可以通过id查找对应的进程名称,使用命令tasklist|findstr”进程id..

  • 二维图形旋转公式的推导

    二维图形旋转公式的推导

  • 数独口诀_数独技巧xwing推导过程

    数独口诀_数独技巧xwing推导过程数独是一种传统益智游戏,你需要把一个 9×9 的数独补充完整,使得图中每行、每列、每个 3×3 的九宫格内数字 1∼9 均恰好出现一次。请编写一个程序填写数独。输入格式输入包含多组测试用例。每个测试用例占一行,包含 81 个字符,代表数独的 81 个格内数据(顺序总体由上到下,同行由左到右)。每个字符都是一个数字(1−9)或一个 .(表示尚未填充)。您可以假设输入中的每个谜题都只有一个解决方案。文件结尾处为包含单词 end 的单行,表示输入结束。输出格式每个测试用例,输出一行数据,代表填充

  • 实验室仪器管理系统_实验室设备管理系统代码

    实验室仪器管理系统_实验室设备管理系统代码实验室设备管理系统主要包括:实验室设备信息的管理模块,实验室设备信息的浏览查询模块,设备事故记录模块,设备资料管理模块设备的损坏管理模块,设备损坏信息浏览查询,设备类别设置,系统用户的管理。通过本系统,可以更加有效的管理学生实验室设备信息开发技术:php,mysql,apache课题名称:实验室设备管理系统1)系统简介每学年要对实验室设备使用情况进行统计、更新。其中:(1)对于已彻底损坏的做报废处理,同时详细记录有关信息。(2)对于由严重问题(故障)的要及时修理,并记录修理日期、设备名、编号

    2022年10月13日
  • 进程调度与进程切换_模式切换和进程切换有什么区别

    进程调度与进程切换_模式切换和进程切换有什么区别从今天开始,我们将要开启一个新的系列【闪耀计划】,没错!这是今年上半年的一整个系列计划!本专题目的是通过百天刷题计划,通过题目和知识点串联的方式,完成对计算机操作系统的复习和巩固;同时还配有专门的笔记总结和文档教程哦!想要搞定,搞透计算机操作系统的同学,本专栏将会通过模块化的分类,刷够1000道题,为大家提供点对点的考点相关知识轰炸!值得注意的是,本专栏将会通过教程+课后习题的方式来进行巩固教学,课后习题的题量也是算入总题数的哦!

    2022年10月20日

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号