LUCENE3.0 自学吧 5 TokenStream

LUCENE3.0 自学吧 5 TokenStream
研究Lucene分析器的实现。
Analyzer抽象类
所有的分析器的实现,都是继承自抽象类Analyzer,它的源代码如下所示:
packageorg.apache.lucene.analysis;importjava.io.Reader;publicabstractclassAnalyzer{//通过Field的名称,和一个Reader对象,创建一个分词流,该方法是抽象方法publicabstractTokenStrea

大家好,又见面了,我是你们的朋友全栈君。

研究Lucene分析器的实现。

Analyzer抽象类

所有的分析器的实现,都是继承自抽象类Analyzer ,它的源代码如下所示:

这里,tokenStream()的作用非常大。它返回一个TokenStream类对象 ,这个TokenStream类对象应该是已经经过分词器处理过的

与Analyzer抽象类有关的其他类

TokenStream也是一个抽象类:

TokenStream类的方法表明,它最基本的是对分词流的状态进行管理。具体地,它如何对分析的对象处理,应该从继承该抽象类的子类的构造来看。

在包org.apache.lucene.analysis下可以看到有两个TokenStream的子类TokenizerTokenFilter ,它们还都是抽象类 ,从这两个抽象类可以看出,是在TokenStream的基础上,按照功能进行分类实现:处理分词、过滤分词

Tokenizer类在Lucene中定义如下所示:

接着,看看TokenFilter类的实现,TokenFilter类在Lucene中定义如下 所示:

TokenFilter是可以嵌套Tokenizer的:

当一个Tokenizer对象不为null时,如果需要对其进行过滤,可以构造一个TokenFilter来对分词的词条进行过滤。

同样地,在包org.apache.lucene.analysis下可以找到继承自Tokenizer类的具体实现类。

很明显了,实现Tokenizer类的具体类应该是分词的核心所在 了。

对指定文本建立索引之前,应该(1) 先构造Field对象 ,在此基础上(2) 再构造Document对象 ,然后(3) 添加到IndexWriter中进行分析处理 。在(4) 这个分析处理过程中,包含对其进行分词(Tokenizer) ,而(5) 经过分词处理以后返回的是一个Token 对象 (经过分词器得到的词条),它可能是Field中的一个Term的一部分

看一看Token类都定义了哪些内容:

 

最后 一个关系图 不太会画,里边的所有关系均为继承…

LUCENE3.0 自学吧 5 TokenStream

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/163104.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 云计算解决的主要问题_云数据中心的特征有哪些

    云计算解决的主要问题_云数据中心的特征有哪些有关数据中心的建设问题,不同行业所面临建设问题也是参差不齐,对于传统制造业而言盲目的讨论大数据应用似乎有些空中楼阁,依靠实际经验来发言似乎更有说服力。有关数据中心的建设问题,不同行业所面临建设问题也是参差不齐,对于传统制造业而言盲目的讨论大数据应用似乎有些空中楼阁,依靠实际经验来发言似乎更有说服力。按照原有的组织和业务结构,应用系统是省市两级部署,但随着发展慢慢地向省局集中部署。看似小小的变化导致…

  • R安装与卸载、RStudio安装

    R安装与卸载、RStudio安装R及RStudio安装、R卸载R下载R安装Rstudio下载RStudio安装R卸载RStudio只是辅助使用R进行编辑的工具,所以RStudio的正常使用需以R程序为基础,安装过R的可以跳过前两步R下载官网点击downloadR。点击选择清华大学的镜像地址进入:R安装任意选择一个(Ri386为32位的,Rx64为64位的)R安装完成Rstudio下载官网,点链接自行下载下载慢的令人发指链接:https://pan.baidu.com/s/1

  • 集赞神器!朋友圈集赞一键秒搞定!从此集赞随心所欲!

    集赞神器!朋友圈集赞一键秒搞定!从此集赞随心所欲!今天,刚开始不知道要分享什么内容,下午烦恼时,结果收到一好友“朋友圈帮忙点赞”的消息,瞬间拉黑删除的心都有了,但是呢又不能这样做,点赞也不是,不点赞也不是,强(自)大(恋)的我告诉自己冷静一下,换个角度想问题,灵感来了~不如,今天就分享一下朋友圈一键集赞的方法~从此集赞随心所欲!要是下次再有好友让你帮忙集赞的时候,你可以将本文章甩给他,相信他会感谢你的~千万不要甩给商家!说到朋…

  • pycharm学生版更新license「建议收藏」

    pycharm学生版更新license「建议收藏」pycharm的学生license一年过期,需要更新license.看网上的po出的经验较少,即使有也有错误,前几天成功更新了,分享一下经验。1.首先登陆jetbrainshttps://www.jetbrains.com/zh-cn/2.使用学校邮箱登陆后查看license因为是前几天更新的所以这个截图是已经更新过的,如果是一年期license过期的话(就是validthrough日期已过),大概是红圈这个位置有一个绿色的“renew…”(具体内容不记得了)。3.点开后输入学校邮箱这时候

  • vcs学习教程

    vcs学习教程vcs学习教程

  • linux top命令 详解「建议收藏」

    linux top命令 详解「建议收藏」top命令主要用来观察和收集运行在系统上的进程的一些有用信息。ps只是一个快照,是ps命令执行的那一瞬间的系统中进程的快照。top则可以用于持续观察。第一步,在命令行键入top,回车进入top管理界面。第一行其实和uptime的执行效果是一样的。分析一下,12:48:06是当前运行这个命令的时候,机器的时间。up134days,19:36,指的是说这台机器,持续运行了134天了,启动于134天前的19:36。5users代表的是当前运行这个命令的时候,这台机器上总共登陆有5个用

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号