【Lucene】TokenStream-语汇单元的项、偏移量、类型和位置增量

【Lucene】TokenStream-语汇单元的项、偏移量、类型和位置增量代码:packagecom.tan.code;importjava.io.IOException;importjava.io.StringReader;importorg.apache.lucene.analysis.Analyzer;importorg.apache.lucene.analysis.TokenStream;importorg.apache.lucene.

大家好,又见面了,我是你们的朋友全栈君。

代码:
package com.tan.code;

import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
import org.apache.lucene.util.Version;

public class TokenStreamDetails {

	public void tokeStrem(String text) throws IOException {
		Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_35);
		StringReader reader = new StringReader(text);
		TokenStream tokenStream = analyzer.tokenStream("", reader);

		// 语汇单元对应的文本
		CharTermAttribute charTermAttribute = tokenStream
				.addAttribute(CharTermAttribute.class);
		// 其实字符和终止字符的偏移量
		OffsetAttribute offsetAttribute = tokenStream
				.addAttribute(OffsetAttribute.class);
		// 位置增量(默认为1)
		PositionIncrementAttribute positionIncrementAttribute = tokenStream
				.addAttribute(PositionIncrementAttribute.class);
		// 语汇单元类型(默认为单词)
		TypeAttribute typeAttribute = tokenStream
				.addAttribute(TypeAttribute.class);

		int position = 0;
		// 递归处理所有语汇单元
		while (tokenStream.incrementToken()) {
			int increment = positionIncrementAttribute.getPositionIncrement();
			if (increment > 0) {
				// 计算位置信息
				System.out.println("position:" + (position += increment));
			}
			// 打印所有语汇单元详细信息
			System.out.println("【Trem:" + charTermAttribute.toString()
					+ "】【StartOffset:" + offsetAttribute.startOffset()
					+ "】【EndOffset:" + offsetAttribute.endOffset() + "】【Type:"
					+ typeAttribute.type()+"】");
		}
	}
}

测试

@Test
	public void testTokenStream() throws IOException {
		TokenStreamDetails tokenStreamDetails = new TokenStreamDetails();
		
		String text = "打印所有的TokenStream的詳細信息!Print the TokenStream Data";
		tokenStreamDetails.tokeStrem(text);
	}


输出:

position:1
【Trem:打】【StartOffset:0】【EndOffset:1】【Type:<IDEOGRAPHIC>】
position:2
【Trem:印】【StartOffset:1】【EndOffset:2】【Type:<IDEOGRAPHIC>】
position:3
【Trem:所】【StartOffset:2】【EndOffset:3】【Type:<IDEOGRAPHIC>】
position:4
【Trem:有】【StartOffset:3】【EndOffset:4】【Type:<IDEOGRAPHIC>】
position:5
【Trem:的】【StartOffset:4】【EndOffset:5】【Type:<IDEOGRAPHIC>】
position:6
【Trem:tokenstream】【StartOffset:5】【EndOffset:16】【Type:<ALPHANUM>】
position:7
【Trem:的】【StartOffset:16】【EndOffset:17】【Type:<IDEOGRAPHIC>】
position:8
【Trem:詳】【StartOffset:17】【EndOffset:18】【Type:<IDEOGRAPHIC>】
position:9
【Trem:細】【StartOffset:18】【EndOffset:19】【Type:<IDEOGRAPHIC>】
position:10
【Trem:信】【StartOffset:19】【EndOffset:20】【Type:<IDEOGRAPHIC>】
position:11
【Trem:息】【StartOffset:20】【EndOffset:21】【Type:<IDEOGRAPHIC>】
position:12
【Trem:print】【StartOffset:22】【EndOffset:27】【Type:<ALPHANUM>】
position:14
【Trem:tokenstream】【StartOffset:32】【EndOffset:43】【Type:<ALPHANUM>】
position:15
【Trem:data】【StartOffset:44】【EndOffset:48】【Type:<ALPHANUM>】

语汇单元的组成【截图】,其中各个属性的作用可以参考《Lucene In Action》:

【Lucene】TokenStream-语汇单元的项、偏移量、类型和位置增量

从代码示例中看到,可以通过调用addAttribute(class)来获取这些属性;使用tokenStream.incrementToken()递归访问所有的语汇单元,如果该方法到达下一个新的语汇单元则返回true,若已经对stream处理完毕则返回false。然后就可以与先前获取的属性对象进行交互得到针对每个语汇单元的属性值。当incrementToken返回true时,其中所有的属性都会将内部状态修改为下一个语汇单元

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/163081.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • 我的第一次WebService接口开发

    我的第一次WebService接口开发前言最近项目上需要对接WebService接口,之前从来没有用过,这次都遇见了。记录下基础的使用和我遇见的问题。正文概述WebService接口百度一搜,各个介绍的都非常详细,由于刚开始没接触,看的也不是很懂。首先记住一句话:WebService是一种跨编程语言和跨操作系统平台的远程调用技术。跨编程语言和跨操作系统平台:也就是说Asp.net开发的WebService我用java代码调用…

  • 方格子服务器系统,方格子无盘服务器配置推荐方案[通俗易懂]

    方格子服务器系统,方格子无盘服务器配置推荐方案[通俗易懂]方格子无盘服务器配置推荐方案内容精选换一换虚拟私有云使用限制如表1所示。以上配额说明针对单租户情况。一个网络ACL单方向拥有的规则数量最好不超过20条,否则可能引起网络ACL性能下降。二层网关连接在公测期间默认只能创建1个二层连接网关。默认情况下,一个用户可以创建100个安全组。默认情况下,一个安全组最多只允许拥有50条安全组规则。默认情况下,一个云服务器或扩展网卡建议选择安全组华为云最佳实践,…

  • 依据Path取Json指定节点的值[通俗易懂]

    依据Path取Json指定节点的值

  • Source Insight 4.0 序列号 license文件

    Source Insight 4.0 序列号 license文件安装程序下载在官网上下载SourceInsight4.0的安装程序.目前版本4.00.0098可用30天的试用安装首次启动选择授权方式,这里选择第二个选项,30天试用。点击下一步,输入名称、公司或组织名称、邮箱信息,申请30天的试用。输入完成后,点击下一步,直到安装完成。修改sourceinsight4.exe用16进制编辑器(sublimetext)打开s…

  • macOS虚拟机安装全过程(VMware)

    macOS虚拟机安装全过程(VMware)​1.安装前的准备VMwareWorkspace16Pro要准备好,如果没有见我之前写的博客的前半部分;还有百度网盘,链接:百度网盘下载链接。2.下载macOS镜像这里提供3个版本的macOS镜像,越往下版本越新,下文以macOSBigSur11举例macOSEICaptian10.11:https://pan.baidu.com/s/1fagJkrFqq4FKA_HSB9Xhcgpwd=rvwz此系统适合配置较低的WindowsXP、Windows7老电脑..

  • 推荐几个非常不错的富文本编辑器

    推荐几个非常不错的富文本编辑器1、wangEditor——基于javascript和css开发的Web富文本编辑器,轻量、简洁、界面美观、易用、开源免费。界面截图:官网地址2、TinyMCE——TinyMCE是一个轻量级的基于浏览器的所见即所得编辑器,由JavaScript写成。它对IE6+和Firefox1.5+都有着非常良好的支持。功能齐全,界面美观,就是文档是英文的,对开发人员英文水平有一定要求。界面…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号