【elasticsearch系列】windows安装IK分词器插件[通俗易懂]

【elasticsearch系列】windows安装IK分词器插件[通俗易懂]环境github下载:https://github.com/medcl/elasticsearch-analysis-ik/releases注意,IK分词器插件要与ES版本保持一致;有的小伙伴在GitHub上下载插件时,没有发现与ES相对应的版本,可以切换到Tags中选择分支版本;例如Branchs列表中仅可能存在主版本号;切换到右侧Tags中查找对应的版本即可;小编这里选择的7.8.0的版本;安装IK解压缩后拷贝到ElasticSearch安装目录的plugins文件夹下,默认情况该

大家好,又见面了,我是你们的朋友全栈君。

环境

github下载:https://github.com/medcl/elasticsearch-analysis-ik/releases

注意,IK分词器插件要与ES版本保持一致;
有的小伙伴在GitHub上下载插件时,没有发现与ES相对应的版本,可以切换到Tags中选择分支版本;
例如Branchs列表中仅可能存在主版本号;
在这里插入图片描述
切换到右侧Tags中查找对应的版本即可;小编这里选择的7.8.0的版本;
在这里插入图片描述

安装IK

  • 解压缩后拷贝到ElasticSearch安装目录plugins文件夹下,默认情况该文件夹中为空,不存在任何插件,将IK插件存入plugins目录并重命名ik,如图:
    在这里插入图片描述
    解压缩目录如下:
    在这里插入图片描述

  • 重启elasticsearch,观看是否加载插件
    在这里插入图片描述

  • 通过ES自带的工具查看, 命令行执行 elasticSearch-plugin list
    在这里插入图片描述
    注意,切换到bin目录下执行上面命令;

kibana实操

介绍两种分词用法和区别,主要以努力实现中国梦为例;

ik_smart

ik_smart为最少切分;
如何最少切分呢???

GET _analyze
{ 
   
  "analyzer": "ik_smart",
  "text": "努力实现中国梦"
}

分词结果:
{ 
   
  "tokens" : [
    { 
   
      "token" : "努力实现",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 0
    },
    { 
   
      "token" : "中国",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 1
    },
    { 
   
      "token" : "梦",
      "start_offset" : 6,
      "end_offset" : 7,
      "type" : "CN_CHAR",
      "position" : 2
    }
  ]
}

ik_max_word

ik_max_word为最细粒度划分;

GET _analyze
{ 
   
  "analyzer": "ik_max_word",
  "text": "努力实现中国梦"
}

分词结果:
{ 
   
  "tokens" : [
    { 
   
      "token" : "努力实现",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 0
    },
    { 
   
      "token" : "努力",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 1
    },
    { 
   
      "token" : "实现",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 2
    },
    { 
   
      "token" : "中国",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 3
    },
    { 
   
      "token" : "梦",
      "start_offset" : 6,
      "end_offset" : 7,
      "type" : "CN_CHAR",
      "position" : 4
    }
  ]
}

自定义分词格式

比如:超级喜欢溪源博主,用上面两种分词,会把溪源,博主分别作为单个词分开,结果如下:
在这里插入图片描述
需求想把溪源博主作为两个词,因此需要我们自定义字典;

  • 修改插件配置文件ik/config/IKAnalyzer.cfg.xml,加入自定义字典;
    在这里插入图片描述
    打开配置文件夹目录,可以看到已经存在的默认词库,如下:
    在这里插入图片描述
  • 自定义xiyuan.dic文件
    将溪源、博主作为词存入文件中;
    在这里插入图片描述

加入扩展自定义文件,如下:
在这里插入图片描述

  • 重启ES服务和kibana
GET _analyze
{ 
   
  "analyzer": "ik_smart",
  "text": "超级喜欢溪源博主"
}

分词结果:
{ 
   
  "tokens" : [
    { 
   
      "token" : "超级",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    },
    { 
   
      "token" : "喜欢",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 1
    },
    { 
   
      "token" : "溪源",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 2
    },
    { 
   
      "token" : "博主",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 3
    }
  ]
}

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/150635.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 用Pycharm 直接下载Pyinstaller,以及使用问题解决

    用Pycharm 直接下载Pyinstaller,以及使用问题解决作为一个学语言学着玩的人,肯定很想把自己的学py文件打包发给别人,Pyinstaller包满足你。因为我一般下载包都是通过Pycharm下载的,有两个方法:一:在Pycharm中你输入:importPyinstaller#会报错只需要按住alt+回车下面就会出现是否安转此包,再回车一下等待就会自动安转完成;二:在Pycharm左上角的File->Setti…

  • oracle普通索引改唯一索引,Oracle唯一索引功能替代[通俗易懂]

    oracle普通索引改唯一索引,Oracle唯一索引功能替代[通俗易懂]Oracle唯一索引在字段全部为NULL时,不做唯一性判断,允许重复插入,而在8t中即使均为NULL值也会做重复值判断,在某些场景下客户会存在此类需求,在数据量不大不存在性能问题的情况下可以考虑通过如下方式进行替代示例表createtable”informix”.secconstitute(iddecimal(20,0)notnull,codevarchar(32),namevar…

  • HTTP.SYS远程代码执行漏洞(CVE-2015-1635,MS15-034)

    HTTP.SYS远程代码执行漏洞(CVE-2015-1635,MS15-034)漏洞描述及渗透过程HTTP协议堆栈(HTTP.sys)中存在一个远程执行代码漏洞,该漏洞是在HTTP.sys不正确地分析特制HTTP请求时引起的。漏洞危害攻击者只需要发送恶意的http请求数据包,就可能远程读取IIS服务器的内存数据,或使服务器系统蓝屏崩溃。修复建议1)微软官方已经给出修复补丁(KB3042553),用户安装修复补丁即可。变通办法,禁用IIS内核缓存(可能降低IIS…

  • 国内如何使用谷歌(google)搜索引擎进行搜索?

    国内如何使用谷歌(google)搜索引擎进行搜索?1.可先更新浏览器到最新版本,目前最新V98版本【谷歌浏览器】,密码33602.到【访问助手插件】下载插件,密码同上,下载谷歌访问助手插件。3.地址栏输入chrome://extensions。将

  • 房费制——报表(1)

    房费制——报表(1)

  • 使用 parted 对单个磁盘进行分区并进行配额「建议收藏」

    使用 parted 对单个磁盘进行分区并进行配额「建议收藏」文章目录1.实验要求2.实验步骤3.我的一次实验步骤1.实验要求虚拟机新增一个硬盘,大小大于10G,使用parted工具对磁盘进行分区,分区类型为ext4对新增分区设置磁盘配额,限制lisi用户最多允许使用200M的容量大小并最多允许创建10个文件2.实验步骤准备一个新虚拟机,我们用新环境进行实验VMware添加一块20G硬盘echo”—“>/sys/class/scsi_host/host0/scan#扫描主机fdis

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号