搜索引擎solr和elasticsearch

搜索引擎solr和elasticsearch

刚开始接触搜索引擎,网上收集了一些资料,在这里整理了一下分享给大家。

一、关于搜索引擎

搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

一个搜索引擎由搜索器 、索引器 、检索器 和用户接口 四个部分组成。搜索器的功能是在互联网 中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档 以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。

——以上文字百度百科(点击我跳转到对应页面),更多相关搜索引擎介绍请看该文章,如全文搜索引擎、目录索引类搜索引擎、元搜索引擎的区别。

二、Lucene

solr和elasticsearch都是基于Lucene实现的,因此这里有必要对Lucene进行介绍。

Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言,Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。人们经常提到信息检索程序库,虽然与搜索引擎有关,但不应该将信息检索程序库与搜索引擎相混淆。

Lucene是一个全文检索引擎的架构。那什么是全文搜索引擎?

全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。

从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。

三、solr

Solr是一个基于Lucene的Java搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式)。它易于安装和配置,而且附带了一个基于 HTTP 的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。Solr 包装并扩展了 Lucene,所以Solr的基本上沿用了Lucene的相关术语。更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。此外,很多 Lucene 工具(如Nutch、 Luke)也可以使用Solr 创建的索引。

介绍性文字过多,很多东西实际操作过就会好理解很多,这里推荐一篇不错的入门文章:Solr开发文档

书籍推荐一本不错的书籍:《Lucene In Action》有中文版的

四、elasticsearch

Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。

但是,Lucene只是一个库。想要使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用中,更糟糕的是,Lucene非常复杂,你需要深入了解检索的相关知识来理解它是如何工作的。

Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。

因为博主后面主要了解学习elasticsearch,因此对elasticsearch有更多的学习资料推荐。

两篇网页版教程,十分全面:
http://es.xiaoleilu.com/010_Intro/10_Installing_ES.html
http://udn.yyuap.com/doc/mastering-elasticsearch/chapter-5/54_README.html

安装插件:
http://blog.csdn.net/wenqisun/article/details/47952199

一篇非常不错的文章(必看):
http://www.aboutyun.com/thread-17078-1-1.html

Elastic中文社区:http://elasticsearch.cn/

elasticsearch 集群搭建(建议选择比较低版本搭建):
http://my.oschina.net/xiaohui249/blog/228748

五类Elasticsearch扩展性插件推荐:
http://cloud.51cto.com/art/201505/476450.htm

五、solr和elasticsearch比较

Elasticsearch 与 Solr 的比较总结

二者安装都很简单;

Solr 利用 Zookeeper 进行分布式管理,而 Elasticsearch 自身带有分布式协调管理功能;

Solr 支持更多格式的数据,而 Elasticsearch 仅支持json文件格式;

Solr 官方提供的功能更多,而 Elasticsearch 本身更注重于核心功能,高级功能多有第三方插件提供;

Solr 在传统的搜索应用中表现好于 Elasticsearch,但在处理实时搜索应用时效率明显低于 Elasticsearch。

Solr 是传统搜索应用的有力解决方案,但 Elasticsearch 更适用于新兴的实时搜索应用。

两者对比更详细介绍请看如下文章:
http://www.cnblogs.com/chowmin/articles/4629220.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/2275.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • VMware虚拟机安装详细教程

    VMware虚拟机安装详细教程VMware安装好之后,下载好我们要安装的操作系统的镜像文件后此处安装的为centos7版本需要下载镜像的小伙伴可去我的资源处下载,就可以开始安装了。进入主页选择创建新的虚拟机这里选择自定义安装,下一步即可。可以根据需要选择版本选择完成后,下一步选择安装程序映像文件,浏览到自己下载的镜像文件,下一步即可自定义虚拟机名称,以及虚拟机存储在主机的路径,下一步即可根据需要配置处…

  • input file多选 multiple[通俗易懂]

    input file多选 multiple[通俗易懂]一直以为连点2次选择文件是多选,原来要按ctrl选中多个才是多选。。。 functionShowFileName(){ varfile; for(vari=0;document.getElementById(“file”).files.length;i++){ file=document.getElementById(“fil

  • 100+个Java项目视频教程+源码+笔记,项目经验不用愁了!

    100+个Java项目视频教程+源码+笔记,项目经验不用愁了!有很多朋友问我,说有没有项目可以分享,最近整理了一些项目,现在分享给大家,希望能帮助大家积累一些项目方面的经验。开源项目分享1、微信小程序开发【前端+后端(Java)】附完整源码地址:微信小程序开发【前端+后端(Java)】附完整源码2、springboot+vue.js搭建图书管理系统开源项目地址:springboot+vue.js搭建图书管理系统开源项目3、仿百度网盘的一款轻量级微服务架构网盘系统地址:仿百度网盘的一款轻量级微服务架构网盘系统4、仿京东电商项目终于开源了~项目经验不愁喽!

  • python nonlocal的用法_python nonlocal 的具体原理[通俗易懂]

    python nonlocal的用法_python nonlocal 的具体原理[通俗易懂]很多文章都大概列了下nonlocal的具体用法,比如看到几篇文章写的“nonlocal关键字用来在函数或其他作用域中使用外层(非全局)变量”看完以后我感觉自己是懂了,但光从这句话来说还没完全理解它的真实含义nonlocaldefmake_average():series=[]defaverage(new_value):series.append(new_value)total=sum(s…

  • 数据挖掘十大算法详解

    数据挖掘十大算法详解转自:https://wizardforcel.gitbooks.io/dm-algo-top10/content/index.html

  • 两人下象棋_双人五子棋同屏

    两人下象棋_双人五子棋同屏阅读本文前,请您先点击右上角的蓝色字体“优课屋”,再点击“关注”,这样您就可以继续订阅文章了!(国际象棋怎么玩)在我门的生活中,棋类游戏种类非常的多,其中我们最常玩的棋类游戏有中国象棋,中国跳棋,五子棋,围棋,军棋的。而最近这几年我们很多人都接触到了国际象棋这个游戏,国际象棋其实和中国象棋有很多相似的地方,很多玩家也都特别喜欢玩国际象棋这个游戏。我们现在可以非常方便的在我们身边的网络棋牌…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号