搜索引擎 - 组件类库 - JAVA开源项目 - 开源吧 - 文章列表 - 汇聚各种开源项目的中英文介绍并分类排列

Solandra

Solandra是一个实时分布式搜索引擎，基于Apache Solr和Apache Cassandra构建。其核心，Solandra是Solr与Cassandra的一个紧密集成。这意味着Solr与Cassandra将在单个JVM中同时运行，文档（Documents）采用Cassandra的数据模型进行存储和分发。 1、...

点击进入详细页面

代码搜索引擎 i.So.Code

北京大学Asseters小组开发的新一代代码搜索引擎。目前iSoCode可以检索大约200个优秀（是真的优秀的~）的开源项目，包括jdk、Lucene、log4j、jdom、commons- lang、commons-cli等一大批大家经常用到的开源项目在iSoCode中都可以找到，而且可以直接从iSoCode上下载项目...

点击进入详细页面

起点R3企业级搜索引擎

起点R3企业级搜索引擎是起点软件提供的企业搜索解决方案，支持企业环境下的数据访问控制（ACL），能够通过定义用户数据访问权限来控制检索数据的安全。 R3是一个强大的,高性能的JAVA企业级搜索引擎产品，R3构建于Solr和Lucene之上，集成了P...

点击进入详细页面

Bobo

bobo-browse是一用java写的lucene扩展组件，通过它可以很方便在lucene上实现分组统计功能。比如说搜索电脑，可以得到cpu是intel的有几条命中记录，cpu是amd的有几条命中记录。收录时间：2010-11-18 11:41:18

点击进入详细页面

ElasticSearch

ElasticSearch是一个基于Lucene构建的开源，分布式，RESTful搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。支持通过HTTP使用JSON进行数据索引。

点击进入详细页面

Nut

只为lucene提供分布式搜索框架。理论上可对千G以上索引文件支持数千万级的用户搜索访问。Nut由Client、Server、Cache和DB四部分构成。Client处理用户请求和对搜索结果排序。Server对请求进行搜索，Server上只放索引，数据存储在DB中，Nut将索引和存储分离。Cache缓存...

点击进入详细页面

Mustru

Mustru是一个桌面搜索引擎，基于Lucene、Wordnet、Lingpipe、GATE和Berkeley DB等开源项目开发。能够对本地文件系统的多个目录进行索引，然后使用一个Web界面查询该索引。

点击进入详细页面

ictclas4j

ictclas4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLAS的基础上完成的一个java开源分词项目，简化了原分词程序的复杂度，旨在为广大的中文分词爱好者一个更好的学习机会。

点击进入详细页面

imdict-chinese-analyzer

imdict-chinese-analyzer是imdict智能词典的智能中文分词模块，算法基于隐马尔科夫模型(Hidden Markov Model，HMM)，是中国科学院计算技术研究所的ictclas中文分词程序的重新实现（基于Java），可以直接为lucene搜索引擎提供简体中文分词支持。

点击进入详细页面

mmseg4j

mmseg4j用Chih-Hao Tsai 的MMSeg算法实现的中文分词器，并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。

点击进入详细页面

IKAnalyzer

IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公...

点击进入详细页面

XQEngine

XQEngine用于XML文档的全文本搜索引擎.利用XQuery做为它的前端查询语言.它能够让你查询XML文档集合通过使用关键字的逻辑组合.有点类似于Google与其它搜索引擎搜索HTML文档一样.XQEngine只是一个用Java开发的很紧凑的可嵌入的组件.

点击进入详细页面

MG4J

MG4J可以让你为大量的文档集合构建一个被压缩的全文本索引,通过使内插编码(interpolative coding)技术.

点击进入详细页面

JXTA Search

JXTA Search是一个分布式的搜索系统.设计用在点对点的网络与网站上.

点击进入详细页面

Zilverline

Zilverline是一个搜索引擎，它通过web方式搜索本地硬盘或intranet上的内容。Zilverline可以从PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文档中抓取它们的内容来建立摘要和索引。从本地硬盘或intranet中查找到的结果可重新再进行检索。Zilverline...

点击进入详细页面

Egothor

Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性，Egothor能应用于任何环境的应用，既可配置为单独的搜索引擎，又能用于你的应用作为全文检索之用。

点击进入详细页面

Nutch

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

点击进入详细页面

Lucene

Apache Lucene是一个基于Java全文搜索引擎，利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引，索引让搜寻的效率比传统的逐字比较大大提高，Lucen提供一组解读，过滤，分析文件，编排和使用索引的API，它的强大之处除了高效...

点击进入详细页面

Oxyus

是一个纯java写的web搜索引擎。

点击进入详细页面

BDDBot

BDDBot是一个简单的易于理解和使用的搜索引擎。它目前在一个文本文件(urls.txt)列出的URL中爬行，将结果保存在一个数据库中。它也支持一个简单的Web服务器，这个服务器接受来自浏览器的查询并返回响应结果。它可以方便地集成到你的Web站点中。

点击进入详细页面