• ictclas4j


    ictclas4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLAS的基础上完成的一个java开源分词项目,简化了原分词程序的复杂度,旨在为广大的中文分词爱好者一个更好的学习机会。

    ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。

    ictclas4j是在ICTCLAS的基础进行全部代码重写的java版本,对源程序过多复杂的结构进行了调整和优化,为广大java程序员提供的一个开源汉语分词系统。

    点击次数   官方主页【官方主页】   下载地址【下载地址】

    网友留言/评论

    我要留言/评论

    相关开源项目

    MG4J:MG4J可以让你为大量的文档集合构建一个被压缩的全文本索引,通过使内插编码(interpolative coding)技术.
    BDDBot:BDDBot是一个简单的易于理解和使用的搜索引擎。它目前在一个文本文件(urls.txt)列出的URL中爬行,将结果保存在一个数据库中。它也支持一个简单的Web服务器,这个服务器接受来自浏览器的查询并返回响应结果。它可以方便地集成到你的Web站点中。
    代码搜索引擎 i.So.Code: 北京大学Asseters小组开发的新一代代码搜索引擎。目前iSoCode可以检索大约200个优秀(是真的优秀的~)的开源项目,包括jdk、Lucene、log4j、jdom、commons- lang、commons-cli等一大批大家经常用到的开源项目在iSoCode中都可以找到,而且可以直接从iSoCode上下载项目源码、jar包 以及javadoc。iSoCode的另外一大亮点是它可以同时帮你检索你想要的API的具体实现细节、使用的实例、javadoc文档以及在CSDN和百度上关于这个API的讨论内容等四大方面的信息!这么做可以再很多情况下免去了在百度上检索再去找源代码的繁琐细节。
    mmseg4j:mmseg4j用Chih-Hao Tsai 的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。
    LIUS:LIUS是一个基于Jakarta Lucene项目的索引框架。LIUS为Lucene添加了对许多文件格式的进行索引功能如:
    Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans。针对JavaBeans的索引特别有用当我们要对数据库进行索引或刚好用户使用持久层ORM技术如:Hibernate,JDO,Torque,TopLink进行开发时。
    Nut: 只为lucene提供分布式搜索框架。理论上可对千G以上索引文件支持数千万级的用户搜索访问。Nut由Client、Server、Cache和DB四部分构成。Client处理用户请求和对搜索结果排序。Server对请求进行搜索,Server上只放索引,数据存储在DB中,Nut将索引和存储分离。Cache缓存的是搜索条件和结果文档id。DB存储着数据,Client根据搜索排序结果,取出当前页中的文档id从DB上读取数据。
    Red-Piranha:Red-Piranha是一个开源搜索系统,它能够真正"学习"你所要查找的是什么.Red-Piranha可作为你桌面系统(Windows,Linux与Mac)的个人搜索引擎,或企业内部网搜索引擎,或为你的网站提供搜索功能,或作为一个P2P搜索引擎,或与wiki结合作为一个知识/文档管理解决方案,或搜索你要的RSS聚合信息,或搜索你公司的系统(包括SAP,Oracle或其它任何Database/Data source),或用于管理PDF,Word和其它文档,或作为一个提供搜索信息的WebService或为你的应用程序(Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜索后台等等.
    XQEngine:XQEngine用于XML文档的全文本搜索引擎.利用XQuery做为它的前端查询语言.它能够让你查询XML文档集合通过使用关键字的逻辑组合.有点类似于Google与其它搜索引擎搜索HTML文档一样.XQEngine只是一个用Java开发的很紧凑的可嵌入的组件.
    Bobo: bobo-browse是一用java写的lucene扩展组件,通过它可以很方便在lucene上实现分组统计功能。
    比如说搜索电脑,可以得到cpu是intel的有几条命中记录,cpu是amd的有几条命中记录。收录时间:2010-11-18 11:41:18
    Solandra: Solandra是一个实时分布式搜索引擎,基于Apache Solr和Apache Cassandra构建。其核心,Solandra是Solr与Cassandra的一个紧密集成。这意味着Solr与Cassandra将在单个JVM中同时运行,文档(Documents)采用Cassandra的数据模型进行存储和分发。    1、提供开箱即用的Solr功能包括:搜索、faceting、高亮等。    2、通过Cassandra管理复制,分片,缓存和压缩。    3、Multi-master (可以读写到任何节点)。    4、能够很方便添加新的SolrCores并且不需要重新启动整个集群。