lucene开源中文分词器 IKAnalyzer2.0.2 共享及源码发布》的相关内容

词典+正反向全切分/词典+正反向最大匹配切分

内容摘要 IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的 正反向全切分 以及 正反向最大匹配切分 两种算法,是Lucene Analyzer接口的实现 IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的 正反向全切分 以及 正反向最大匹配切分 两种算法,是Lucene Analyzer接口的实现,代码使用例子如下: 下载地址: ...
by kuiyuexiang 2008-04-11 浏览 (399) 回复 (1) 关键字:

lucene中文分词组件共享

IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的 正反向全切分 以及 正反向最大匹配切分 两种算法,是Lucene Analyzer接口的实现,代码使用例子如下:下载地址:Lucene中文分词器 V1.2 CSDN下载Lucene中文分词器 V1.2 Google下载正反向全切分算法:实现类 : org.mira.lucene.analysis.IK_CAnaly ...
by linliangyi2007 2006-12-27 浏览 (964) 回复 (2) 关键字: java 开源 lucene 中文分词 全切分 最大匹配

强大的lucene中文分词器

package com.wellhope.lucene; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.Token; import org.apache.lucene.analysis.TokenStream; import or ...
by leoyang3033 2007-06-07 浏览 (3688) 回复 (9) 关键字: j2ee

庖丁中文分词示例应用paoding.net已上线使用

地址:http://paoding.net 这是庖丁中文分词的示例应用。使用的分词器版本是2.0.4-alpha2。 有关心庖丁中文分词的同学,可以通过访问http://paoding.net测试庖丁的搜索效果。 (2.0.4-alpha2发布时间是2007-10-22日)。 ---------------------------------------------------------- ...
by Qieqie 2007-10-26 浏览 (2339) 回复 (14) 关键字: 分词

lucene中文分词组件共享

IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的 正反向全切分 以及 正反向最大匹配切分 两种算法,是Lucene Analyzer接口的实现,代码使用例子如下:下载地址:Lucene中文分词器 V1.2 CSDN下载Lucene中文分词器 V1.2 Google下载正反向全切分算法:实现类 : org.mira.lucene.analysis.IK_CAnaly ...
by linliangyi2007 2006-12-27 浏览 (978) 回复 (2) 关键字: java 开源 lucene 中文分词 全切分 最大匹配

词典+正反向全切分/词典+正反向最大匹配切分

内容摘要 IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的 正反向全切分 以及 正反向最大匹配切分 两种算法,是Lucene Analyzer接口的实现 IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的 正反向全切分 以及 正反向最大匹配切分 两种算法,是Lucene Analyzer接口的实现,代码使用例子如下: 下载地址: ...
by kuiyuexiang 2008-04-11 浏览 (104) 回复 (1) 关键字:

Lucene中文分词组件 JE-Analysis 1.5.1

//采用正向最大匹配的中文分词算法,相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer();  //参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来 MMAnalyzer analyzer = new MMAnalyz ...
by rcyl2003 2007-10-14 浏览 (35) 回复 (0) 关键字:

搜索引擎实用

转 Lucene中文分词组件 JE-Analysis 1.5.1 天狼 2006-05-29 17:40 主题: 【发布】Lucene中文分词组件 JE-Analysis 1.5.1 天狼 分词效率: 每秒30万字(测试环境迅驰1.6,第一次分词需要1-2秒加载词典) 运行环境: Lucene 2.0 特别推荐: 优秀的软件项目管理系统,让项目走出质量管理的泥潭 ...
by wrong1111 2007-12-16 浏览 (392) 回复 (0) 关键字:

Lucene中文分词组件 JE-Analysis 1.4.0

本站申明: 该组件免费安装使用传播,无限制商业应用,但暂不开源,也不提供任何保证 分词效率: 第一次分词需要1-2秒(读取词典),之后速度基本与Lucene自带分词持平 运行环境: Lucene 1.9+ ...
by lihaiyan 2007-09-27 浏览 (582) 回复 (0) 关键字:

使用MMAnalyzer 搜索出现一些问题

最近新学了LUCENE 发现MMAnalyzer分词后有好多英文没办法查出,不知道是不是所说的stop word ,如果是那应该怎么做才能让它在分词时保留那些单词,以下是我代码,请大家看看有什么方法能查到结果,当然将new MMAnalyzer改成SimpleAnalyzer是能搜索出来的,除此还有其他方式没, package ch2.lucenedemo.test; import ja ...
by zhanjianhua 2008-07-11 浏览 (156) 回复 (2)

为什么我用庖丁分词查不出结果?

建索引时我用疱丁分的词.成功了.用luke看确实分词了. 但搜索时.却结果不太正确 比如我搜"电"单个字.明明索引中有"电视","电视台".但结果却是0 或者搜"金融".含有"金融界"的内容却不出来.这是为什么.下面 是代码: String str = "电";//内容的关键字 String FIELD_NAME = "title"; File indexDir = new File("g:\ ...
by xrb2008 2008-04-24 浏览 (359) 回复 (2)

报告庖丁2.01停用词的Bug

x-noise-charactor.dic里的单独的停用词没有建立索引,但是x-noise-word.dic里的停用词都建到索引里去了。代码如下,对“但是,的”建立索引,搜索“的”没有结果,但搜索停用词“但是”得到一个结果。 package textss; import net.paoding.analysis.analyzer.PaodingAnalyzer; import net.pao ...
by guoyi 2007-09-12 浏览 (682) 回复 (2)

有关lucene 索引pdf格式文档的问题

环境: lucene2.0+pdf.0.7.3+je-analysis-1.4.0.jar+eclipse3.2 //索引文档LuceneInActionCH.pdf File indexDir = new File("C:\\index"); // 索引文件存放路径 File dataDir = new File("C:\\file"); // 文件所存路径 Analyzer analyzer ...
by xxwang1984 2008-07-11 浏览 (120) 回复 (8)

lucene建立索引的错误,各位帮忙看看

前面打印的部分是显示从Google获取的内容,可以正常显示,现在要对这些内容进行索引,但在搜索过程总是显示java.lang.IndexOutOfBoundsException: Not a valid hit number: 0,看来是索引建立好,请大家帮忙看看 //开始建立索引  int j = 0; while (j < 10) { gs.setStartResul ...
by jaie 2008-04-06 浏览 (279) 回复 (4)

基于Spindle的增强HTTP Spider

构建于lucene之上的可用的Java开源Spider少之又少,spindle长期没有更新且功能不够完善,故而自己参考其源 代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正, 有任何意见及建议均可Email联系我(kaninebruno@hotmail.com) 以下代码基于lucene-2.3.1,htmlparser-1.6, ...
by brunoplum 2008-04-01 浏览 (1225) 回复 (6) 关键字: spindle

推荐知识库条目

Comming soon