《强大的lucene中文分词器》的相关内容
相关讨论
搜索篇:lucene简单实例<二>
写文章的时候,感觉比较难写的就是标题,有时候不知道起什么名字好,反正这里写的都是关于lucene的一些简单的实例,就随便起啦.
Lucene 其实很简单的,它最主要就是做两件事:建立索引和进行搜索
来看一些在lucene中使用的术语,这里并不打算作详细的介绍,只是点一下而已----因为这一个世界有一种好东西,叫搜索。
IndexWriter:lucene中最重要的的类之一,它主要是用来将文档加 ...
by lighter 2006-12-20 浏览 (13398) 回复 (15) 关键字: lucene
Lucene中文分词“庖丁解牛”
Lucene中文分词 “庖丁解牛”
附件 为本人设计编写的组件,中文分词“庖丁解牛”,具有相当好的使用价值。。。
高效率:我的赛扬PC 1 秒解析 >>> 20000汉字的词语 (实际测试结果数据,可达1秒10万+汉字。)
高可维护性:使用“庖丁”隐喻,形象明晰
...
by Qieqie 2007-01-23 浏览 (51635) 回复 (69) 关键字: 设计模式, 中文分词, 庖丁解牛, 庖丁, lucene
搜索篇:lucene的简单实例<一>
说明一下,这一篇文章的用到的lucene,是用2.0版本的,主要在查询的时候2.0版本的lucene与以前的版本有了一些区别.
其实这一些代码都是早几个月写的,自己很懒,所以到今天才写到自己的博客上,高深的文章自己写不了,只能记录下一些简单的记录与点滴,其中的代码算是自娱自乐的,希望高手不要把重构之类的砸下来...
1、在windows系统下的的C盘,建一个名叫s的文件夹,在该文件夹里面随便建三 ...
by lighter 2006-12-19 浏览 (15003) 回复 (29) 关键字: lucene
词典+正反向全切分/词典+正反向最大匹配切分
内容摘要 IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的 正反向全切分 以及 正反向最大匹配切分 两种算法,是Lucene Analyzer接口的实现
IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的 正反向全切分 以及 正反向最大匹配切分 两种算法,是Lucene Analyzer接口的实现,代码使用例子如下:
下载地址: ...
by kuiyuexiang 2008-04-11 浏览 (534) 回复 (2) 关键字:
相关博客
Lucene几种中文分词的总结
引用:
http://blog.sina.com.cn/s/print_4ff5925f01000d32.html
内容:
目前最新版本的lucene自身提供的StandardAnalyzer已经具备中文分词的功能,但是不一定能够满足大多数应用的需要。
另外网友谈的比较多的中文分词器还有:
CJKAnalyzer
ChineseAnalyzer
IK_CAnalyzer(MIK_CAnalyzer ...
by neptune 2008-01-24 浏览 (523) 回复 (0) 关键字:
几种分词器比较
目前最新版本的lucene自身提供的StandardAnalyzer已经具备中文分词的功能,但是不一定能够满足大多数应用的需要。
另外网友谈的比较多的中文分词器还有:
CJKAnalyzer
ChineseAnalyzer
IK_CAnalyzer(MIK_CAnalyzer)
还有一些热心网友自己写的比较不错的分词器在此就不说了,有兴趣的可以自己研究研究。
以上三个中文分词器并不是lucene2 ...
by kuiyuexiang 2008-04-11 浏览 (205) 回复 (0) 关键字:
配置paoding analysis
在开源中文analysis,我选择了paoding analysis,link:http://code.google.com/p/paoding
配置如下:
在CLASSPATH 上面加入:E:\eclipse\paoding-analysis.properties
在用户变量加入:PAODING_DIC_HOME=》E:\dic
把dic文件,就是字词文本文件放到对应的目录。
测试代码:
...
by cloudzhou 2008-05-06 浏览 (127) 回复 (0) 关键字:
lucene分词分析器Analyzer
SimpleAnalyzer
StandardAnalyzer
WhitespaceAnalyzer
StopAnalyzer
测试代码:
import java.io.Reader;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene ...
by wq163 2007-06-20 浏览 (593) 回复 (2) 关键字: java,lucene,nutch,分词
lucene 的分词StandardAnalyzer
package analyzer;
import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analys ...
by beyondsanli 2008-06-16 浏览 (212) 回复 (0) 关键字:
相关圈子讨论
报告庖丁2.01停用词的Bug
x-noise-charactor.dic里的单独的停用词没有建立索引,但是x-noise-word.dic里的停用词都建到索引里去了。代码如下,对“但是,的”建立索引,搜索“的”没有结果,但搜索停用词“但是”得到一个结果。
package textss;
import net.paoding.analysis.analyzer.PaodingAnalyzer;
import net.pao ...
by guoyi 2007-09-12 浏览 (791) 回复 (2)
lucene2.2,字符+逗号+数字 被standardAnalyzer分析后的问题
先放上我的测试代码:
Analyzer analyzer = new StandardAnalyzer();
Reader reader = new BufferedReader(new InputStreamReader(new StringBufferInputStream("Abc,123")));
TokenStream tokenStream = analyzer.token ...
by licco1 2007-09-06 浏览 (639) 回复 (6)
使用MMAnalyzer 搜索出现一些问题
最近新学了LUCENE 发现MMAnalyzer分词后有好多英文没办法查出,不知道是不是所说的stop word ,如果是那应该怎么做才能让它在分词时保留那些单词,以下是我代码,请大家看看有什么方法能查到结果,当然将new MMAnalyzer改成SimpleAnalyzer是能搜索出来的,除此还有其他方式没,
package ch2.lucenedemo.test;
import ja ...
by zhanjianhua 2008-07-11 浏览 (308) 回复 (2)
lucene Highlighter2.0做高亮显示中文时遇到的奇怪问题
高亮显示的中文不见了!!!!
比如:中华人民共和国
搜索:中华
却得到了 人民共和国,中华不见了!
我用的lucene 2.2.0 + highlighter2.0,中文分词是:org.mira.lucene.analysis.IK_CAnalyzer()
代码片段如下:
TermPositionVector tpv ;
String fragmentSeparator = ".. ...
by baidongli 2008-05-09 浏览 (382) 回复 (0)
为何同样的代码,却不同的结果。。。
这个问题我已经被困1个星期了,真是欲哭无泪。。。
我用的是lucene2.3.2。里面有个demo,我准备仿照它将其改造成struts架构的,没想到噩梦开始。。。
我分别写了2个类,一个类是用main方法生成索引文件。另一个类则是查询生成的索引文件。写了个main方法测试了下生成索引文件的类,通过。下面就开始搭建成struts下的了。action写好了,配置好了,运行——D:\opt\lu ...
by jsnjlc 2008-08-05 浏览 (167) 回复 (3)
相关新闻
基于Spindle的增强HTTP Spider
构建于lucene之上的可用的Java开源Spider少之又少,spindle长期没有更新且功能不够完善,故而自己参考其源
代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正,
有任何意见及建议均可Email联系我(kaninebruno@hotmail.com)
以下代码基于lucene-2.3.1,htmlparser-1.6, ...
by brunoplum 2008-04-01 浏览 (1599) 回复 (7) 关键字: spindle
Lucene2.3.2发布了
最新的Lucene2.3.2发布了,主要修改了一些创建和修改索引时候的Bug。
======================= Release 2.3.2 2008-05-05 =======================
Bug fixes
1. LUCENE-1191: On hitting OutOfMemoryError in any index-modifying
me ...
by grantbb 2008-05-09 浏览 (622) 回复 (0) 关键字:

