《Lucene中文分词之网络隐士八卦版》的相关内容
相关讨论
Lucene中文分词“庖丁解牛”
Lucene中文分词 “庖丁解牛”
附件 为本人设计编写的组件,中文分词“庖丁解牛”,具有相当好的使用价值。。。
高效率:我的赛扬PC 1 秒解析 >>> 20000汉字的词语 (实际测试结果数据,可达1秒10万+汉字。)
高可维护性:使用“庖丁”隐喻,形象明晰
...
by Qieqie 2007-01-23 浏览 (52990) 回复 (69) 关键字: 设计模式, 中文分词, 庖丁解牛, 庖丁, lucene
相关博客
Lucene于搜索引擎技术(Analysis包详解)
Analysis
包分析
算法和数据结构分析
:
由于
Analysis
包比较简单
,
不详述了
!
算法
:
基于机械分词
1-gram,2-gram,HMM(
如果使用
ICTCLAS
接口的话
)
数据结构
:
部分源码用到了
Set ,HashTable,HashM ...
by banditjava 2008-09-22 浏览 (51) 回复 (0) 关键字:
lucene--分词器的分析
/**
* SimpleAnalyzer 这个分词是一段一段话进行分
* StandardAnalyzer 标准分词拿来分中文和ChineseAnalyzer一样的效果
☆PerFieldAnalyzerWrapper 这个很有意思,可以封装很多分词方式,还可以于先设置field用那个分词分!牛
* CJKAnalyzer 这个分词方式是正向退一分词(二分法分词),同一个字会 ...
by fys124974704 2008-09-24 浏览 (22) 回复 (0) 关键字:
solr 的分析器,分词器和分词过滤器(1)
【本文基于对此英文网页的理解http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters】
概览
当对一个文档(document是一系列field的集合)进行索引时,其中的每个field(document和file都是lucene中的概念)中的数据都会经历分析,分词和 ...
by damoqingquan 2008-08-21 浏览 (36) 回复 (0) 关键字: 搜索引擎 solr 分词
几种分词器比较
目前最新版本的lucene自身提供的StandardAnalyzer已经具备中文分词的功能,但是不一定能够满足大多数应用的需要。
另外网友谈的比较多的中文分词器还有:
CJKAnalyzer
ChineseAnalyzer
IK_CAnalyzer(MIK_CAnalyzer)
还有一些热心网友自己写的比较不错的分词器在此就不说了,有兴趣的可以自己研究研究。
以上三个中文分词器并不是lucene2 ...
by kuiyuexiang 2008-04-11 浏览 (236) 回复 (0) 关键字:
Lucene几种中文分词的总结
引用:
http://blog.sina.com.cn/s/print_4ff5925f01000d32.html
内容:
目前最新版本的lucene自身提供的StandardAnalyzer已经具备中文分词的功能,但是不一定能够满足大多数应用的需要。
另外网友谈的比较多的中文分词器还有:
CJKAnalyzer
ChineseAnalyzer
IK_CAnalyzer(MIK_CAnalyzer ...
by neptune 2008-01-24 浏览 (618) 回复 (0) 关键字:
相关圈子讨论
使用MMAnalyzer 搜索出现一些问题
最近新学了LUCENE 发现MMAnalyzer分词后有好多英文没办法查出,不知道是不是所说的stop word ,如果是那应该怎么做才能让它在分词时保留那些单词,以下是我代码,请大家看看有什么方法能查到结果,当然将new MMAnalyzer改成SimpleAnalyzer是能搜索出来的,除此还有其他方式没,
package ch2.lucenedemo.test;
import ja ...
by zhanjianhua 2008-07-11 浏览 (373) 回复 (2)
相关新闻
基于Spindle的增强HTTP Spider
构建于lucene之上的可用的Java开源Spider少之又少,spindle长期没有更新且功能不够完善,故而自己参考其源
代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正,
有任何意见及建议均可Email联系我(kaninebruno@hotmail.com)
以下代码基于lucene-2.3.1,htmlp ...
by brunoplum 2008-04-01 浏览 (1823) 回复 (7) 关键字: spindle

