Lucene中文分词之网络隐士八卦版》的相关内容

Lucene中文分词“庖丁解牛”

 Lucene中文分词 “庖丁解牛”  附件 为本人设计编写的组件,中文分词“庖丁解牛”,具有相当好的使用价值。。。 高效率:我的赛扬PC 1 秒解析 >>> 20000汉字的词语  (实际测试结果数据,可达1秒10万+汉字。) 高可维护性:使用“庖丁”隐喻,形象明晰 ...
by Qieqie 2007-01-23 浏览 (52990) 回复 (69) 关键字: 设计模式, 中文分词, 庖丁解牛, 庖丁, lucene

Lucene于搜索引擎技术(Analysis包详解)

Analysis 包分析 算法和数据结构分析 : 由于 Analysis 包比较简单 , 不详述了 ! 算法 : 基于机械分词 1-gram,2-gram,HMM( 如果使用 ICTCLAS 接口的话 ) 数据结构 : 部分源码用到了 Set ,HashTable,HashM ...
by banditjava 2008-09-22 浏览 (51) 回复 (0) 关键字:

lucene--分词器的分析

/** * SimpleAnalyzer 这个分词是一段一段话进行分 * StandardAnalyzer 标准分词拿来分中文和ChineseAnalyzer一样的效果 ☆PerFieldAnalyzerWrapper 这个很有意思,可以封装很多分词方式,还可以于先设置field用那个分词分!牛 * CJKAnalyzer 这个分词方式是正向退一分词(二分法分词),同一个字会 ...
by fys124974704 2008-09-24 浏览 (22) 回复 (0) 关键字:

solr 的分析器,分词器和分词过滤器(1)

【本文基于对此英文网页的理解http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters】    概览     当对一个文档(document是一系列field的集合)进行索引时,其中的每个field(document和file都是lucene中的概念)中的数据都会经历分析,分词和 ...
by damoqingquan 2008-08-21 浏览 (36) 回复 (0) 关键字: 搜索引擎 solr 分词

几种分词器比较

目前最新版本的lucene自身提供的StandardAnalyzer已经具备中文分词的功能,但是不一定能够满足大多数应用的需要。 另外网友谈的比较多的中文分词器还有: CJKAnalyzer ChineseAnalyzer IK_CAnalyzer(MIK_CAnalyzer) 还有一些热心网友自己写的比较不错的分词器在此就不说了,有兴趣的可以自己研究研究。 以上三个中文分词器并不是lucene2 ...
by kuiyuexiang 2008-04-11 浏览 (236) 回复 (0) 关键字:

Lucene几种中文分词的总结

引用: http://blog.sina.com.cn/s/print_4ff5925f01000d32.html 内容: 目前最新版本的lucene自身提供的StandardAnalyzer已经具备中文分词的功能,但是不一定能够满足大多数应用的需要。 另外网友谈的比较多的中文分词器还有: CJKAnalyzer ChineseAnalyzer IK_CAnalyzer(MIK_CAnalyzer ...
by neptune 2008-01-24 浏览 (618) 回复 (0) 关键字:

使用MMAnalyzer 搜索出现一些问题

最近新学了LUCENE 发现MMAnalyzer分词后有好多英文没办法查出,不知道是不是所说的stop word ,如果是那应该怎么做才能让它在分词时保留那些单词,以下是我代码,请大家看看有什么方法能查到结果,当然将new MMAnalyzer改成SimpleAnalyzer是能搜索出来的,除此还有其他方式没, package ch2.lucenedemo.test; import ja ...
by zhanjianhua 2008-07-11 浏览 (373) 回复 (2)

繁简转换的难点

本文为转贴,作者 yining  出处:http://www.itpub.net/233003.html的5楼 繁简互转,如果需要做到100%精确,实际上是一个非常复杂的工作。根据转换的精确性等级,大概可以分成4个等级: 1.字符码表一对一映射。 2.对于一对多单字,根据词语识别进行转换。 3.对词语表达方式差异的转换。 4.根据上下文的词汇翻译。 转换等级一 内码映射 其 ...
by Qieqie 2007-08-10 浏览 (834) 回复 (0)

基于Spindle的增强HTTP Spider

构建于lucene之上的可用的Java开源Spider少之又少,spindle长期没有更新且功能不够完善,故而自己参考其源 代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正, 有任何意见及建议均可Email联系我(kaninebruno@hotmail.com)    以下代码基于lucene-2.3.1,htmlp ...
by brunoplum 2008-04-01 浏览 (1823) 回复 (7) 关键字: spindle

赞助商链接