《自己写的一个基于词库的lucene分词程序--ThesaurusAnalyzer》的相关内容
相关讨论
Lucene中文分词“庖丁解牛”
Lucene中文分词 “庖丁解牛”
附件 为本人设计编写的组件,中文分词“庖丁解牛”,具有相当好的使用价值。。。
高效率:我的赛扬PC 1 秒解析 >>> 20000汉字的词语 (实际测试结果数据,可达1秒10万+汉字。)
高可维护性:使用“庖丁”隐喻,形象明晰
...
by Qieqie 2007-01-23 浏览 (51621) 回复 (69) 关键字: 设计模式, 中文分词, 庖丁解牛, 庖丁, lucene
介绍:最新的一种中文分词方式——由字构词
现有的中文分词方法基本上都是采用基于词表的正向最大匹配法进行词语切分。不过这种分词方法具有一个最大的问题,对于未登录词(也就是在词表中并未录入的词)的切分具有先天的不足,一般的解决方法是在基于正向最大匹配法切分模块后再加入一个未登录词模块,用于处理对于未登录词的切分。而在中文分词技术中,对于未登录词的切分错误极大的影响到了整体分词的召回率。现在主流的分词算法对于未登录词的召回率仍然在0.6 左右。 ...
by schweigen 2007-10-08 浏览 (9065) 回复 (19) 关键字: 中文分词 由字构词
使用libmmseg实现Ruby的中文分词功能
用Ruby on Rails开发web2.0网站的人都知道,ruby的全文检索功能不像Java支持的那样好,要提供中文的全文检索功能是一件很困难的事情,而偏偏全文检索是web2.0网站绕不过去的一道坎。虽然ruby也有类似lucene的全文检索软件ferret,但是ferret本身并没有提供中文分词功能,必须自己另行扩展中文分词功能。因此攻克ruby中文全文检索功能的瓶颈在于提供ruby的中文分词 ...
by robbin 2008-05-24 浏览 (1749) 回复 (8) 关键字: libmmseg
强大的lucene中文分词器
package com.wellhope.lucene;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import or ...
by leoyang3033 2007-06-07 浏览 (3991) 回复 (9) 关键字: j2ee
相关博客
Lucene 中文分词
查看原文
Apache Lucene作为一个开放源码的搜索软件包应用越来越广泛,但是对于中文用户来说其提供的两个中文分词器(CJKAnalyzer、ChineseAnalyzer)的功能又太弱了。所以迫切需要开发自己的中文分词器,而开发适用的分词器是一项很有挑战的工作。我想在文章中实现一个中文分词器,让它实现机械分词中最简单的算法--正向最大匹配法。目前普遍认为这一算法的错分率为1/169,虽然这 ...
by oudoud 2008-07-03 浏览 (106) 回复 (0) 关键字:
Lucene中文分词
发布日期:2006年07月10日,更新日期:2006年07月30日
Apache Lucene作为一个开放源码的搜索软件包应用越来越广泛,但是对于中文用户来说其提供的两个中文分词器(CJKAnalyzer、ChineseAnalyzer)的功能又太弱了。所以迫切需要开发自己的中文分词器,而开发适用的分词器是一项很有挑战的工作。我想在文章中实现一个中文分词器,让它实现机械分词中最简单的算法--正向 ...
by FutureInHands 2008-07-10 浏览 (39) 回复 (0) 关键字:
中文机械分词算法入门
中文机械分词算法入门2007/06/04
作者:Sunny from Hour41 (www.hour41.com )
这几天因为要负责新的搜索系统中的分词,所以看了一些入门级的分词算法。其中主要是机械分词方法,趁这个机会总结下。
机械分词方法又叫基于字符串匹配的分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行区配,若在词典 ...
by hunteagle 2007-08-31 浏览 (503) 回复 (0) 关键字:
从搜索引擎的角度看中文分词算法
核心:
从应用的角度看中文分词算法,是用于搜索引擎,或者智能识别语义等?应用的不同影响着中文分词的策略选择。
正文:
建立索引或对用户输入的句子分词时,当遇到"XxYyvZz "(每个字母代表一个汉字)这样一个句子时,
如果Xx和Zz是已经收录在词库中的词汇,而Y,y,v,Yy,yv,Yyv均不是词库的词汇,
分词器应该如何处理Yyv这个非词汇组成的孤立串呢?可能的处理情况有:
1、二元分词:Y ...
by Qieqie 2007-10-26 浏览 (2764) 回复 (4) 关键字: 分词
相关圈子讨论
关于lucene的分词和查询
我想问下,如果我把一个中文字符传在索引的时候进行了分词,查询的时候也使用同一个分词器.
如何让查询按照最大匹配度去进行?
比如索引里的字符传是"问题说明越详细",分词分成了"问题","说明","越","详细".
我用"如果问题说明越详细,回答也会越准确!"去查询,希望能查询到这个结果,需要怎么做?
刚接触lucene,还很不熟悉.
by shadowlin 2008-05-26 浏览 (1193) 回复 (18)
问题:对于lucene对于切词是如何处理的
一个词语,和记黄埔产业股份公司,如何使用lucene拆解成和记 黄埔 产业 股份 公司?
by lizhuang 2008-06-20 浏览 (222) 回复 (2)
Lucene查询的问题
索引的标题是:“中国队勇夺世界杯 ”
如果是的用户输入:勇夺中国队世界杯 的时候可以搜索到这条记录。
by grantbb 2008-03-13 浏览 (500) 回复 (3)
使用MMAnalyzer 搜索出现一些问题
最近新学了LUCENE 发现MMAnalyzer分词后有好多英文没办法查出,不知道是不是所说的stop word ,如果是那应该怎么做才能让它在分词时保留那些单词,以下是我代码,请大家看看有什么方法能查到结果,当然将new MMAnalyzer改成SimpleAnalyzer是能搜索出来的,除此还有其他方式没,
package ch2.lucenedemo.test;
import ja ...
by zhanjianhua 2008-07-11 浏览 (306) 回复 (2)
相关新闻
推荐ruby中文分词器 - RMMSeg
用RoR开发网站经常遇到的一个困扰就是Ruby缺乏良好的中文分词器,虽然ferret可以实现lucene的绝大部分功能,但是ferret自身并没有中文分词器,甚至连CJK两分分词器都没有,因此很多RoR网站不得不通过各种方式去访问lucene来解决分词问题,但RMMSeg项目发布以后,这一切已经成为历史。
RMMSeg是pluskid(浙江大学的学生)开发的ruby中文分词器,在2008年2月份 ...
by robbin 2008-03-05 浏览 (2296) 回复 (3) 关键字: rmmseg
Xapian - C++全文检索程序
Xapian是一个用C++编写的全文检索程序,他的作用类似于Java的lucene。尽管在Java世界lucene已经是标准的全文检索程序,但是C/C++世界并没有相应的工具,而Xapian则填补了这个缺憾。
Xapian的api和检索原理和lucene在很多方面都很相似,但是也有一些地方存在不同,具体请看Xapian自己的文档:http://www.xapian.org/docs/
Xapi ...
by robbin 2008-05-27 浏览 (1141) 回复 (5) 关键字: xapian
为什么说Lucene不好
引言
在Lingway公司,我们使用了Lucene至进今已有好几年时间。对那些刚接触Lucene的人来说,这里是使用它的关键:Apache Lucene是一个由java编写的高性能,全方位的单词搜索引擎库。
在批评它之前,我必须承认Lucene是一个高性能的划词搜索引擎。几年来,Lucene已经被看作是用java编写的嵌入式搜索引擎中的一等公民。它的声誉每日剧增,并 ...
by robertlyc 2008-03-22 浏览 (4351) 回复 (13) 关键字: lucene

