关于一些中文分词器》的相关内容

Lucene中文分词“庖丁解牛”

 Lucene中文分词 “庖丁解牛”  附件 为本人设计编写的组件,中文分词“庖丁解牛”,具有相当好的使用价值。。。 高效率:我的赛扬PC 1 秒解析 >>> 20000汉字的词语  (实际测试结果数据,可达1秒10万+汉字。) 高可维护性:使用“庖丁”隐喻,形象明晰 ...
by Qieqie 2007-01-23 浏览 (49533) 回复 (69) 关键字: 设计模式, 中文分词, 庖丁解牛, 庖丁, lucene

介绍:最新的一种中文分词方式——由字构词

现有的中文分词方法基本上都是采用基于词表的正向最大匹配法进行词语切分。不过这种分词方法具有一个最大的问题,对于未登录词(也就是在词表中并未录入的词)的切分具有先天的不足,一般的解决方法是在基于正向最大匹配法切分模块后再加入一个未登录词模块,用于处理对于未登录词的切分。而在中文分词技术中,对于未登录词的切分错误极大的影响到了整体分词的召回率。现在主流的分词算法对于未登录词的召回率仍然在0.6 左右。 ...
by schweigen 2007-10-08 浏览 (8671) 回复 (19) 关键字: 中文分词 由字构词

搜索篇:lucene的简单实例<一>

说明一下,这一篇文章的用到的lucene,是用2.0版本的,主要在查询的时候2.0版本的lucene与以前的版本有了一些区别. 其实这一些代码都是早几个月写的,自己很懒,所以到今天才写到自己的博客上,高深的文章自己写不了,只能记录下一些简单的记录与点滴,其中的代码算是自娱自乐的,希望高手不要把重构之类的砸下来... 1、在windows系统下的的C盘,建一个名叫s的文件夹,在该文件夹里面随便建三 ...
by lighter 2006-12-19 浏览 (14114) 回复 (29) 关键字: lucene

强大的lucene中文分词器

package com.wellhope.lucene; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.Token; import org.apache.lucene.analysis.TokenStream; import or ...
by leoyang3033 2007-06-07 浏览 (3688) 回复 (9) 关键字: j2ee

自己写的一个基于词库的lucene分词程序--ThesaurusAnalyzer

       前一段时间用lucene做一个搜索程序,找了好长时间的中文分词程序,都没找到合适的,最后自己弄了一个.现在共享出来.希望对大家有用.       分词算法:    基于词库的正向最大匹配算法.      ...
by jolestar 2007-03-10 浏览 (16747) 回复 (19) 关键字: lucene 分词

几个免费的中文分词模块

一、什么是中文分词 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道“student”是一个单词,但是不能很容易明白「学」、「生」两个字合起来才表示一个词。 ...
by lihaiyan 2007-09-27 浏览 (402) 回复 (0) 关键字:

搜索引擎/网络蜘蛛程序源代码

国外开发的相关程序1、Nutch官方网站 http://www.nutch.org/中文站点 http://www.nutchchina.com/最新版本:Nutch 0.7.2 ReleasedNutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,可以建立自己内部网的搜索引擎,也可以针对整个网络建立搜索引擎。自由(Free)而免费(Free)。2、Luce ...
by rcyl2003 2007-09-10 浏览 (14) 回复 (0) 关键字:

搜索引擎学习资源收集

http://www.zhihere.com/bbs/dispbbs.asp?boardid=8&id=630 一、搜索引擎技术/动态资源 <一>、综合类 1、卢亮的搜索引擎研究    [URL=http://www.wespoke.com/][/URL]http://www.wespoke.com/ 卢亮属于搜索引擎开发上的专家,以前 ...
by jeafyezheng 2006-09-29 浏览 (97) 回复 (0) 关键字:

搜索引擎学习资源收集

一、搜索引擎技术/动态资源 <一>、综合类 1、卢亮的搜索引擎研究    [URL=http://www.wespoke.com/][/URL]http://www.wespoke.com/ 卢亮属于搜索引擎开发上的专家,以前开发过一个搜索引擎"博索"([URL=http://booso.com/][/URL]http: ...
by lmx800 2007-01-08 浏览 (717) 回复 (0) 关键字:

搜索引擎资料收集(转)

搜索引擎学习资源收集 一、搜索引擎技术/动态资源 <一>、综合类 1、卢亮的搜索引擎研究 http://www.wespoke.com/ 卢亮属于搜索引擎开发上的专家,以前开发过一个搜索引擎"博索"(http://booso.com/),好像现在已经停止开发了,目前他服务于博客网。在他的这个blog上可以了解许多搜索引擎开发的技术和经验, ...
by weiwu83 2007-12-17 浏览 (153) 回复 (0) 关键字:

google search

这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文 本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含24‘000 ‘000个网页。我们可以从 http://google.stanford.edu/ 下载。 设 计搜索引擎 ...
by dogstar 2008-05-29 浏览 (283) 回复 (0)

推荐ruby中文分词器 - RMMSeg

用RoR开发网站经常遇到的一个困扰就是Ruby缺乏良好的中文分词器,虽然ferret可以实现lucene的绝大部分功能,但是ferret自身并没有中文分词器,甚至连CJK两分分词器都没有,因此很多RoR网站不得不通过各种方式去访问lucene来解决分词问题,但RMMSeg项目发布以后,这一切已经成为历史。 RMMSeg是pluskid(浙江大学的学生)开发的ruby中文分词器,在2008年2月份 ...
by robbin 2008-03-05 浏览 (2006) 回复 (3) 关键字: rmmseg

rmmseg-cpp发布了0.2.5版本

rmmseg-cpp项目是rmmseg的C++实现版本。目前作者pluskid已经在Rubyforge网站上面正式发布了rmmseg-cpp 0.2.5版本,你可以直接用gem安装了: gem install rmmseg-cpp 关于rmmseg-cpp的介绍请看:rmmseg-cpp - 简洁高效的ruby中文分词程序 关于rmmseg的介绍请看:推荐ruby中文分词器 - RM ...
by robbin 2008-06-08 浏览 (529) 回复 (0) 关键字: rmmseg

Xapian - C++全文检索程序

Xapian是一个用C++编写的全文检索程序,他的作用类似于Java的lucene。尽管在Java世界lucene已经是标准的全文检索程序,但是C/C++世界并没有相应的工具,而Xapian则填补了这个缺憾。 Xapian的api和检索原理和lucene在很多方面都很相似,但是也有一些地方存在不同,具体请看Xapian自己的文档:http://www.xapian.org/docs/ Xapi ...
by robbin 2008-05-27 浏览 (938) 回复 (5) 关键字: xapian

推荐知识库条目

Comming soon