JavaEye3.0开发手记之三 - 狮身人面》的相关内容

Rails程序员Sphinx中文全文检索安装指南

robbin以前曾经在JavaEye介绍过Sphinx这个性能优异的全文检索引擎: http://www.javaeye.com/topic/122696 当时Sphinx还不支持中文分词,现在情况已经完全改变了。李沫南为Sphinx开发了中文分词的插件——libmmseg。对于libmmseg,robbin以前也有介绍,不过是用在Ferret里面。 http://www.javaeye.com ...
by dlee 2008-06-04 浏览 (3317) 回复 (10) 关键字: 全文检索

关于Sphinx/Ultrasphinx的说明

关于Sphinx/Ultrasphinx的安装,请看我写的安装指南:http://www.javaeye.com/topic/200065 1. Sphinx是一个全文检索引擎,它是使用C++开发的,分成三部分:索引创建工具(indexer)、全文检索服务(searchd)、全文检索客户端。它的客户端有三种类型:通过独立的应用程序search来访问、通过使用各种语言的Sphinx API库编写程 ...
by dlee 2008-06-13 浏览 (309) 回复 (0) 关键字: 全文检索

JavaEye3.0开发手记之四 - ruby的全文检索

在Java平台上面,lucene是众望所归的全文检索工具,lucene性能不俗,程序稳定,第三方扩展和分词算法众多,但是在RoR方面,就没有那么幸运了,JavaEye网站要做全文检索,怎么来解决全文检索的问题呢? 在ruby平台上面,全文检索有三个途径: 1、solr, acts_as_solr solr是apache开源组织的一个项目,完全基于lucene的最新版本,在lucene的上层提 ...
by robbin 2007-09-28 浏览 (9369) 回复 (16) 关键字:

使用libmmseg实现Ruby的中文分词功能

用Ruby on Rails开发web2.0网站的人都知道,ruby的全文检索功能不像Java支持的那样好,要提供中文的全文检索功能是一件很困难的事情,而偏偏全文检索是web2.0网站绕不过去的一道坎。虽然ruby也有类似lucene的全文检索软件ferret,但是ferret本身并没有提供中文分词功能,必须自己另行扩展中文分词功能。因此攻克ruby中文全文检索功能的瓶颈在于提供ruby的中文分词 ...
by robbin 2008-05-24 浏览 (1359) 回复 (8) 关键字: libmmseg

最近想找些关于全文检索的资料

这几天想找找跟全文检索相关的资料。看了Robbin几个人的文章发现都只是点到为止。提到了几种方法solr,sphinx ,ferret 。具体请看这里 robbin 的文章。其中讲到了全文检索中中文分词的一些难题。因为还是初学者,很多东西不是很了。找了些国外的资料发现很多国外的网站也开始从ferret转移到用sphinx。 以下是一些对ferret的一些评论: 引用In past projects ...
by genki 2008-02-18 浏览 (266) 回复 (0) 关键字: rails

JavaEye3.0开发手记之四 - ruby的全文检索

在Java平台上面,lucene是众望所归的全文检索工具,lucene性能不俗,程序稳定,第三方扩展和分词算法众多,但是在RoR方面,就没有那么幸运了,JavaEye网站要做全文检索,怎么来解决全文检索的问题呢? 在ruby平台上面,全文检索有三个途径: 1、solr, acts_as_solr solr是apache开源组织的一个项目,完全基于lucene的最新版本,在lucene的上层提 ...
by robbin 2007-09-28 浏览 (9430) 回复 (16) 关键字:

使用libmmseg实现Ruby的中文分词功能

用Ruby on Rails开发web2.0网站的人都知道,ruby的全文检索功能不像Java支持的那样好,要提供中文的全文检索功能是一件很困难的事情,而偏偏全文检索是web2.0网站绕不过去的一道坎。虽然ruby也有类似lucene的全文检索软件ferret,但是ferret本身并没有提供中文分词功能,必须自己另行扩展中文分词功能。因此攻克ruby中文全文检索功能的瓶颈在于提供ruby的中文分词 ...
by robbin 2008-05-24 浏览 (1388) 回复 (8) 关键字: libmmseg

LUCENE(java分词工具)

转自:http://www.javaeye.com/blog/127968 简述: 在Java平台上面,lucene是众望所归的全文检索工具,lucene性能不俗,程序稳定,第三方扩展和分词算法众多 在RoR方面,1、solr, acts_as_solr,2、sphinx,3、ferret
by yoyox 2007-10-09 浏览 (469) 回复 (0) 关键字: 分词

rmmseg-cpp - 简洁高效的ruby中文分词程序

我在前一篇文章向大家介绍了libmmseg实现ruby的中文分词,在这篇文章当中向大家介绍另外一个优秀的ruby中文分词程序rmmseg-cpp。 rmmseg是浙江大学的学生pluskid开发的纯ruby版本的中文分词程序,采用的也是“基于词典的最大匹配算法”,rmmseg的相关介绍请看:http://www.javaeye.com/news/1380。 rmmseg的主要问题是性能和内存消 ...
by robbin 2008-05-27 浏览 (1416) 回复 (1) 关键字: rmmseg

google search

这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文 本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含24‘000 ‘000个网页。我们可以从 http://google.stanford.edu/ 下载。 设 计搜索引擎 ...
by dogstar 2008-05-29 浏览 (280) 回复 (0)

关于lucene的分词和查询

我想问下,如果我把一个中文字符传在索引的时候进行了分词,查询的时候也使用同一个分词器. 如何让查询按照最大匹配度去进行? 比如索引里的字符传是"问题说明越详细",分词分成了"问题","说明","越","详细". 我用"如果问题说明越详细,回答也会越准确!"去查询,希望能查询到这个结果,需要怎么做? 刚接触lucene,还很不熟悉.
by shadowlin 2008-05-26 浏览 (1008) 回复 (18)

Lucene查询的问题

索引的标题是:“中国队勇夺世界杯 ” 如果是的用户输入:勇夺中国队世界杯 的时候可以搜索到这条记录。
by grantbb 2008-03-13 浏览 (483) 回复 (3)

在索引从数据库中读取的文档时的转码问题

环境:lucene2.0+pdfbox0.7.3+oracle10.2 中文分词jar包是IKAnalyzer.jar,很常用的。 我把文档以ordsys.orddoc类型存储的oracle数据库中,可以获取到数据的byte[]和inputstream, InputStream is = ordDoc.getDataInStream();//获取inputstream Document doc ...
by xxwang1984 2008-07-09 浏览 (112) 回复 (2)

猜猜javaeye的下一个炒作热点是什么?

Rangers 写道 2003年到2005年 hibernate and 敏捷 VS RUP VS CMM 2004年底到2005年初 EJB已死 and without EJB and 轻量级容器 2005年中旬到2006年中 Ajax and web 2.0 and 改善用户体验 2005年底到现在 ROR and MAC OS and MAC book 宣传热点对一个技术网站来说本 ...
by robbin 2006-09-07 浏览 (12964) 回复 (70)

推荐ruby中文分词器 - RMMSeg

用RoR开发网站经常遇到的一个困扰就是Ruby缺乏良好的中文分词器,虽然ferret可以实现lucene的绝大部分功能,但是ferret自身并没有中文分词器,甚至连CJK两分分词器都没有,因此很多RoR网站不得不通过各种方式去访问lucene来解决分词问题,但RMMSeg项目发布以后,这一切已经成为历史。 RMMSeg是pluskid(浙江大学的学生)开发的ruby中文分词器,在2008年2月份 ...
by robbin 2008-03-05 浏览 (2006) 回复 (3) 关键字: rmmseg

Xapian - C++全文检索程序

Xapian是一个用C++编写的全文检索程序,他的作用类似于Java的lucene。尽管在Java世界lucene已经是标准的全文检索程序,但是C/C++世界并没有相应的工具,而Xapian则填补了这个缺憾。 Xapian的api和检索原理和lucene在很多方面都很相似,但是也有一些地方存在不同,具体请看Xapian自己的文档:http://www.xapian.org/docs/ Xapi ...
by robbin 2008-05-27 浏览 (938) 回复 (5) 关键字: xapian

苹果MacOSX 10.5发布,完美的Ruby开发环境

万众瞩目的苹果Mac OS X 10.5将于北京时间2007年10月26日晚18:00发布,届时苹果会举行盛大的发布Party。在苹果新版本的操作系统当中,我们最关心的就是10.5里面带有哪些开发工具呢?答案就是全套Ruby on rails环境! 1、Ruby 1.8.6 p36 已经作为OS 10.5系统框架的一部分集成进来了。在p36版本之上,苹果公司还打了一些关于线程调度方面的补丁,解 ...
by robbin 2007-10-26 浏览 (3200) 回复 (12) 关键字: macos ruby

推荐知识库条目

Comming soon