Java开源搜索引擎[收藏]》的相关内容

Lucene中文分词“庖丁解牛”

 Lucene中文分词 “庖丁解牛”  附件 为本人设计编写的组件,中文分词“庖丁解牛”,具有相当好的使用价值。。。 高效率:我的赛扬PC 1 秒解析 >>> 20000汉字的词语  (实际测试结果数据,可达1秒10万+汉字。) 高可维护性:使用“庖丁”隐喻,形象明晰 ...
by Qieqie 2007-01-23 浏览 (48093) 回复 (69) 关键字: 设计模式, 中文分词, 庖丁解牛, 庖丁, lucene

JavaEye3.0开发手记之四 - ruby的全文检索

在Java平台上面,lucene是众望所归的全文检索工具,lucene性能不俗,程序稳定,第三方扩展和分词算法众多,但是在RoR方面,就没有那么幸运了,JavaEye网站要做全文检索,怎么来解决全文检索的问题呢? 在ruby平台上面,全文检索有三个途径: 1、solr, acts_as_solr solr是apache开源组织的一个项目,完全基于lucene的最新版本,在lucene的上层提 ...
by robbin 2007-09-28 浏览 (9138) 回复 (16) 关键字:

自己写的一个基于词库的lucene分词程序--ThesaurusAnalyzer

       前一段时间用lucene做一个搜索程序,找了好长时间的中文分词程序,都没找到合适的,最后自己弄了一个.现在共享出来.希望对大家有用.       分词算法:    基于词库的正向最大匹配算法.      ...
by jolestar 2007-03-10 浏览 (16386) 回复 (19) 关键字: lucene 分词

使用solr搭建你的全文检索

Solr 是一个可供企业使用的、基于 Lucene 的开箱即用的搜索服务器。对Lucene不熟?那么建议先看看下面两篇文档: 实战Lucene,第 1 部分: 初识 Lucene:http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/ 用Lucene加速Web搜索应用程序的开发:http://www.ibm.com/developerwo ...
by ronghao 2007-11-06 浏览 (1149) 回复 (3) 关键字:

搜索篇:lucene简单实例<二>

写文章的时候,感觉比较难写的就是标题,有时候不知道起什么名字好,反正这里写的都是关于lucene的一些简单的实例,就随便起啦. Lucene 其实很简单的,它最主要就是做两件事:建立索引和进行搜索 来看一些在lucene中使用的术语,这里并不打算作详细的介绍,只是点一下而已----因为这一个世界有一种好东西,叫搜索。 IndexWriter:lucene中最重要的的类之一,它主要是用来将文档加 ...
by lighter 2006-12-20 浏览 (11918) 回复 (15) 关键字: lucene

Java技术开源搜索引擎

Egothor Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。     Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。   ...
by panjun 2008-06-24 浏览 (276) 回复 (2) 关键字:

Java开源搜索引擎(转载)

Egothor Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Lucene Apache ...
by gao_20022002 2008-06-27 浏览 (51) 回复 (0) 关键字: java

盘点Java技术开源搜索引擎

Egothor Egothor是一个用Java编写的开源 而高效的全文本搜索引擎。借助Java的跨平台 特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Lucene &nb ...
by ranfow 2008-06-28 浏览 (108) 回复 (0) 关键字:

Java开源搜索引擎

1-->Egothor Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。 2-->Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫. 3-->Lucene Apache ...
by genghaixu 2008-04-22 浏览 (94) 回复 (0) 关键字:

开放源代码搜索引擎

开放源代码搜索引擎为人们学习、研究并掌握搜索技术提供了极好的途径与素材,推动了搜索技术的普及与发展,使越来越多的人开始了解并推广使用搜索技术。使用开源搜索引擎,可以大大缩短构建搜索应用的周期,并可根据应用需求打造个性化搜索应用,甚至构建符合特定需求的搜索引擎系统。搜索引擎的开源,无论是对技术人员还是普通用户,都是一个福音。  搜索引擎的工作流程主要分为三步:从互联网抓取网页→ ...
by coreoak 2007-06-02 浏览 (771) 回复 (0) 关键字: 开放源代码搜索引擎

google search

这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文 本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含24‘000 ‘000个网页。我们可以从 http://google.stanford.edu/ 下载。 设 计搜索引擎 ...
by dogstar 2008-05-29 浏览 (189) 回复 (0)

来,排队自报家门,统计下

我,习惯id:J.L, 现在居于上海, 工作:专职搜索。空余时间: lucene推广和宣传,搜索技术商业方案(不包括与现在公司竞争的企业)。2007年的方向: 深度挖掘数据(大规模搜索平台), 广度挖掘商机(商业顾问)。 2005年接触lucene,2006年正式接触lucene。 下面同学排好队哦。
by imjl 2007-06-21 浏览 (3852) 回复 (42)

lucene相关搜索如何做的

想做一个相关搜索的东东,但是不知从哪下手。请指教
by tomdev 2008-05-12 浏览 (452) 回复 (6)

土豆网招聘搜索引擎工程师 - 火热进行中

任职要求 * 大学本科以上学历,两年以上Java开发经验,熟悉Spring、Struts等开源框架 * 熟练掌握数据结构、常用算法 * 熟悉Lucene程序开发,有Lucene项目开发经验 * 有分布式搜索引擎的开发经验 * 搜索引擎各子系统(Spider、Indexer、Searcher、分词、网页仓库)的设计和实现 * 搜索引擎的性能优化分析和 ...
by grantbb 2007-08-31 浏览 (386) 回复 (0)

google背后的分布式架构

Google背后的分布式计算架构策略 Google是与众不同的。它的独特不仅仅表现于革新的思维和充满创意的应用 (比如那个大堂里的地球模型),更在于其有别常规的IT策略……   加利福尼亚州山景城(Mountain View)Google公司(Google,下称Google)总部有一个43号大楼,该建筑的中央大屏幕上显示着一个与Google地球(Google Earth)相仿的世界地图,一个转动 ...
by dogstar 2008-05-29 浏览 (667) 回复 (0)

为什么说Lucene不好

引言 在Lingway公司,我们使用了Lucene至进今已有好几年时间。对那些刚接触Lucene的人来说,这里是使用它的关键:Apache Lucene是一个由java编写的高性能,全方位的单词搜索引擎库。   在批评它之前,我必须承认Lucene是一个高性能的划词搜索引擎。几年来,Lucene已经被看作是用java编写的嵌入式搜索引擎中的一等公民。它的声誉每日剧增,并 ...
by robertlyc 2008-03-22 浏览 (3907) 回复 (13) 关键字: lucene

基于Spindle的增强HTTP Spider

构建于lucene之上的可用的Java开源Spider少之又少,spindle长期没有更新且功能不够完善,故而自己参考其源 代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正, 有任何意见及建议均可Email联系我(kaninebruno@hotmail.com) 以下代码基于lucene-2.3.1,htmlparser-1.6, ...
by brunoplum 2008-04-01 浏览 (1063) 回复 (5) 关键字: spindle

庖丁中文分词示例应用paoding.net已上线使用

庖丁解牛是Javaeye的会员Qieqie开发的一套基于Lucene中文分词工具, 最近发布了一个在线演示版本. 地址:http://paoding.net 这是庖丁中文分词的示例应用。使用的分词器版本是2.0.4-alpha2(发布时间是2007-10-22日)。 ---------------------------------------------------------- 索引范围 ...
by Qieqie 2007-10-26 浏览 (1107) 回复 (2) 关键字: 分词 Lucene

推荐知识库条目

Comming soon