论坛首页 Java版 企业应用

国内有nutch项目应用吗

浏览 6307 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
时间:2006-05-08
国内有nutch项目应用吗
   
时间:2006-05-08
jfish 写道
国内有nutch项目应用吗


我们正在研究这玩意。
   
0 请登录后投票
时间:2006-05-08
jfish 写道
国内有nutch项目应用吗


呵呵, 这个不太清楚,不过用lucene 和 hadoop 会更好,我就用lucene 写了公司的rss search engine, nutch 是一个全的搜索引擎(爬虫、检索),对你不一定适用。
   
0 请登录后投票
时间:2006-05-08
关注中,包括compass
   
0 请登录后投票
时间:2006-05-10
jfish 写道
国内有nutch项目应用吗

先写一个初始化网站列表
然后generate 出fetchlist
然后fetch 这个fetchlist
然后updatedb保存fetch的结果
继续generate出新的fetchlist
...

重复以上若干次结果后可以作一次index生成完整的索引



intranet和whole web抓取只是脚本写的不同,后台的代码是一致的

不过nutch plugin的做法很好玩,很象eclipse的做法
   
0 请登录后投票
时间:2006-05-15
正好看到
http://blog.csdn.net/danny_xcz/archive/2006/05/12/725937.aspx
   
0 请登录后投票
时间:2006-05-15
pikachu 写道


nutch是模仿google这样的搜索引擎在外部进行搜索,开发程序的时候可以不关心它,lucene是在内部进行索引,需要开发者在开发的时候关注它,两者不是一个互补的关系而是竞争关系,nutch对服务器造成的负荷比lucene大
这样理解对不对?能不能详细介绍和对比一下它们的优缺点?
   
0 请登录后投票
时间:2006-05-16
lucene 和nutch并不是竞争关系(nutch里面的全文检索用的就是lucene)!
lucene专攻全文检索(包括建立索引、查询索引,本身不关心索引的保存),但不考虑被索引的内容来自何处,国内车东的网站有很好的介绍文章。
nutch则恰恰强于内容的获取(尤其是从外部(例如,其他网站)),并针对获取的内容设计了一个文件系统(好像名字叫hadoop?),nutch提供的全文检索从它的lib目录就可以看到,使用的是lucene。

可见nutch和lucene是相辅相成的关系,倒是nutch和Heritrix(一个网络爬虫)有竞争的样子,不过侧重点不同。
   
0 请登录后投票
时间:2006-05-17
sendtome 写道
lucene 和nutch并不是竞争关系(nutch里面的全文检索用的就是lucene)!
lucene专攻全文检索(包括建立索引、查询索引,本身不关心索引的保存),但不考虑被索引的内容来自何处,国内车东的网站有很好的介绍文章。
nutch则恰恰强于内容的获取(尤其是从外部(例如,其他网站)),并针对获取的内容设计了一个文件系统(好像名字叫hadoop?),nutch提供的全文检索从它的lib目录就可以看到,使用的是lucene。

可见nutch和lucene是相辅相成的关系,倒是nutch和Heritrix(一个网络爬虫)有竞争的样子,不过侧重点不同。

我的意思是以前是要在系统里面用lucene来索引内容,现在有了nutch,系统就可以不用lucene了,用nutch独立的去从页面索引内容,生成索引文件,然后在系统里面简单的调用nutch的api来搜索就可以了,也就是用了nutch,不必再在系统里面用lucene来检索了
   
0 请登录后投票
时间:2006-05-17
hadoop不是单纯的文件系统,是分布式计算的框架。
   
0 请登录后投票
论坛首页 Java版 企业应用

跳转论坛:
JavaEye推荐