|
锁定老贴子 主题:国内有nutch项目应用吗
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
|---|---|
| 作者 | 正文 |
|
时间:2006-05-08
国内有nutch项目应用吗
声明:JavaEye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
|
|
| 返回顶楼 | |
|
时间:2006-05-08
jfish 写道 国内有nutch项目应用吗
我们正在研究这玩意。 |
|
| 返回顶楼 | |
|
时间:2006-05-08
jfish 写道 国内有nutch项目应用吗
呵呵, 这个不太清楚,不过用lucene 和 hadoop 会更好,我就用lucene 写了公司的rss search engine, nutch 是一个全的搜索引擎(爬虫、检索),对你不一定适用。 |
|
| 返回顶楼 | |
|
时间:2006-05-08
关注中,包括compass
|
|
| 返回顶楼 | |
|
时间:2006-05-10
jfish 写道 国内有nutch项目应用吗
先写一个初始化网站列表 然后generate 出fetchlist 然后fetch 这个fetchlist 然后updatedb保存fetch的结果 继续generate出新的fetchlist ... 重复以上若干次结果后可以作一次index生成完整的索引 intranet和whole web抓取只是脚本写的不同,后台的代码是一致的 不过nutch plugin的做法很好玩,很象eclipse的做法 |
|
| 返回顶楼 | |
|
时间:2006-05-15
|
|
| 返回顶楼 | |
|
时间:2006-05-15
pikachu 写道
nutch是模仿google这样的搜索引擎在外部进行搜索,开发程序的时候可以不关心它,lucene是在内部进行索引,需要开发者在开发的时候关注它,两者不是一个互补的关系而是竞争关系,nutch对服务器造成的负荷比lucene大 这样理解对不对?能不能详细介绍和对比一下它们的优缺点? |
|
| 返回顶楼 | |
|
时间:2006-05-16
lucene 和nutch并不是竞争关系(nutch里面的全文检索用的就是lucene)!
lucene专攻全文检索(包括建立索引、查询索引,本身不关心索引的保存),但不考虑被索引的内容来自何处,国内车东的网站有很好的介绍文章。 nutch则恰恰强于内容的获取(尤其是从外部(例如,其他网站)),并针对获取的内容设计了一个文件系统(好像名字叫hadoop?),nutch提供的全文检索从它的lib目录就可以看到,使用的是lucene。 可见nutch和lucene是相辅相成的关系,倒是nutch和Heritrix(一个网络爬虫)有竞争的样子,不过侧重点不同。 |
|
| 返回顶楼 | |
|
时间:2006-05-17
sendtome 写道 lucene 和nutch并不是竞争关系(nutch里面的全文检索用的就是lucene)!
lucene专攻全文检索(包括建立索引、查询索引,本身不关心索引的保存),但不考虑被索引的内容来自何处,国内车东的网站有很好的介绍文章。 nutch则恰恰强于内容的获取(尤其是从外部(例如,其他网站)),并针对获取的内容设计了一个文件系统(好像名字叫hadoop?),nutch提供的全文检索从它的lib目录就可以看到,使用的是lucene。 可见nutch和lucene是相辅相成的关系,倒是nutch和Heritrix(一个网络爬虫)有竞争的样子,不过侧重点不同。 我的意思是以前是要在系统里面用lucene来索引内容,现在有了nutch,系统就可以不用lucene了,用nutch独立的去从页面索引内容,生成索引文件,然后在系统里面简单的调用nutch的api来搜索就可以了,也就是用了nutch,不必再在系统里面用lucene来检索了 |
|
| 返回顶楼 | |
|
时间:2006-05-17
hadoop不是单纯的文件系统,是分布式计算的框架。
|
|
| 返回顶楼 | |










