《Nutch源代码学习小小总结一下》的相关内容
相关讨论
Skynet --- ruby的类Google Map/Reduce框架
Skynet是一个很响亮的名字,因为它是阿诺施瓦辛格主演的经典系列电影《终结者》里面的统治人类的超级计算机网络。不过本文的Skynet没这么恐怖,它是一个ruby版本的Google Map/Reduce框架的名字而已。
Google的Map/Reduce框架实在太有名气了,他可以把一个任务切分为很多份,交给n台计算机并行执行,返回的结果再并行的归并,最后得到运算的结果。据说Google一个搜索结 ...
by robbin 2008-06-02 浏览 (3285) 回复 (7) 关键字: skynet, mapreduce
有人研究nutch吗?
最近由于工作需要,研究了一下nutch,遇到几个问题,不知道有没有这方面有经验的同行
一是url抓取的过滤正则crawl-urlfilter.txt 加上 +^http://abc.com/[a-zA-Z]*/就不能正常抓取
二是我只想抓取详细内容页,即不想抓取列表页,但想想在抓取上没法做.因为过滤了列表页就不会有详细页,所以我在创建索引上过滤,只索引详细页,在regex-urlfilter.tx ...
by hypcloud 2006-12-08 浏览 (1843) 回复 (6) 关键字:
Heritrix使用的初步总结
一、框架介绍
公司最近项目要用到全文检索,检索对象是一些网站的网页内容,要使用到网络爬虫工具。
目前技术选型对象主要有两个:Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘 ...
by jason823 2007-05-29 浏览 (5392) 回复 (6) 关键字:
毕业设计3---Nutch的使用
今天研究了Nutch, 差不多已经好几个小时了, 到现在还没有搞定,也这么晚了, 先记录下来,明天继续吧。
一开始很多时间都浪费在了cygwin的安装上了,bs这个软件的开发者了, 一个不伦不类的软件安装程序,安装的时候还要从网上下载东东 ...
by fullfocus 2007-03-02 浏览 (2568) 回复 (1) 关键字: nutch 毕业设计 搜索引擎 爬虫
相关博客
Nutch搜索引擎分析
21世纪是信息的时代,也是网络的时代。不断通畅与进步的互联网在给人们带来浩如烟海的网络信息的同时,也容易使人在查询自己所需的有用的相关信息时陷入 迷茫。搜索引擎正是为了满足人们网络信息搜索应运而生的网络工具,它是互联网信息查询的导航针。现在的商业搜索引擎不少,但都是保密的,不便研究。而 Nutch 是一个开源Java 实现的搜索引擎,它提供了我们运行自己的搜索引擎所需的全部工具。
  ...
by lmx800 2007-01-07 浏览 (308) 回复 (0) 关键字:
Nutch源代码给我的收获
1)构建搜索引擎的一般模式。虽然,原来在读网络机器人这本书的时候就大致了解了构建一个搜索引擎所需要的几个组成部分,但只有真正接触Nutch这样真实,全面,可行的解决方案后,才真正能对搜索引擎的一般模式有所了解
2)并行编程和算法。以前就知道搜索引擎里的算法都是并行,但如何构建这样的程序完全没有谱。但Nutch给出了例子和答案。
3)map reduce模型。以前读过google lib里面关 ...
by cutesource 2007-05-18 浏览 (557) 回复 (0) 关键字:
Nutch 完整安装文档
Nutch 安装文档
安装Cygwin
首先,我们去http://www-inst.eecs.berkeley.edu/~instcd/iso/下载到Cygwin软件的ISO文件,用Daemon软件将其设为虚拟光驱后,双击其中的Setup文件,出现程序安装的向导界面(如图1所示)。
&n ...
by lizhengfa 2007-10-18 浏览 (992) 回复 (0) 关键字:
nutch应用-安装与使用(转)
原文 http://blog.sina.com.cn/u/5595d514010008io
nutch是一个非常不错的项目,由于最近我需要对一些内部的文档和站点建一个search的站点,所以又开始了nutch的旅程。不过这次是坎坎坷坷, 尽把问题出在了小地方了。当然,也有很久没有再用过nutch了,之前哪次还是一年前的事了。现在的0.8.1变化也是很大。本文所讲述的版本都是基于 0.8.1来讲的 ...
by cutesource 2007-04-20 浏览 (336) 回复 (0) 关键字:
相关圈子讨论
nutch中分布式文件系统介绍
NDFS:在一系列机器上存储庞大的面向流的文件,包含多机的存储冗余和负载均衡。
文件以块为单位存储在NDFS的离散机器上,提供一个传统的input/output流接口用于文件读写。
块的查找以及数据在网络上传输等细节由NDFS自动完成,对用户是透明的。而且NDFS能很好地处理
用于存储的机器序列,能方便地添加和删除一台机器。当某台机器不可用时,NDFS自动的保证文件
的可用性。只要 ...
by dogstar 2008-05-29 浏览 (182) 回复 (0)
[转贴]你的编程语言可以这样做吗
英文原版在:http://www.joelonsoftware.com/items/2006/08/01.html
http://jstang.5d6d.com/thread-185-1-1.html
一篇很好的关于map/reduce的示范文章。看了这个,你就会理解prototype.js中Enumerable的精髓。
通过它,你可以写出很多非常奇特非常美妙的代码。短短几行,功能可不简单哦 ...
by sp42 2007-06-18 浏览 (955) 回复 (2)
来,排队自报家门,统计下
我,习惯id:J.L, 现在居于上海, 工作:专职搜索。空余时间: lucene推广和宣传,搜索技术商业方案(不包括与现在公司竞争的企业)。2007年的方向: 深度挖掘数据(大规模搜索平台), 广度挖掘商机(商业顾问)。
2005年接触lucene,2006年正式接触lucene。
下面同学排好队哦。
by imjl 2007-06-21 浏览 (4288) 回复 (42)
相关新闻
推荐知识库条目
Comming soon

