搜索引擎Nutch源代码研究之一 网页抓取(1)》的相关内容

关于heritrix扩展QueueAssignmentPolicy产生的问题

一般来说,heritrix应用HostnameQueueAssignmentPolicy,一个host对应一个抓取队列。每个队列每时刻只产生一个抓取线程,以对网站文明的抓取。但是我们对少数几个网站采集时,这样做采集速度未免也太慢了。于是有人用ELF hash算法把url尽量平均分部到各个队列中去: public class ELFHashQueueAssignmentPolicy exten ...
by sole 2008-05-25 浏览 (129) 回复 (0)

基于Spindle的增强HTTP Spider

构建于lucene之上的可用的Java开源Spider少之又少,spindle长期没有更新且功能不够完善,故而自己参考其源 代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正, 有任何意见及建议均可Email联系我(kaninebruno@hotmail.com) 以下代码基于lucene-2.3.1,htmlparser-1.6, ...
by brunoplum 2008-04-01 浏览 (1216) 回复 (6) 关键字: spindle

Ruby on Rails 2.0的新功能介绍

万众瞩目的Ruby on Rails 2.0已经发布了,Rails框架在2004年诞生以来,一直保持着相当快的版本升级速度:2005年发布了Rails1.0版本,2006年初发布Rails1.1版本,2007年初发布Rails1.2版本,而还没有等到2008年,在2007年圣诞前夕的12月6日,Rails2.0已经发布。 Rails框架每个大的版本升级都给我们带来了相当多的新功能,新惊喜。Rai ...
by robbin 2007-12-10 浏览 (3199) 回复 (4) 关键字: rails

Rails 2.0 Preview Release

原文: http://weblog.rubyonrails.org/2007/9/30/rails-2-0-0-preview-release Action Pack: Resources 1,RESTful风格改进: /people/1;edit将变成/people/1/edit 2,添加routing名字空间 map.namespace(:admin) do |admin| ad ...
by hideto 2007-10-04 浏览 (871) 回复 (0) 关键字: Rails 2.0

推荐知识库条目

Comming soon