《搜索引擎Nutch源代码研究之一 网页抓取(1)》的相关内容
相关讨论
相关博客
相关圈子讨论
关于heritrix扩展QueueAssignmentPolicy产生的问题
一般来说,heritrix应用HostnameQueueAssignmentPolicy,一个host对应一个抓取队列。每个队列每时刻只产生一个抓取线程,以对网站文明的抓取。但是我们对少数几个网站采集时,这样做采集速度未免也太慢了。于是有人用ELF hash算法把url尽量平均分部到各个队列中去:
public class ELFHashQueueAssignmentPolicy exten ...
by sole 2008-05-25 浏览 (129) 回复 (0)
相关新闻
基于Spindle的增强HTTP Spider
构建于lucene之上的可用的Java开源Spider少之又少,spindle长期没有更新且功能不够完善,故而自己参考其源
代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正,
有任何意见及建议均可Email联系我(kaninebruno@hotmail.com)
以下代码基于lucene-2.3.1,htmlparser-1.6, ...
by brunoplum 2008-04-01 浏览 (1216) 回复 (6) 关键字: spindle
Ruby on Rails 2.0的新功能介绍
万众瞩目的Ruby on Rails 2.0已经发布了,Rails框架在2004年诞生以来,一直保持着相当快的版本升级速度:2005年发布了Rails1.0版本,2006年初发布Rails1.1版本,2007年初发布Rails1.2版本,而还没有等到2008年,在2007年圣诞前夕的12月6日,Rails2.0已经发布。
Rails框架每个大的版本升级都给我们带来了相当多的新功能,新惊喜。Rai ...
by robbin 2007-12-10 浏览 (3199) 回复 (4) 关键字: rails
Rails 2.0 Preview Release
原文: http://weblog.rubyonrails.org/2007/9/30/rails-2-0-0-preview-release
Action Pack: Resources
1,RESTful风格改进:
/people/1;edit将变成/people/1/edit
2,添加routing名字空间
map.namespace(:admin) do |admin|
ad ...
by hideto 2007-10-04 浏览 (871) 回复 (0) 关键字: Rails 2.0
推荐知识库条目
Comming soon

