《Heritrix使用的初步总结》的相关内容
相关讨论
相关博客
Heritrix运行配置
看了自己动手做搜索引擎那本书,上面写的运行heritrix的方法挺麻烦的!要加载好多jar包,懒得弄。后来发现bin文件夹里面本来就有一个heritrix.cmd的文件,我想着一定就是windows下的运行文件,运行了一下,提示输入用户名密码!
输入用户名密码了以后,又说找不到密码文件“jmxremote.password”。我发现在conf文件夹里面就有一个jmxrem ...
by rcyl2003 2007-10-25 浏览 (35) 回复 (0) 关键字:
heritrix的web应用
第一步启动heritrix的web应用
第二步结合eclipse的应用
Lucene很强大,这点在前面的章节中,已经作了详细介绍。但是,无论多么强大的搜索引擎工具,在其后台,都需要一样东西来支援它,那就是网络爬虫Spider。
网络爬虫,又被称为蜘蛛Spider,或是网络机器人、BOT等,这些都无关紧要,最重要的是要认识到,由于爬虫的存在,才使得搜索引擎有了丰富的资源。
Heritrix是一个纯由 ...
by zhangljerry 2007-07-18 浏览 (1339) 回复 (0) 关键字:
Heritrix 爬虫与Nutch 爬虫
在邮件列表中看到有人问 Heritrix 爬虫与 Nutch 爬虫的不同。搜索了一下,该项目的领导者是 Gordon Mohr ,Heritrix 主要用在 http://www.archive.org 。基本定义描述:
Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-qualit ...
by bjxagu 2008-08-10 浏览 (73) 回复 (1) 关键字: heritrix nutch 爬虫
Heritrix使用摘要
1. 在Eclipse下新建立一个Java Project(名字随便起),把提供的heritrixSpider下的内容全部拷贝到刚才建的工程的Eclipse目录下;
2. 在Eclipse工程目录下,找到org.archive.crawler包下的Heritrix.java文件,选择该文件,点右键->Run As->Java Application,运行程序,当Eclipse Console里出现 ...
by loveofgod 2008-04-14 浏览 (572) 回复 (1) 关键字:
相关圈子讨论
Heritrix如果用编程启动呢?
现在要把Heritrix整合到我们项目,怎么用代码来启动Heritrix并执行一个job呢?
by biaoming 2008-06-17 浏览 (250) 回复 (5)
相关新闻
Ruby on Rails 2.0的新功能介绍
万众瞩目的Ruby on Rails 2.0已经发布了,Rails框架在2004年诞生以来,一直保持着相当快的版本升级速度:2005年发布了Rails1.0版本,2006年初发布Rails1.1版本,2007年初发布Rails1.2版本,而还没有等到2008年,在2007年圣诞前夕的12月6日,Rails2.0已经发布。
Rails框架每个大的版本升级都给我们带来了相当多的新功能,新惊喜。Rai ...
by robbin 2007-12-10 浏览 (3547) 回复 (4) 关键字: rails

