Heritrix使用的初步总结》的相关内容

Heritrix运行配置

看了自己动手做搜索引擎那本书,上面写的运行heritrix的方法挺麻烦的!要加载好多jar包,懒得弄。后来发现bin文件夹里面本来就有一个heritrix.cmd的文件,我想着一定就是windows下的运行文件,运行了一下,提示输入用户名密码! 输入用户名密码了以后,又说找不到密码文件“jmxremote.password”。我发现在conf文件夹里面就有一个jmxrem ...
by rcyl2003 2007-10-25 浏览 (35) 回复 (0) 关键字:

heritrix的web应用

第一步启动heritrix的web应用 第二步结合eclipse的应用 Lucene很强大,这点在前面的章节中,已经作了详细介绍。但是,无论多么强大的搜索引擎工具,在其后台,都需要一样东西来支援它,那就是网络爬虫Spider。 网络爬虫,又被称为蜘蛛Spider,或是网络机器人、BOT等,这些都无关紧要,最重要的是要认识到,由于爬虫的存在,才使得搜索引擎有了丰富的资源。 Heritrix是一个纯由 ...
by zhangljerry 2007-07-18 浏览 (1339) 回复 (0) 关键字:

Heritrix 爬虫与Nutch 爬虫

在邮件列表中看到有人问 Heritrix 爬虫与 Nutch 爬虫的不同。搜索了一下,该项目的领导者是 Gordon Mohr ,Heritrix 主要用在 http://www.archive.org 。基本定义描述: Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-qualit ...
by bjxagu 2008-08-10 浏览 (73) 回复 (1) 关键字: heritrix nutch 爬虫

Heritrix

Heritrix项目介绍 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆。在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种: 宽带爬虫:能够以更高的带宽去站点爬。 主题爬虫:集中于被选择的问题。 持续爬虫:不仅仅爬更当前的网页还负责爬日后更新的网页。 实验爬虫:对爬虫技术 ...
by bjxagu 2008-08-10 浏览 (43) 回复 (0) 关键字: heritrix 爬虫

Heritrix使用摘要

1. 在Eclipse下新建立一个Java Project(名字随便起),把提供的heritrixSpider下的内容全部拷贝到刚才建的工程的Eclipse目录下; 2. 在Eclipse工程目录下,找到org.archive.crawler包下的Heritrix.java文件,选择该文件,点右键->Run As->Java Application,运行程序,当Eclipse Console里出现 ...
by loveofgod 2008-04-14 浏览 (572) 回复 (1) 关键字:

Heritrix如果用编程启动呢?

现在要把Heritrix整合到我们项目,怎么用代码来启动Heritrix并执行一个job呢?
by biaoming 2008-06-17 浏览 (250) 回复 (5)

Ruby on Rails 2.0的新功能介绍

万众瞩目的Ruby on Rails 2.0已经发布了,Rails框架在2004年诞生以来,一直保持着相当快的版本升级速度:2005年发布了Rails1.0版本,2006年初发布Rails1.1版本,2007年初发布Rails1.2版本,而还没有等到2008年,在2007年圣诞前夕的12月6日,Rails2.0已经发布。 Rails框架每个大的版本升级都给我们带来了相当多的新功能,新惊喜。Rai ...
by robbin 2007-12-10 浏览 (3547) 回复 (4) 关键字: rails

赞助商链接