国内有nutch项目应用吗》的相关内容

Heritrix使用的初步总结

一、框架介绍   公司最近项目要用到全文检索,检索对象是一些网站的网页内容,要使用到网络爬虫工具。         目前技术选型对象主要有两个:Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘 ...
by jason823 2007-05-29 浏览 (5931) 回复 (6) 关键字:

Nutch 完整安装文档

Nutch 安装文档 安装Cygwin        首先,我们去http://www-inst.eecs.berkeley.edu/~instcd/iso/下载到Cygwin软件的ISO文件,用Daemon软件将其设为虚拟光驱后,双击其中的Setup文件,出现程序安装的向导界面(如图1所示)。   &n ...
by lizhengfa 2007-10-18 浏览 (1302) 回复 (0) 关键字:

我的开源搜索引擎之路

老板要求在一个月内搭建出一个搜索引擎出来,先期要求做一个站内搜索就可以了。于是我只有苦笑了,搜索引擎谈何容易,而之前没有这方面的经验,如何是好呢?这时我脑袋里闪过的,就是需要求助开源社区了。     我是做Java程序员出身,很快找到了大名鼎鼎的lucene,到ibm的devleopworks上泡了几天,基本上把lucene的原理搞明白了。当第一个例子跑起来的时候, ...
by banditjava 2008-09-11 浏览 (2029) 回复 (25) 关键字:

Nutch 0.8笔记--Google式的搜索引擎实现

    作者:江南白衣    Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。    Nutch 0.8 完全使用Hadoop重写了骨干代 ...
by 江南白衣 2006-08-09 浏览 (505) 回复 (0) 关键字:

Nutch 0.8笔记--Google式的搜索引擎实现

    作者:江南白衣    Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。    Nutch 0.8 完全使用Hadoop重写了骨干代 ...
by fuyangchang 2007-06-16 浏览 (234) 回复 (0) 关键字:

Heritrix 爬虫与Nutch 爬虫

在邮件列表中看到有人问 Heritrix 爬虫与 Nutch 爬虫的不同。搜索了一下,该项目的领导者是 Gordon Mohr ,Heritrix 主要用在 http://www.archive.org 。基本定义描述: Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-qualit ...
by bjxagu 2008-08-10 浏览 (115) 回复 (1) 关键字: heritrix nutch 爬虫

来,排队自报家门,统计下

我,习惯id:J.L, 现在居于上海, 工作:专职搜索。空余时间: lucene推广和宣传,搜索技术商业方案(不包括与现在公司竞争的企业)。2007年的方向: 深度挖掘数据(大规模搜索平台), 广度挖掘商机(商业顾问)。 2005年接触lucene,2006年正式接触lucene。 下面同学排好队哦。
by imjl 2007-06-21 浏览 (5027) 回复 (42)

nutch中分布式文件系统介绍

NDFS:在一系列机器上存储庞大的面向流的文件,包含多机的存储冗余和负载均衡。   文件以块为单位存储在NDFS的离散机器上,提供一个传统的input/output流接口用于文件读写。   块的查找以及数据在网络上传输等细节由NDFS自动完成,对用户是透明的。而且NDFS能很好地处理   用于存储的机器序列,能方便地添加和删除一台机器。当某台机器不可用时,NDFS自动的保证文件   的可用性。只要 ...
by dogstar 2008-05-29 浏览 (397) 回复 (1)

T级数据下 lucene 性能 还好吗?

本人无能,1T数据下lucene的索引程序就做了8天。。还在继续。 无奈只好请教各位,有谁在1T数据下做过lucene索引程序,8天正常吗? 有点语无伦次了,说一下具体情况吧 ------------------------------------------------------------------------------ 服务器 win2003 cpu 8个,内存 8g 硬盘 ...
by aihua 2008-06-03 浏览 (578) 回复 (7)

为什么说Lucene不好

引言 在Lingway公司,我们使用了Lucene至进今已有好几年时间。对那些刚接触Lucene的人来说,这里是使用它的关键:Apache Lucene是一个由java编写的高性能,全方位的单词搜索引擎库。   在批评它之前,我必须承认Lucene是一个高性能的划词搜索引擎。几年来,Lucene已经被看作是用java编写的嵌入式搜索引擎中的一等公民。它的声誉每日剧增,并 ...
by robertlyc 2008-03-22 浏览 (4541) 回复 (13) 关键字: lucene

Lucene 2.3 发布,Hadoop成为Apache顶级项目

Apache Lucene可以说是Java社区全文检索引擎的事实标准,无人不晓,Lucene社区是相当活跃的,几乎每年都有两个版本发布,21号Lucene正式发布2.3版本,官方网站虽然还没有提供下载,但镜像网站已有下载。 Lucene下载地址:http://www.eng.lsu.edu/mirrors/apache/lucene/java/ Hadoop原本由Lucene的子项目Nutc ...
by rainsf 2008-01-24 浏览 (2547) 回复 (11) 关键字: lucene, hadoop

赞助商链接