《国内有nutch项目应用吗》的相关内容
相关讨论
Heritrix使用的初步总结
一、框架介绍
公司最近项目要用到全文检索,检索对象是一些网站的网页内容,要使用到网络爬虫工具。
目前技术选型对象主要有两个:Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘 ...
by jason823 2007-05-29 浏览 (5931) 回复 (6) 关键字:
相关博客
Nutch 完整安装文档
Nutch 安装文档
安装Cygwin
首先,我们去http://www-inst.eecs.berkeley.edu/~instcd/iso/下载到Cygwin软件的ISO文件,用Daemon软件将其设为虚拟光驱后,双击其中的Setup文件,出现程序安装的向导界面(如图1所示)。
&n ...
by lizhengfa 2007-10-18 浏览 (1302) 回复 (0) 关键字:
我的开源搜索引擎之路
老板要求在一个月内搭建出一个搜索引擎出来,先期要求做一个站内搜索就可以了。于是我只有苦笑了,搜索引擎谈何容易,而之前没有这方面的经验,如何是好呢?这时我脑袋里闪过的,就是需要求助开源社区了。
我是做Java程序员出身,很快找到了大名鼎鼎的lucene,到ibm的devleopworks上泡了几天,基本上把lucene的原理搞明白了。当第一个例子跑起来的时候, ...
by banditjava 2008-09-11 浏览 (2029) 回复 (25) 关键字:
Nutch 0.8笔记--Google式的搜索引擎实现
作者:江南白衣 Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。 Nutch 0.8 完全使用Hadoop重写了骨干代 ...
by 江南白衣 2006-08-09 浏览 (505) 回复 (0) 关键字:
Nutch 0.8笔记--Google式的搜索引擎实现
作者:江南白衣 Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。 Nutch 0.8 完全使用Hadoop重写了骨干代 ...
by fuyangchang 2007-06-16 浏览 (234) 回复 (0) 关键字:
Heritrix 爬虫与Nutch 爬虫
在邮件列表中看到有人问 Heritrix 爬虫与 Nutch 爬虫的不同。搜索了一下,该项目的领导者是 Gordon Mohr ,Heritrix 主要用在 http://www.archive.org 。基本定义描述:
Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-qualit ...
by bjxagu 2008-08-10 浏览 (115) 回复 (1) 关键字: heritrix nutch 爬虫
相关圈子讨论
来,排队自报家门,统计下
我,习惯id:J.L, 现在居于上海, 工作:专职搜索。空余时间: lucene推广和宣传,搜索技术商业方案(不包括与现在公司竞争的企业)。2007年的方向: 深度挖掘数据(大规模搜索平台), 广度挖掘商机(商业顾问)。
2005年接触lucene,2006年正式接触lucene。
下面同学排好队哦。
by imjl 2007-06-21 浏览 (5027) 回复 (42)
nutch中分布式文件系统介绍
NDFS:在一系列机器上存储庞大的面向流的文件,包含多机的存储冗余和负载均衡。
文件以块为单位存储在NDFS的离散机器上,提供一个传统的input/output流接口用于文件读写。
块的查找以及数据在网络上传输等细节由NDFS自动完成,对用户是透明的。而且NDFS能很好地处理
用于存储的机器序列,能方便地添加和删除一台机器。当某台机器不可用时,NDFS自动的保证文件
的可用性。只要 ...
by dogstar 2008-05-29 浏览 (397) 回复 (1)
T级数据下 lucene 性能 还好吗?
本人无能,1T数据下lucene的索引程序就做了8天。。还在继续。
无奈只好请教各位,有谁在1T数据下做过lucene索引程序,8天正常吗?
有点语无伦次了,说一下具体情况吧
------------------------------------------------------------------------------
服务器 win2003
cpu 8个,内存 8g 硬盘 ...
by aihua 2008-06-03 浏览 (578) 回复 (7)
相关新闻
为什么说Lucene不好
引言
在Lingway公司,我们使用了Lucene至进今已有好几年时间。对那些刚接触Lucene的人来说,这里是使用它的关键:Apache Lucene是一个由java编写的高性能,全方位的单词搜索引擎库。
在批评它之前,我必须承认Lucene是一个高性能的划词搜索引擎。几年来,Lucene已经被看作是用java编写的嵌入式搜索引擎中的一等公民。它的声誉每日剧增,并 ...
by robertlyc 2008-03-22 浏览 (4541) 回复 (13) 关键字: lucene
Lucene 2.3 发布,Hadoop成为Apache顶级项目
Apache Lucene可以说是Java社区全文检索引擎的事实标准,无人不晓,Lucene社区是相当活跃的,几乎每年都有两个版本发布,21号Lucene正式发布2.3版本,官方网站虽然还没有提供下载,但镜像网站已有下载。
Lucene下载地址:http://www.eng.lsu.edu/mirrors/apache/lucene/java/
Hadoop原本由Lucene的子项目Nutc ...
by rainsf 2008-01-24 浏览 (2547) 回复 (11) 关键字: lucene, hadoop

