智能型爬虫还在research》的相关内容

JavaEye3.0开发手记之四 - ruby的全文检索

在Java平台上面,lucene是众望所归的全文检索工具,lucene性能不俗,程序稳定,第三方扩展和分词算法众多,但是在RoR方面,就没有那么幸运了,JavaEye网站要做全文检索,怎么来解决全文检索的问题呢? 在ruby平台上面,全文检索有三个途径: 1、solr, acts_as_solr solr是apache开源组织的一个项目,完全基于lucene的最新版本,在lucene的上层提 ...
by robbin 2007-09-28 浏览 (10460) 回复 (17) 关键字:

HDFS用户指南(翻译)

HDFS用户指南 原文地址:http://hadoop.apache.org/core/docs/current/hdfs_user_guide.html 译者:dennis zhuang(killme2008@gmail.com),有错误请指正,多谢。 目的 本文档可以作为使用Hadoop分布式文件系统用户的起点,无论是将HDFS应用在一个Hado ...
by dennis_zane 2008-08-14 浏览 (3150) 回复 (4) 关键字: hdfs hadoop

Lucene / Solr 开发经验

转自 Lucene/Solr开发经验[原] 作者 张驰有道   注意:该文章所属Blog中的日记遵循Creative Commons(创作共用)授权 ,您可以任意转载,转载时请务必以超链接形式标明文章原始出处 和作者信息 及本声明 。   [开篇语 ]按照惯例应该写一篇技术文章了,这次结合Lucene/Solr来分享一下开发经验。 Lucene是 ...
by Clayz 2008-09-10 浏览 (95) 回复 (0) 关键字:

Hadoop-- 海量文件的分布式计算处理方案(转)

    Hadoop 是Google MapReduce的 一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以 不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样 ...
by cutesource 2007-05-15 浏览 (476) 回复 (0) 关键字:

Hadoop入门

原文地址:http://blog.csdn.net/calvinxiu/archive/2007/02/09/1506112.aspx Hadoop 是Google MapReduce 的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会 ...
by wind_bell 2007-05-21 浏览 (4549) 回复 (0) 关键字:

Hadoop--海量文件的分布式计算处理方案

   作者:江南白衣,原文出处:http://www.blogjava.net/calvin/archive/2007/02/08/98688.html,转载请保留。       Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集 ...
by gaoyuntao2005 2008-08-28 浏览 (35) 回复 (0) 关键字:

Hadoop-- 海量文件的分布式计算处理方案

    Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模 ...
by 江南白衣 2007-02-09 浏览 (514) 回复 (0) 关键字:

来,排队自报家门,统计下

我,习惯id:J.L, 现在居于上海, 工作:专职搜索。空余时间: lucene推广和宣传,搜索技术商业方案(不包括与现在公司竞争的企业)。2007年的方向: 深度挖掘数据(大规模搜索平台), 广度挖掘商机(商业顾问)。 2005年接触lucene,2006年正式接触lucene。 下面同学排好队哦。
by imjl 2007-06-21 浏览 (5027) 回复 (42)

红旗还能挺多久?C++能用来干什么?

Adobe宣布Flex 2开源了,于是去看了两天。初步结论,Flex/Flash的威力是强大的。 当初觉得天天对着计算机搞底层的东西太枯燥,想着写商用程序可以和人打交道,而且要掌握行业知识也算是跨学科,于是上了这条贼船,现在发现这行的本质是在数据库里读读写写,还是底层的东西更有趣些。不过一家人等米下锅,商用程序也是衣食父母,那么就虔诚的静心写好商用程序。 现在的商用程序,几乎都要有个web界面 ...
by bigpanda 2007-04-29 浏览 (11356) 回复 (39)

lucene的分布式

当数据量较大访问量较大的时候,分布式就不可避免,我现在知道的处理方式有下面几种: 1,用一个好服务器作为索引服务器,磁盘冗余的方式保证搜索的正常进行; 2,索引服务器用一台,检索服务器用分布式; 3,编写索引算法,分布式存放,检索时采用多线程搜索合并搜索结果返回; 4,索引分布式存储用硬件的方式保证索引文件的同步,检索也采用分布式。 大概知道的就这几个,现在想知道还有没有更好的方法?或 ...
by marine_chen 2007-06-29 浏览 (2583) 回复 (13)

说下我爬虫把

生产语言:c#,算法测试:php 第一步: 1:爬取网站,检测字符编码,获取正确信息(用c#在无法获得字符编码信息时,只能取两次,如果有谁知道一次性能取说下) 2:没有做dns cache,强制爬取,所以没解析robots 3:爬到内容,经过很复杂的计算,获得想要的信息。(c#正则时死了N次,现在只能避开,不能解决) 4:输出结构化信息,也就是List<outObj> 第二步: 1:加上 ...
by imjl 2008-08-07 浏览 (160) 回复 (0)

打算建立一个小团队,收集点民意

通过这几天的讨论我感觉有必要组织一个小团队,合作一个项目,通过它来学习D语言。 这个帖子用来收集大家的想法,看看都想做哪些方面的项目,持续讨论一周时间吧。
by qiezi 2007-04-05 浏览 (4981) 回复 (95)

Cascading:一个简单的Hadoop MapReduce应用

Cascading是一个架构在Hadoop上的API,用来创建复杂和容错数据处理工作流。它抽象了集群拓扑结构和配置来快速开发复杂分布式的应用,而不用考虑背后的MapReduce。 Cascading目前依赖于Hadoop提供存储和执行架构,但是Cascading API为开发者隔离了Hadoop的技术细节,提供了不需要改变初始流程工作流定义就可以在不同的计算框架内运行的能力。 Cascadin ...
by QQbyte 2008-09-12 浏览 (477) 回复 (0) 关键字: 分布式计算 cascading hadoop mapreduce

[听译大师说话]python 创始人访谈录2: python 的起源 特点和未来

perl 创始人和 python 创始人 听译这东西的确很累人,一次翻译太多也很疲惫。 我尽量想在一篇博客中包含尽量多的内容,结果最终搞的自己兴趣全无了,下次看来还是应该一点一点的来。 我的听力还是不好,有一些东西没听出来我就不翻译了,大体意思上应该不会差很多的,希望大家见谅。 主持人: Chris DiBona (Google 开源网站负责人) and Leo Laporte (Tw ...
by koalant 2008-07-22 浏览 (1711) 回复 (3) 关键字:

Google App Engine 初体验

终于获得了一个Google App Engine的帐号,周末初步体验了一下,只是看了一些文档看了几个App gallery中已经做好的app, 还没有亲自操刀干任何事情,因此只是一些很初步的认识。 Google App Engine我理解是一个面向未来的产品,他可以认为是Amazon S3的超级增强版本,但又是Amazon EC2的更简化实现版。S3仅仅提供存储服务,EC2给你了一个虚拟机器, ...
by withyou 2008-04-28 浏览 (764) 回复 (1) 关键字:

相关问答

赞助商链接