工作杂记》的相关内容

开源全文搜索引擎框架JBOX-beta版发布

天刚完成的,做了好久了。一个纯java的全文搜索引擎框架。 做这个的目标是,更简单,更容易,以至任何一个懂java的人都可以很容易地搭建一个个人用的搜索引擎,例如个人站点的站内搜索。 主页:http://j-box.sourceforge.net/index_cn.html API文档、QUICK START都有。 Jbox目前是beta版本,如果各位朋友发现bug了,麻烦发邮件到j-box ...
by hzxdark 2007-09-01 浏览 (2645) 回复 (11) 关键字: 开源

Arachnid Web Spider Framework的使用

 在论坛上面看到一个爬虫工具Arachnid Web Spider Framework,看了一下源代码,相当的简练和漂亮。 所以决定在这个上面做点东西出来 1.实现除html以外的页面的检索和分析,例如wap网页等,做成基于手机的搜索引擎。 2.把tomcat,j2sdk等嵌入到代码中,并嵌入简单的纯java的数据库,例如hsqldb,完善爬虫功能。 3.制作一个图形换的管理控制 ...
by zhanghu 2007-09-11 浏览 (208) 回复 (0) 关键字:

网页爬虫汇总

Heritrix Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。http://crawler.archive.org/WebSPHINX WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分 ...
by bjxagu 2008-08-10 浏览 (180) 回复 (0) 关键字: 网页爬虫 汇总

搜索引擎快速开发 原理 工具 web爬虫

Java开源Web爬虫  Heritrix  Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。 更多Heritrix信息  WebSPHINX  WebSPHINX是一个Java类包和Web爬虫的交 ...
by futurehuhu 2008-04-06 浏览 (124) 回复 (0) 关键字:

爬虫设计

从Larbin看互联网爬虫设计 于敦德 2005.12.16 转载请注明出处 互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内容的组织方式越来越灵活,检索组织并呈现会有着越来越广泛的应用范围,同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫,信息的来源入口。一个高效,灵活可扩展 ...
by fengzl 2007-11-02 浏览 (589) 回复 (0) 关键字:

个人对当代搜索引擎的一点看法

搜索历史的回顾 第一代搜索 以Altavista、YAHOO和Infoseek为代表的第一代搜索出现于1994年前后,采用的基本方法是由网页制作人自行建立网站名称、网站内容的文字摘要,并将其加入到搜索引擎的资料库中。其主要的缺点是:(1)无法针对网页内容进行全文搜索;(2)必须由网页制作者自行将自己的网站加入搜索引擎的资料库中,并用数行文字描述自己的网站。搜索引擎就是根据这些描 ...
by zhangxiang390 2008-08-21 浏览 (31) 回复 (0) 关键字: 搜索引擎,发展趋势

zz 一位大牛整理的Python资源

Python基本安装:     * http://www.python.org/ 官方标准Python开发包和支持环境,同时也是Python的官方网站;     * http://www.activestate.com/ 集成多个有用插件的强大非官方版本,特别是针对Windows环境有不少改进; Python文档:  &n ...
by maggieli 2008-03-06 浏览 (3718) 回复 (2)

python今年要出版的书

呵呵,在豆瓣上看到的。 Programming Python是人邮引进的最新版,我的一个朋友在译,进度还算顺利。Python网络编程的翻译是博文在做,进度不清楚,我参加了试译,可耻的失败鸟:)。Python源码剖析我盼了好久,作者自称快定稿了。至于C&Py那本书……本人努力填坑中……目前MSN上见到编辑都有点心慌慌的说:P 想买网络编程和源码刨析.
by simohayha 2007-03-24 浏览 (4344) 回复 (30)

喜欢发短信问问题的同学,请注意

有问题请发到圈子里。直接发短信给他人请教问题,是不礼貌的。以后我不会理会。 引用 2008-03-30 yanweidong 发给 我 的消息 标题: 关于lucene 索引的建立 正文: 你好.我在论坛上看到你的贴子.想请教你几个问题我最近要建立一个40W条数据库的索引.可是我用单线程来处理非常的慢.我想采用并发.但是我主要不是做 JAVA的.我是做PHP的.不知道你有没有这方面的代码可以参考 ...
by imjl 2008-04-03 浏览 (461) 回复 (3)

lucene相关搜索如何做的

想做一个相关搜索的东东,但是不知从哪下手。请指教
by tomdev 2008-05-12 浏览 (676) 回复 (6)

Robert Chen《Python源码剖析——深度探索动态语言核心技术》已经上市

编者按:由陈儒(Robert Chen)先生著,哲思自由软件社区审校的《Python源码剖析——深度探索动态语言核心技术》一书即将上市。 在向各路大侠约请《Python源码剖析》书评的过程中,偶发搜集搜狐老韩先生(非韩乔生也~)连珠妙语之奇想,期冀某日能整出一本老韩语录,在此要让诸君先睹一语为快:“而事实是,高手是不写书评的,高手都写序去了,比如为这本书写序的三位专家,那可是国内Python界如 ...
by hailies 2008-07-24 浏览 (1147) 回复 (10)

J2EE Spider推出新版

J2EE Spider是一个与Eclipse集成的,用来快速开发Web应用程序的开源工具。J2EE Sider 1.0.0-M2已于近日发布,除了修复一些bug,还另外提供了一个完整的在线手册。 J2EE Spider的主要特性有: 支持可视化的代码生成方式。 与Eclipse集成 增量构建 正反向工程 代码支持i18n 利用模版生成代码 多框架支撑 J2EE Spider的口号是: ...
by levis2000 2008-04-07 浏览 (696) 回复 (0) 关键字: j2ee spider

相关问答

赞助商链接