实现MHT文件格式的解析和内容抽取》的相关内容

开放源码的网络蜘蛛

http://microsoft.csdn.net/vs/dev%5Fcontest/Ms_rich_Detail.aspx?pointid=102 开发环境:Visual Studio 2005 语言:C++/CLI 作品所要解决的主要问题: 对于给定的网站列表,下载其所有网页到数据库,可以限制抓取深度和吞吐量。 存储的信息包括标题、内容、网页大小、抓取时间、链接数、连接数等等 。 作品的主 ...
by fxsjy 2007-11-07 浏览 (1772) 回复 (5) 关键字: c++/cli, iocp

基于Spindle的增强HTTP Spider

构建于lucene之上的可用的Java开源Spider少之又少,spindle长期没有更新且功能不够完善,故而自己参考其源代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正,有任何意见及建议均可Email联系我(kaninebruno@hotmail.com)    以下代码基于lucene-2.3.1,htmlpar ...
by brunoplum 2008-03-30 浏览 (1424) 回复 (7) 关键字:

用htmlparser分析并抽取正文

    我这次要介绍的是如何抽取正文,这部分是最为核心的.因为如果不能很好的提取原有文章的内容和样式,那么搜索出来的东西 就会惨不忍睹.根本就没有使用价值   在做正文抽取模块之前我曾经参考过很多抽取模式,有配置模版的,有搞视觉匹配的.有搞关键字识别的.我挨个做了分析 首先配置摸版是不太现实的,因为我在搜索技术资讯的时候,根本不知道会搜索到哪个网站,也根本没精力去配置摸版.所以这个行不通   ...
by hannibal730816 2007-12-19 浏览 (4301) 回复 (15) 关键字:

有关lucene 索引pdf格式文档的问题

环境: lucene2.0+pdf.0.7.3+je-analysis-1.4.0.jar+eclipse3.2 //索引文档LuceneInActionCH.pdf File indexDir = new File("C:\\index"); // 索引文件存放路径 File dataDir = new File("C:\\file"); // 文件所存路径 Analyzer analyzer ...
by xxwang1984 2008-07-11 浏览 (492) 回复 (13)

极度郁闷后台获取不到start和limit,前台配置了store.load...

通过节点的 href:'documentManagement/locator.jsp' 把l locator.jsp显示在TablePanle中,也就是点左边Tree,右边显示网页 locaotr.jsp的代码: <%@ page language="java" pageEncoding="UTF-8"%> <%@ taglib uri="http://stru ...
by demo_3312 2008-05-30 浏览 (1075) 回复 (4)

报告庖丁2.01停用词的Bug

x-noise-charactor.dic里的单独的停用词没有建立索引,但是x-noise-word.dic里的停用词都建到索引里去了。代码如下,对“但是,的”建立索引,搜索“的”没有结果,但搜索停用词“但是”得到一个结果。 package textss; import net.paoding.analysis.analyzer.PaodingAnalyzer; import net.pao ...
by guoyi 2007-09-12 浏览 (871) 回复 (2)

lucene建立索引的错误,各位帮忙看看

前面打印的部分是显示从Google获取的内容,可以正常显示,现在要对这些内容进行索引,但在搜索过程总是显示java.lang.IndexOutOfBoundsException: Not a valid hit number: 0,看来是索引建立好,请大家帮忙看看 //开始建立索引  int j = 0; while (j < 10) { gs.setStartResul ...
by jaie 2008-04-06 浏览 (372) 回复 (4)

使用MMAnalyzer 搜索出现一些问题

最近新学了LUCENE 发现MMAnalyzer分词后有好多英文没办法查出,不知道是不是所说的stop word ,如果是那应该怎么做才能让它在分词时保留那些单词,以下是我代码,请大家看看有什么方法能查到结果,当然将new MMAnalyzer改成SimpleAnalyzer是能搜索出来的,除此还有其他方式没, package ch2.lucenedemo.test; import ja ...
by zhanjianhua 2008-07-11 浏览 (373) 回复 (2)

基于Spindle的增强HTTP Spider

构建于lucene之上的可用的Java开源Spider少之又少,spindle长期没有更新且功能不够完善,故而自己参考其源 代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正, 有任何意见及建议均可Email联系我(kaninebruno@hotmail.com)    以下代码基于lucene-2.3.1,htmlp ...
by brunoplum 2008-04-01 浏览 (1823) 回复 (7) 关键字: spindle

基于JavaScript的代码自动生成工具

JavaScript Based Code Generator - codegen 工具主页http://sourceforge.net/projects/jbcgen/目的快速生成程序代码, 比如Struts, Spring, Jdbc/Hibernate所有前后台的代码.简单介绍本工具生成代码的思想是读取数据库中表的结构, 使用JavaScript作为脚本语言编写模板, 生成各种代码或者文件, ...
by jejwe 2008-03-06 浏览 (3651) 回复 (2) 关键字:

SPProcPool 0.5 发布

SPProcPool 是一个 linux/unix 平台上的进程池服务器框架,使用 c++ 实现。 在 0.5 版中增加了一个类似 apache worker 的服务器模型。在之前 Leader/Follower 模型的基础上,在每个子进程中使用一个固定大小的线程池来为每个请求服务。这个模型的特点是能够支持较高的并发连接数。 项目主页: http://code.google.com/p/spp ...
by iunknown 2008-01-05 浏览 (435) 回复 (0) 关键字: 进程池 prefork

相关问答

赞助商链接