从HTML抽取纯文本》的相关内容

基于Spindle的增强HTTP Spider

构建于lucene之上的可用的Java开源Spider少之又少,spindle长期没有更新且功能不够完善,故而自己参考其源代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正,有任何意见及建议均可Email联系我(kaninebruno@hotmail.com) 以下代码基于lucene-2.3.1,htmlparser-1.6,je ...
by brunoplum 2008-03-30 浏览 (1160) 回复 (7) 关键字:

用htmlparser分析并抽取正文

    我这次要介绍的是如何抽取正文,这部分是最为核心的.因为如果不能很好的提取原有文章的内容和样式,那么搜索出来的东西 就会惨不忍睹.根本就没有使用价值   在做正文抽取模块之前我曾经参考过很多抽取模式,有配置模版的,有搞视觉匹配的.有搞关键字识别的.我挨个做了分析 首先配置摸版是不太现实的,因为我在搜索技术资讯的时候,根本不知道会搜索到哪个网站,也根本没精力去配置摸版.所以这个行不通   ...
by hannibal730816 2007-12-19 浏览 (2577) 回复 (8) 关键字:

JAVA中使用Htmlparse解析HTML文档

import java.util.HashMap; import java.util.Map; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.tags.LinkTag; import org.htmlpar ...
by yymmiinngg 2008-01-09 浏览 (513) 回复 (0) 关键字: java实现

使用HtmlParser抽取页面所有文本数据的方法总结

方法test1应该说是最有效的,避免了出现很多空格。 package test; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.InputStreamReader; ...
by loveofgod 2008-04-24 浏览 (216) 回复 (0) 关键字:

分析/解析Html页面:HTML Parser的试用

转载自: http://www.jscud.com/srun/news/viewhtml/2_2005_8/71.htm   最近在研究lucene的全文检索,在很多地方需要解析或者说分析Html内容或者Html页面,Lucene本身的演示程序中也提供了一个Html Parser,但是不是纯Java的解决方案.于是到处搜索,在网上找到了一个"HTMLParser" ...
by junjie314 2007-05-27 浏览 (862) 回复 (0) 关键字:

使用Lucene进行全文检索(二)---得到有效的内容(转载)

转载:http://www.jscud.com/srun/news/viewhtml/3_2005_8/77.htm   在使用lucene对相关内容进行索引时,会遇到各种格式的内容,例如html,pdf,word等等,那么我们如何从这么文档中得到我们需要的内容哪?例如html的内容,一般我们不需要对html标签建立索引,因为那不是我们需要搜索的内容.这个时候,我们就需要从html内 ...
by junjie314 2007-05-13 浏览 (490) 回复 (0) 关键字:

使用Lucene进行全文检索---得到有效的内容

  在使用lucene对相关内容进行索引时,会遇到各种格式的内容,例如Html,PDF,Word等等,那么我们如何从这么文档中得到我们需要的内容哪?例如Html的内容,一般我们不需要对Html标签建立索引,因为那不是我们需要搜索的内容.这个时候,我们就需要从Html内容中解析出我们所需要的内容.对于PDF,Word文档,也是类似的要求.     总之,我们只需要 ...
by lihaiyan 2007-09-27 浏览 (163) 回复 (0) 关键字:

htmlparser使用指南

  需要做一个垂直搜索引擎,比较了nekohtml和htmlparser 的功能,尽管nekohtml在容错性、性能等方面的口碑好像比htmlparser好(htmlunit也用的是nekohtml),但感觉nekohtml的测试用例和文档都比htmlparser都少,而且htmlparser基本上能够满足垂直搜索引擎页面处理分析的需求,因此先研究一下htmlparser的使用,有空再研 ...
by wangdei 2008-07-05 浏览 (159) 回复 (0) 关键字:

【总结】◆◆◆◆ECSide2.0RC1目前发现的问题!◆◆◆◆(请看最后回复帖,更新至2007-10-28 某些环境下使用#_EX报错的解决方法~)

偶用了ECSide2.0RC1时间不长·的确有很多亮点~但是,目前只是停留在测试研究阶段~ 主要原因,在Weblogic8.1环境下,很多BUG就出来了~浏览下论坛,发现和我遇到一样问题的人还不少哦 ------------------------------------- 总结如下(Weblogic8.1.6,JDK1.4环境): -------------------------------- ...
by pharaohsprince 2007-09-19 浏览 (1195) 回复 (15)

【完美解决ecside2.0RC1在weblogic8.1.6环境下导出xls,csv 文件为空的情况】~法老修正完整版!

今天是中秋节哟~~ -------------------------------------------- 这2天一直在努力解决ecside2.0RC1在weblogic8.1.6环境下导出xls,csv 文件为空的情况~ 期间 xiaotiaotiao 的一篇帖子给我不少灵感~ ------------------------------------- 在1.3版本里对比看了下 发现XlsV ...
by pharaohsprince 2007-09-25 浏览 (544) 回复 (2)

使用MMAnalyzer 搜索出现一些问题

最近新学了LUCENE 发现MMAnalyzer分词后有好多英文没办法查出,不知道是不是所说的stop word ,如果是那应该怎么做才能让它在分词时保留那些单词,以下是我代码,请大家看看有什么方法能查到结果,当然将new MMAnalyzer改成SimpleAnalyzer是能搜索出来的,除此还有其他方式没, package ch2.lucenedemo.test; import ja ...
by zhanjianhua 2008-07-11 浏览 (152) 回复 (2)

骑士聚会(《程序员》的算法擂台)

在8×8的棋盘上分布着n个骑士,他们想约在某一个格中聚会。骑士每天可以像国际象棋中的马那样移动一次,可以从中间向8个方向移动,请你计算n个骑士的最早聚会地点和要走多少天,要求尽早聚会,且n个人走的总步数最少,先到聚会地点的骑士可以不再移动等待其他的骑士。 从键盘输入n(0<n<=64),然后一次输入n个其实的初始位置xi,yi(0<=xi,y<=7)。屏幕输出以空格分割的三 ...
by snowind9 2007-09-06 浏览 (973) 回复 (16)

关于ext form上传文件的问题

我做的一个小例子,一个form,提交用户id,radio数据以及上传服务器的文件,一直不成功,请多多指教,多谢了. code: var addForm = new Ext.form.FormPanel( { id:'addForm', baseCls: 'x-plain', labelWidth: 75, fileUpload: true, ...
by ufoly94 2008-06-13 浏览 (587) 回复 (3)

基于Spindle的增强HTTP Spider

构建于lucene之上的可用的Java开源Spider少之又少,spindle长期没有更新且功能不够完善,故而自己参考其源 代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正, 有任何意见及建议均可Email联系我(kaninebruno@hotmail.com) 以下代码基于lucene-2.3.1,htmlparser-1.6, ...
by brunoplum 2008-04-01 浏览 (1225) 回复 (6) 关键字: spindle

基于JavaScript的代码自动生成工具

JavaScript Based Code Generator - codegen 工具主页http://sourceforge.net/projects/jbcgen/目的快速生成程序代码, 比如Struts, Spring, Jdbc/Hibernate所有前后台的代码.简单介绍本工具生成代码的思想是读取数据库中表的结构, 使用JavaScript作为脚本语言编写模板, 生成各种代码或者文件, ...
by jejwe 2008-03-06 浏览 (2457) 回复 (2) 关键字:

推荐Steve Yegge:Rhino on Rails在服务器端JVM中运行JavaScript

Steve Yegge在google I/O大会上发表了演讲:Rhino on Rails -- Server-side JavaScript on the Java Virtual Machine。 使用Rhino能够用JavaScript完成Java在server端完成的所有工作! 什么是Rhino? 1。用JavaScript实现Java JavaScript implemente ...
by QQbyte 2008-06-17 浏览 (1125) 回复 (11) 关键字:

推荐知识库条目

Comming soon