基于Spindle的增强HTTP Spider》的相关内容

Lucene应用的一点体会

Lucene应用(我用的是Lucene2.1.0,有些观点有可能也不太正确) 1.多线程索引,共享同一个IndexWriter对象 这种方式效率很慢,主要原因是因为: java 代码   public void addDocument(Document doc, Analyzer analyzer)& ...
by ttitfly 2007-06-11 浏览 (3612) 回复 (5) 关键字: 多线程索引问题, 单线程

关于 lucene 内存溢出

package business.ywbdmanagement; import hibernate.YhbdProblem; import common.AppContext; import java.io.File; import java.io.IOException; import java.util.List; import org.apache.lucen ...
by manus 2007-08-14 浏览 (890) 回复 (2) 关键字: lucene

IndexWriter类addDocument效率问题

IndexWriter类的方法: public void addDocument(Document doc, Analyzer analyzer) throws IOException { SegmentInfo newSegmentInfo = buildSingleDocSegment(doc, analyzer); synchronized (this) { ramSegmentInfos. ...
by ttitfly 2007-06-05 浏览 (924) 回复 (4) 关键字: indexwriter类adddocument效率问题

搜索篇:lucene的简单实例<一>

说明一下,这一篇文章的用到的lucene,是用2.0版本的,主要在查询的时候2.0版本的lucene与以前的版本有了一些区别. 其实这一些代码都是早几个月写的,自己很懒,所以到今天才写到自己的博客上,高深的文章自己写不了,只能记录下一些简单的记录与点滴,其中的代码算是自娱自乐的,希望高手不要把重构之类的砸下来... 1、在windows系统下的的C盘,建一个名叫s的文件夹,在该文件夹里面随便建三 ...
by lighter 2006-12-19 浏览 (14114) 回复 (29) 关键字: lucene

简单web lucene

SearchManager 查询索引管理类 package sample.dw.paper.lucene.search; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.lucene.analysis.Analyzer; import ...
by gznofeng 2008-05-23 浏览 (83) 回复 (0) 关键字:

htmlparser使用指南

  需要做一个垂直搜索引擎,比较了nekohtml和htmlparser 的功能,尽管nekohtml在容错性、性能等方面的口碑好像比htmlparser好(htmlunit也用的是nekohtml),但感觉nekohtml的测试用例和文档都比htmlparser都少,而且htmlparser基本上能够满足垂直搜索引擎页面处理分析的需求,因此先研究一下htmlparser的使用,有空再研 ...
by wangdei 2008-07-05 浏览 (159) 回复 (0) 关键字:

RAMDirectory中的内容转到FSDirectory

import java.io.IOException; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lu ...
by fys124974704 2008-06-19 浏览 (86) 回复 (0) 关键字:

Lucene应用的一点体会

Lucene应用(我用的是Lucene2.1.0,有些观点有可能也不太正确) 1.多线程索引,共享同一个IndexWriter对象 这种方式效率很慢,主要原因是因为: java 代码   public void addDocument(Document doc, Analyzer analyzer)& ...
by ttitfly 2007-06-11 浏览 (3071) 回复 (5) 关键字: 多线程索引问题,单线程

lucene初体验

对照着lucene官方DEMO做了个例子,自己简化了一下:我用的是lucene-2.2.0首先产生索引文件:IndexFileimport org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index ...
by shaoxiongwang@21cn.com 2008-03-11 浏览 (98) 回复 (0) 关键字:

使用MMAnalyzer 搜索出现一些问题

最近新学了LUCENE 发现MMAnalyzer分词后有好多英文没办法查出,不知道是不是所说的stop word ,如果是那应该怎么做才能让它在分词时保留那些单词,以下是我代码,请大家看看有什么方法能查到结果,当然将new MMAnalyzer改成SimpleAnalyzer是能搜索出来的,除此还有其他方式没, package ch2.lucenedemo.test; import ja ...
by zhanjianhua 2008-07-11 浏览 (156) 回复 (2)

报告庖丁2.01停用词的Bug

x-noise-charactor.dic里的单独的停用词没有建立索引,但是x-noise-word.dic里的停用词都建到索引里去了。代码如下,对“但是,的”建立索引,搜索“的”没有结果,但搜索停用词“但是”得到一个结果。 package textss; import net.paoding.analysis.analyzer.PaodingAnalyzer; import net.pao ...
by guoyi 2007-09-12 浏览 (682) 回复 (2)

关于ext form上传文件的问题

我做的一个小例子,一个form,提交用户id,radio数据以及上传服务器的文件,一直不成功,请多多指教,多谢了. code: var addForm = new Ext.form.FormPanel( { id:'addForm', baseCls: 'x-plain', labelWidth: 75, fileUpload: true, ...
by ufoly94 2008-06-13 浏览 (587) 回复 (3)

求助:用RamDirectory做缓存时遇到的问题!

我在用lucene做索引的时候,用RamDirectory先缓存100条数据之后一起存入FSDirectory,为什么只能存入10条数据呢? 我用LukeAll观察也只有10条数据,这是为什么呢? 一下是具体代码: public class IndexDocs extends IndexBase{ private final Log logger = LogFactory.getLog(I ...
by baidongli 2008-05-05 浏览 (227) 回复 (0)

【总结】◆◆◆◆ECSide2.0RC1目前发现的问题!◆◆◆◆(请看最后回复帖,更新至2007-10-28 某些环境下使用#_EX报错的解决方法~)

偶用了ECSide2.0RC1时间不长·的确有很多亮点~但是,目前只是停留在测试研究阶段~ 主要原因,在Weblogic8.1环境下,很多BUG就出来了~浏览下论坛,发现和我遇到一样问题的人还不少哦 ------------------------------------- 总结如下(Weblogic8.1.6,JDK1.4环境): -------------------------------- ...
by pharaohsprince 2007-09-19 浏览 (1195) 回复 (15)

基于Spindle的增强HTTP Spider

构建于lucene之上的可用的Java开源Spider少之又少,spindle长期没有更新且功能不够完善,故而自己参考其源 代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正, 有任何意见及建议均可Email联系我(kaninebruno@hotmail.com) 以下代码基于lucene-2.3.1,htmlparser-1.6, ...
by brunoplum 2008-04-01 浏览 (1225) 回复 (6) 关键字: spindle

推荐知识库条目

Comming soon