《基于Spindle的增强HTTP Spider》的相关内容
相关讨论
Lucene应用的一点体会
Lucene应用(我用的是Lucene2.1.0,有些观点有可能也不太正确)
1.多线程索引,共享同一个IndexWriter对象
这种方式效率很慢,主要原因是因为:
java 代码
public void addDocument(Document doc, Analyzer analyzer)& ...
by ttitfly 2007-06-11 浏览 (3612) 回复 (5) 关键字: 多线程索引问题, 单线程
关于 lucene 内存溢出
package business.ywbdmanagement;
import hibernate.YhbdProblem;
import common.AppContext;
import java.io.File;
import java.io.IOException;
import java.util.List;
import org.apache.lucen ...
by manus 2007-08-14 浏览 (890) 回复 (2) 关键字: lucene
IndexWriter类addDocument效率问题
IndexWriter类的方法:
public void addDocument(Document doc, Analyzer analyzer) throws IOException {
SegmentInfo newSegmentInfo = buildSingleDocSegment(doc, analyzer);
synchronized (this) {
ramSegmentInfos. ...
by ttitfly 2007-06-05 浏览 (924) 回复 (4) 关键字: indexwriter类adddocument效率问题
搜索篇:lucene的简单实例<一>
说明一下,这一篇文章的用到的lucene,是用2.0版本的,主要在查询的时候2.0版本的lucene与以前的版本有了一些区别.
其实这一些代码都是早几个月写的,自己很懒,所以到今天才写到自己的博客上,高深的文章自己写不了,只能记录下一些简单的记录与点滴,其中的代码算是自娱自乐的,希望高手不要把重构之类的砸下来...
1、在windows系统下的的C盘,建一个名叫s的文件夹,在该文件夹里面随便建三 ...
by lighter 2006-12-19 浏览 (14114) 回复 (29) 关键字: lucene
相关博客
简单web lucene
SearchManager 查询索引管理类
package sample.dw.paper.lucene.search;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import org.apache.lucene.analysis.Analyzer;
import ...
by gznofeng 2008-05-23 浏览 (83) 回复 (0) 关键字:
htmlparser使用指南
需要做一个垂直搜索引擎,比较了nekohtml和htmlparser 的功能,尽管nekohtml在容错性、性能等方面的口碑好像比htmlparser好(htmlunit也用的是nekohtml),但感觉nekohtml的测试用例和文档都比htmlparser都少,而且htmlparser基本上能够满足垂直搜索引擎页面处理分析的需求,因此先研究一下htmlparser的使用,有空再研 ...
by wangdei 2008-07-05 浏览 (159) 回复 (0) 关键字:
RAMDirectory中的内容转到FSDirectory
import java.io.IOException;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lu ...
by fys124974704 2008-06-19 浏览 (86) 回复 (0) 关键字:
Lucene应用的一点体会
Lucene应用(我用的是Lucene2.1.0,有些观点有可能也不太正确)
1.多线程索引,共享同一个IndexWriter对象
这种方式效率很慢,主要原因是因为:
java 代码
public void addDocument(Document doc, Analyzer analyzer)& ...
by ttitfly 2007-06-11 浏览 (3071) 回复 (5) 关键字: 多线程索引问题,单线程
lucene初体验
对照着lucene官方DEMO做了个例子,自己简化了一下:我用的是lucene-2.2.0首先产生索引文件:IndexFileimport org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index ...
by shaoxiongwang@21cn.com 2008-03-11 浏览 (98) 回复 (0) 关键字:
相关圈子讨论
使用MMAnalyzer 搜索出现一些问题
最近新学了LUCENE 发现MMAnalyzer分词后有好多英文没办法查出,不知道是不是所说的stop word ,如果是那应该怎么做才能让它在分词时保留那些单词,以下是我代码,请大家看看有什么方法能查到结果,当然将new MMAnalyzer改成SimpleAnalyzer是能搜索出来的,除此还有其他方式没,
package ch2.lucenedemo.test;
import ja ...
by zhanjianhua 2008-07-11 浏览 (156) 回复 (2)
报告庖丁2.01停用词的Bug
x-noise-charactor.dic里的单独的停用词没有建立索引,但是x-noise-word.dic里的停用词都建到索引里去了。代码如下,对“但是,的”建立索引,搜索“的”没有结果,但搜索停用词“但是”得到一个结果。
package textss;
import net.paoding.analysis.analyzer.PaodingAnalyzer;
import net.pao ...
by guoyi 2007-09-12 浏览 (682) 回复 (2)
关于ext form上传文件的问题
我做的一个小例子,一个form,提交用户id,radio数据以及上传服务器的文件,一直不成功,请多多指教,多谢了.
code:
var addForm = new Ext.form.FormPanel(
{
id:'addForm',
baseCls: 'x-plain',
labelWidth: 75,
fileUpload: true,
...
by ufoly94 2008-06-13 浏览 (587) 回复 (3)
求助:用RamDirectory做缓存时遇到的问题!
我在用lucene做索引的时候,用RamDirectory先缓存100条数据之后一起存入FSDirectory,为什么只能存入10条数据呢?
我用LukeAll观察也只有10条数据,这是为什么呢?
一下是具体代码:
public class IndexDocs extends IndexBase{
private final Log logger = LogFactory.getLog(I ...
by baidongli 2008-05-05 浏览 (227) 回复 (0)
【总结】◆◆◆◆ECSide2.0RC1目前发现的问题!◆◆◆◆(请看最后回复帖,更新至2007-10-28 某些环境下使用#_EX报错的解决方法~)
偶用了ECSide2.0RC1时间不长·的确有很多亮点~但是,目前只是停留在测试研究阶段~
主要原因,在Weblogic8.1环境下,很多BUG就出来了~浏览下论坛,发现和我遇到一样问题的人还不少哦
-------------------------------------
总结如下(Weblogic8.1.6,JDK1.4环境):
-------------------------------- ...
by pharaohsprince 2007-09-19 浏览 (1195) 回复 (15)
相关新闻
基于Spindle的增强HTTP Spider
构建于lucene之上的可用的Java开源Spider少之又少,spindle长期没有更新且功能不够完善,故而自己参考其源
代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正,
有任何意见及建议均可Email联系我(kaninebruno@hotmail.com)
以下代码基于lucene-2.3.1,htmlparser-1.6, ...
by brunoplum 2008-04-01 浏览 (1225) 回复 (6) 关键字: spindle
推荐知识库条目
Comming soon

