《Lucene實戰開發手記(二)--- 創建索引主方法》的相关内容
相关讨论
IndexWriter类addDocument效率问题
IndexWriter类的方法:
public void addDocument(Document doc, Analyzer analyzer) throws IOException {
SegmentInfo newSegmentInfo = buildSingleDocSegment(doc, analyzer);
synchronized (this) {
ramSegmentInfos. ...
by ttitfly 2007-06-05 浏览 (1019) 回复 (4) 关键字: indexwriter类adddocument效率问题
Lucene应用的一点体会
Lucene应用(我用的是Lucene2.1.0,有些观点有可能也不太正确)
1.多线程索引,共享同一个IndexWriter对象
这种方式效率很慢,主要原因是因为:
java 代码
public void addDocument(Document doc, Analyzer analyzer)& ...
by ttitfly 2007-06-11 浏览 (3931) 回复 (5) 关键字: 多线程索引问题, 单线程
关于 lucene 内存溢出
package business.ywbdmanagement;
import hibernate.YhbdProblem;
import common.AppContext;
import java.io.File;
import java.io.IOException;
import java.util.List;
import org.apache.lucen ...
by manus 2007-08-14 浏览 (1063) 回复 (2) 关键字: lucene
搜索篇:lucene的简单实例<一>
说明一下,这一篇文章的用到的lucene,是用2.0版本的,主要在查询的时候2.0版本的lucene与以前的版本有了一些区别.
其实这一些代码都是早几个月写的,自己很懒,所以到今天才写到自己的博客上,高深的文章自己写不了,只能记录下一些简单的记录与点滴,其中的代码算是自娱自乐的,希望高手不要把重构之类的砸下来...
1、在windows系统下的的C盘,建一个名叫s的文件夹,在该文件夹里面随便建三 ...
by lighter 2006-12-19 浏览 (15387) 回复 (29) 关键字: lucene
使用Compass的事务进行批量索引出现索引记录丢失问题
数据库有24000条数据。
在索引完成后搜索发现有些数据找不到。
通过luke查看索引,发现索引中的id域(对应数据库的唯一主键)仅有13000多万条。
我是使用compass的事务进行批量索引数据库中的数据,每次事务提交100条,每5次事务调用optimize合并索引。
以下是compass事务批量索引待索引数据对象集合的方法。
& ...
by transist 2008-02-04 浏览 (690) 回复 (2) 关键字:
相关博客
Lucene實戰開發手記(六)--- 搜索、刪除索引代碼
無特別之處,了解的朋友不用看。
/**
* 限制分類的搜索
* @param keyword
* @param categoryKeyword
* @return
* @throws LuceneException
*/
public List searchIndex(String keyword, String categoryKeyword) ...
by cleaneyes 2008-05-15 浏览 (345) 回复 (0) 关键字:
Lucene全文检索样例(解决大文本建索引)
建索引:package com.pccw;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReade ...
by damies 2008-01-31 浏览 (349) 回复 (0) 关键字: lucene
Lucene practice
1.simply practice the lucene api for search document and data, post code first
lucene version :2.2.0
set up the index of files
java 代码
package com.aaron.lucene;
&n ...
by aaron_ch 2007-09-19 浏览 (221) 回复 (0) 关键字: search document analyzer field
Lucene应用的一点体会
Lucene应用(我用的是Lucene2.1.0,有些观点有可能也不太正确)
1.多线程索引,共享同一个IndexWriter对象
这种方式效率很慢,主要原因是因为:
java 代码
public void addDocument(Document doc, Analyzer analyzer)& ...
by ttitfly 2007-06-11 浏览 (3131) 回复 (5) 关键字: 多线程索引问题,单线程
从数据库里取数据并且用lucene添加索引
package com.chedong.weblucene.index;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.sql.Connection;
import java.sql.SQLException;
import java.util. ...
by dodomail 2007-09-20 浏览 (315) 回复 (0) 关键字: lucene
相关圈子讨论
报告庖丁2.01停用词的Bug
x-noise-charactor.dic里的单独的停用词没有建立索引,但是x-noise-word.dic里的停用词都建到索引里去了。代码如下,对“但是,的”建立索引,搜索“的”没有结果,但搜索停用词“但是”得到一个结果。
package textss;
import net.paoding.analysis.analyzer.PaodingAnalyzer;
import net.pao ...
by guoyi 2007-09-12 浏览 (871) 回复 (2)
求助:用RamDirectory做缓存时遇到的问题!
我在用lucene做索引的时候,用RamDirectory先缓存100条数据之后一起存入FSDirectory,为什么只能存入10条数据呢?
我用LukeAll观察也只有10条数据,这是为什么呢?
一下是具体代码:
public class IndexDocs extends IndexBase{
private final Log logger = LogFactory.getLog(I ...
by baidongli 2008-05-05 浏览 (318) 回复 (0)
使用MMAnalyzer 搜索出现一些问题
最近新学了LUCENE 发现MMAnalyzer分词后有好多英文没办法查出,不知道是不是所说的stop word ,如果是那应该怎么做才能让它在分词时保留那些单词,以下是我代码,请大家看看有什么方法能查到结果,当然将new MMAnalyzer改成SimpleAnalyzer是能搜索出来的,除此还有其他方式没,
package ch2.lucenedemo.test;
import ja ...
by zhanjianhua 2008-07-11 浏览 (388) 回复 (2)
模糊搜索
如题,比如我索引的文字有两个document 1:爱的敬意 2:爱的致意 如果我想输入 爱的敬意 两条Document都能搜到,应该怎么做呢
by zhjt_88@163.com 2008-07-07 浏览 (194) 回复 (2)
有关lucene 索引pdf格式文档的问题
环境: lucene2.0+pdf.0.7.3+je-analysis-1.4.0.jar+eclipse3.2
//索引文档LuceneInActionCH.pdf
File indexDir = new File("C:\\index"); // 索引文件存放路径
File dataDir = new File("C:\\file"); // 文件所存路径
Analyzer analyzer ...
by xxwang1984 2008-07-11 浏览 (527) 回复 (13)
相关新闻
基于Spindle的增强HTTP Spider
构建于lucene之上的可用的Java开源Spider少之又少,spindle长期没有更新且功能不够完善,故而自己参考其源
代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正,
有任何意见及建议均可Email联系我(kaninebruno@hotmail.com)
以下代码基于lucene-2.3.1,htmlp ...
by brunoplum 2008-04-01 浏览 (1823) 回复 (7) 关键字: spindle
一个Java的Restful服务框架,支持JPA、JAAS、分布式资源对象
项目地址: http://code.google.com/p/jrest4guice/
Demo演示: http://cnoss.vicp.net/
当前版本:0.9.0 preview
特点:
基于Google guice
零配置,服务的自动扫描注册
非侵入式,用户不需要实现特定的接口来实现Restful服务
支持Post. Get. Put. Delete操作
灵活的注入(支持上下文环 ...
by cnoss 2008-06-15 浏览 (2848) 回复 (11) 关键字: rest
比较Wicket 1.5和Tapestry 5
Struts框架一度很流行,现在还有很多开发者使用Struts,因为处理遗留代码和投资方面的原因,有更多的开发者已经开始转向使用基于组件的框架。JSF是最受欢迎的组件框架之一,因为JSF是JCP的一部分,而且得到很多厂商支持。JSF 2.0即将发布,不过本文要讨论的是另外两个基于组件框架:Wicket 1.5和Tapestry 5。
很快,Apache基金会将会发布两个有趣的框架新的版本:Wic ...
by QQbyte 2008-09-16 浏览 (2056) 回复 (15) 关键字: wicket tapestry

