专栏Logo
介绍: Lucene,基于Java的全文检索引擎
专栏维护者

lighter

Lucene进阶:and 和or的条件查询

在用Lucene实现全站搜索的过程中,很可能会遇到这样的问题,只所有某种特定的信息资源,而不是全部.如:某综合性站点,有新闻,产品,论坛,Blog,视频等资源,而搜索的时候先选一个类型(下拉列表),再输入关键字进行搜索(当然,这种情况可以直接用sql来实现,我们这里是基于lucene的实现考虑).这种情况下,就要用到and和or的查询了.这里假设索引已经建立好了(如何建立索引请参考:http:// ...
by DavyLee 2007-09-24 浏览 (1305) 回复 (1) 关键字: lucene and or 查询

Lucene(Lucence)建立索引(字段)

Lucene,这是官方称谓,也有许多人叫它Lucence,做搜索和分词用的工具包.也有人说是Java下的搜索引擎框架库,见仁见智的说法罢了.不管叫什么,确实非常有用,比如做全站的搜索,其实它的用处远大于此,但凡涉及到文本搜索的地方就能用到它.我们就以做全站搜索为例,演示一下如何应用Lucene建立索引. public void index(List<IArticle> list) { ...
by DavyLee 2007-09-20 浏览 (1529) 回复 (0) 关键字: lucene lucence 索引 字段

基于lucene的对数据库&文件夹检索(ss2,appfuse,jdon,nutch杂烩)

整个工程文件和src,lib包可以用ss2下lib包。 完成了基本的对数据库表和文件夹(本来是对vss做索引,老大说没时间了,就对文件夹做就行了)的索引维护,对常用的office文件和rar,zip文件进行解析索引,中文分词用ck(这里多的是分词,可以找更好的)。 应用需要修改config/jdbc.properties  lucene.properties lucene.xml 以 ...
by jusescn 2007-08-08 浏览 (6944) 回复 (3) 关键字:

Lucene应用的一点体会

Lucene应用(我用的是Lucene2.1.0,有些观点有可能也不太正确) 1.多线程索引,共享同一个IndexWriter对象 这种方式效率很慢,主要原因是因为: java 代码   public void addDocument(Document doc, Analyzer analyzer)& ...
by ttitfly 2007-06-11 浏览 (3300) 回复 (5) 关键字: 多线程索引问题, 单线程

带局部统计识别高频词汇及人名识别的Lucene中文分词

经过努力终于在 引入局部统计识别高频词汇的Lucene中文分词程序 以及 基于词典的最大匹配的Lucene中文分词程序 把中文人名识别功能加入,能把大部分的中文姓名识别出来,结果喜人。 原理: 根据贝叶斯定理,分别建立中文形式库FirstName.stu,从网上搜集得到的真实姓名库Name.stu,以及以姓氏为开头但非中文姓名的词库(如“曾经是”,“关门&r ...
by billgmh 2007-05-24 浏览 (3152) 回复 (8) 关键字:

Lucene Hack之通过缩小搜索结果集来提升性能 (1)

作者:caocao(网络隐士),http://www.caocao.name,http://www.caocao.mobi 转载请注明来源:http://www.javaeye.com/topic/78884 一、缘起 Lucene在索引文件上G之后的搜索性能下降很严重,随便跑个搜索就要上0.x秒。如果是单线程搜索那么性能尚可,总可以在0.x秒返回结果,如果是Web式的多线程访问,由于Luce ...
by caocao 2007-05-11 浏览 (4990) 回复 (8) 关键字: lucene 搜索 性能

基于词典的最大匹配的Lucene中文分词程序

把自己之前完成的基于词典的最大匹配的中文分词程序修改成基于Lucene。其中包括了3种词典的组织形式:简单顺序存储SimpleDictionary,首字Hash词典HashDictionary,双重Hash词典;例外实现了两种分词算法:正向最大匹配MaxMatchSegment与反向最大匹配分词ReverseMaxMatchSegment;最后使用使只需根据需要配置spring的配置文件即可选择词 ...
by billgmh 2007-03-11 浏览 (10528) 回复 (12) 关键字:

自己写的一个基于词库的lucene分词程序--ThesaurusAnalyzer

       前一段时间用lucene做一个搜索程序,找了好长时间的中文分词程序,都没找到合适的,最后自己弄了一个.现在共享出来.希望对大家有用.       分词算法:    基于词库的正向最大匹配算法.      ...
by jolestar 2007-03-10 浏览 (15565) 回复 (19) 关键字: lucene 分词

Lucene相关度排序的调整

如欲转载,请注明作者:caocao,来源http://caocao.javaeye.com/。 Lucene的搜索结果默认按相关度排序,这个相关度排序是基于内部的Score和DocID,Score又基于关键词的内部评分和做索引时的boost。默认Score高的排前面,如果Score一样,再按索引顺序,先索引的排前面。那么有人问了,如果我要先索引的排后面怎么办呢?隐士研究了源码后发现这是相当简单的 ...
by caocao 2007-02-12 浏览 (3600) 回复 (2) 关键字: java lucene 相关度 排序

Lucene中文分词之网络隐士八卦版

俺自己搞了个Lucene中文分词,看到版上qieqie师傅发表的他自己搞的Lucene中文分词,隐士很感兴趣,想进来说两句,注册一把,晕,三天后才可以说话,刚刚可以说话。俺来介绍一下俺的中文分词实现。参考站点:http://so.mdbchina.com 俺的分词做了这么几件事:装载各类词库 —— 中文繁体转简体 —— 初步分词 —— 在初步分词基础上进行运算量可控的二次分词(运算量o(n),n句 ...
by caocao 2007-02-06 浏览 (2614) 回复 (5) 关键字: lucene