《factor学习》的相关内容
相关讨论
Lucene中文分词“庖丁解牛”
Lucene中文分词 “庖丁解牛”
附件 为本人设计编写的组件,中文分词“庖丁解牛”,具有相当好的使用价值。。。
高效率:我的赛扬PC 1 秒解析 >>> 20000汉字的词语 (实际测试结果数据,可达1秒10万+汉字。)
高可维护性:使用“庖丁”隐喻,形象明晰
...
by Qieqie 2007-01-23 浏览 (52990) 回复 (69) 关键字: 设计模式, 中文分词, 庖丁解牛, 庖丁, lucene
JS正则表达式详解[收藏]
JS的正则表达式
//校验是否全由数字组成
[code]
function isDigit(s)
{
var patrn=/^[0-9]{1,20}$/;
if (!patrn.exec(s)) return false
return true
}
[/code]
//校验登录名:只能输入5-20个以字母开头、可带数字、“_”、“.”的字串
[code]
function isRegister ...
by Ivan Li 2006-10-26 浏览 (91151) 回复 (17) 关键字: javascript
介绍:最新的一种中文分词方式——由字构词
现有的中文分词方法基本上都是采用基于词表的正向最大匹配法进行词语切分。不过这种分词方法具有一个最大的问题,对于未登录词(也就是在词表中并未录入的词)的切分具有先天的不足,一般的解决方法是在基于正向最大匹配法切分模块后再加入一个未登录词模块,用于处理对于未登录词的切分。而在中文分词技术中,对于未登录词的切分错误极大的影响到了整体分词的召回率。现在主流的分词算法对于未登录词的召回率仍然在0.6 左右。 ...
by schweigen 2007-10-08 浏览 (9272) 回复 (19) 关键字: 中文分词 由字构词
我对二元分词的构想与实践
表只有一个,记录词和新闻记录的对应关系
另外应该还有一个新闻表,就不列了。
CREATE TABLE IF NOT EXISTS fenci (
word int not null default 0 comment '词的unicode码组合',
news_id int not nu ...
by xieye 2008-07-16 浏览 (413) 回复 (6) 关键字:
递归下降语法分析详解
引用本文以 lichray 设计的 S-dict(t) 配置文件解析器为例,简单介绍了词法分析器的原理,详细讲述了递归下降语法分析器手工构造方法。因为该项目本身已经完成,故此本文拥有一个实际可用的例子,是不可多得的入门教程。
引用T1 大人说过,技术的迅速贬值是十分残酷的,比如大部分的手工优化代码,早已被编译器们代劳。这篇文章中要说的递归下降语法分析方法也是严重贬值了的技术之一。不过我认为,在享受 ...
by Lich_Ray 2008-01-12 浏览 (4133) 回复 (7) 关键字: 编译原理
相关博客
在应用中加入全文检索功能——基于Java的全文索引引擎Lucene简介
Lucene的概述:
Lucene(发音为 ['lusen] )是一个非常优秀的开源的全文搜索引擎,我们可以在它的上面开发出各种全文搜索的应用来。Lucene在国外有很高的知名度,现在已经是Apache的顶级项目,在国内,Lucene的应用也越来越多。
Lucene的算法原理:
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应 ...
by 天空不空 2008-07-09 浏览 (118) 回复 (0) 关键字:
Lucene倒排索引原理
Lucene倒排索引原理
xzall 原创 (参与分:2747,专家分:140) 发表:2004-08-04 10:12 版本:1.0 阅读:2652次
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:
0)设有两篇 ...
by banditjava 2008-09-22 浏览 (35) 回复 (0) 关键字:
[转]Lucene倒排索引原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:
0)设有两篇文章1和2
文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.
文章2的内容为:He once lived in Shanghai.
1)由于lucene是基于关键词索引和查询的, ...
by grantbb 2008-07-07 浏览 (210) 回复 (0) 关键字:
Lucene索引原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:
0)设有两篇文章1和2
文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.
文章2的内容为:He once lived in Shanghai.
1)由于lucene是基于关键词索引和查询的, ...
by wind_bell 2007-04-25 浏览 (935) 回复 (1) 关键字:
Lucene倒排索引原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1)由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章 ...
by Callan 2007-09-04 浏览 (1246) 回复 (0) 关键字: lucene, java
相关圈子讨论
google search
这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文 本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含24‘000 ‘000个网页。我们可以从 http://google.stanford.edu/ 下载。
设 计搜索引擎 ...
by dogstar 2008-05-29 浏览 (581) 回复 (0)
lucene2.2,字符+逗号+数字 被standardAnalyzer分析后的问题
先放上我的测试代码:
Analyzer analyzer = new StandardAnalyzer();
Reader reader = new BufferedReader(new InputStreamReader(new StringBufferInputStream("Abc,123")));
TokenStream tokenStream = anal ...
by licco1 2007-09-06 浏览 (676) 回复 (6)
关于lucene的分词和查询
我想问下,如果我把一个中文字符传在索引的时候进行了分词,查询的时候也使用同一个分词器.
如何让查询按照最大匹配度去进行?
比如索引里的字符传是"问题说明越详细",分词分成了"问题","说明","越","详细".
我用"如果问题说明越详细,回答也会越准确!"去查询,希望能查询到这个结果,需要怎么做?
刚接触lucene,还很不熟悉.
by shadowlin 2008-05-26 浏览 (1262) 回复 (18)
怎么能让“清华”搜到“清华大学”
我现在使用的是mmseg包,集成到solr1.3来做中文分词,遇到了这样的一个问题:
文章里如果有: ...清华大学...
在mmseg的词库里有“清华大学”这个词,mmseg就把它切成了一个此,那搜索“清华”关键词的时候,就搜不到这个文章了
请各位帮忙一下
by zhzhxh 2008-10-05 浏览 (48) 回复 (2)
相关新闻
32个SEO方法提高网站的流量
32个SEO方法提高网站的流量:
1. title的重要性:Title是整个html在搜索引擎搜索结果中返回的第一要素,是最为核心的关键字词,建议不超过100个字节。
2. 关键词在Meta Keywords中的使用应注意以下几点:(1) 确信使用的关键词出现在网页文本中;(2) 不要重复使用关键词;(3) 每个网页的关键词应该不一样;(4) 一个网页的关键词标签里应该包含3-5个最重要的关 ...
by ╱/罒呍唲 2008-08-13 浏览 (1510) 回复 (3) 关键字: 提高网站的流量 seo
JS语法着色器 2.0 beta1 发布
JavascriptSyntaxColor ver2.0(beta1)
JS语法着色器第二版测试页面:http://army.512j.com/temp/test.html
---
Google开源项目(SyntaxHighlighter 1.51)主页:http://code.google.com/p/syntaxhighlighter/
JS语法着色器第一版(JavascriptSyn ...
by Army 2008-01-23 浏览 (577) 回复 (2) 关键字: syntax highlight

