搜索概念》的相关内容

Lucene中文分词“庖丁解牛”

 Lucene中文分词 “庖丁解牛”  附件 为本人设计编写的组件,中文分词“庖丁解牛”,具有相当好的使用价值。。。 高效率:我的赛扬PC 1 秒解析 >>> 20000汉字的词语  (实际测试结果数据,可达1秒10万+汉字。) 高可维护性:使用“庖丁”隐喻,形象明晰 ...
by Qieqie 2007-01-23 浏览 (52990) 回复 (69) 关键字: 设计模式, 中文分词, 庖丁解牛, 庖丁, lucene

中文搜索引擎研究

1.为什么需要搜索引擎? 什么叫搜索引擎呢?Internet是一个巨大的信息资源宝库,几乎所有的Internet用户都希望宝库中的资源越来越丰富,使之应有尽有。每天都有新的主机被连接到Internet上,每天都有新的信息资源被增加到Internet中,使Internet中的信息以惊人的速度增长。然而Internet中的信息资源分散在无数台主机之中,如果用户想将所有主机中的信息都做一番详尽的考察,无 ...
by mfcai 2008-02-25 浏览 (1054) 回复 (1) 关键字:

介绍:最新的一种中文分词方式——由字构词

现有的中文分词方法基本上都是采用基于词表的正向最大匹配法进行词语切分。不过这种分词方法具有一个最大的问题,对于未登录词(也就是在词表中并未录入的词)的切分具有先天的不足,一般的解决方法是在基于正向最大匹配法切分模块后再加入一个未登录词模块,用于处理对于未登录词的切分。而在中文分词技术中,对于未登录词的切分错误极大的影响到了整体分词的召回率。现在主流的分词算法对于未登录词的召回率仍然在0.6 左右。 ...
by schweigen 2007-10-08 浏览 (9272) 回复 (19) 关键字: 中文分词 由字构词

通过对web日志的挖掘来实现内容推荐系统

/** *作者:张荣华 *日期:2008-3-9 **/ 先说一说问题,不知道大家有没有这样的经验,反正我是经常碰到。         举例1,某些网站每隔几天就发邮件给我,每次发的邮件内容都是一些我根本不感兴趣的东西,我不甚其扰,对其深恶痛绝。        ...
by ahuaxuan 2008-03-09 浏览 (1109) 回复 (10) 关键字: 推荐系统

Web 文本挖掘(TextMining)技术

Web 文本挖掘(TextMining)技术[日期:2007-01-04]来源:  作者:[字体:大 中 小] 文本挖掘的起源  文本数据库(web文档数据)  半结构化数据(semistructure data)  信息检索技术(information retrieval)  Web文本挖掘的过程   Web文本挖掘的一般处理过程     特征的建立   特征集的缩减   学习与知识模 ...
by 晨星★~雨泪 2008-03-24 浏览 (258) 回复 (0) 关键字:

信息检索知识-SEOer必备知识

信息检索技术简介为了使读者对信息检索研究的进展有更深的了解,这里我们简单介绍一下信息检索技术的基本原理。信息检索系统流程大致如下图所示:总体上,系统可分为四个部分:1. 数据预处理,2.索引生成,3. 查询处理,4. 检索。下面我们分别对各个部分采用的技术加以介绍。1. 数据预处理        目前检索系统的主要数据来源是Web,格式包 ...
by wangdei 2008-05-19 浏览 (129) 回复 (0) 关键字:

Web数据挖掘

   引言 数据挖掘(Data Mining,DM)是从大量数据中提取或“挖掘”知识,是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。[1] 随着网络的不断发展,因特网目前已成为一个巨大的、分布广泛的和全球性的信息服务中心。从海量的网络信息中寻找有用的知识,早已成为人们的迫切需求。各种类似Google、Baidu等的搜索引擎也层 ...
by yuping322 2007-08-24 浏览 (1238) 回复 (2) 关键字: 数据挖掘

搜索引擎技术及趋势- -

随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。   搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全 ...
by wind_bell 2007-07-03 浏览 (349) 回复 (0) 关键字:

中文搜索引擎研究

1.为什么需要搜索引擎? 什么叫搜索引擎呢?Internet是一个巨大的信息资源宝库,几乎所有的Internet用户都希望宝库中的资源越来越丰富,使之应有尽有。每天都有新的主机被连接到Internet上,每天都有新的信息资源被增加到Internet中,使Internet中的信息以惊人的速度增长。然而Internet中的信息资源分散在无数台主机之中,如果用户想将所有主机中的信息都做一番详尽的考察,无 ...
by mfcai 2008-02-25 浏览 (209) 回复 (1) 关键字:

google search

这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文 本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含24‘000 ‘000个网页。我们可以从 http://google.stanford.edu/ 下载。 设 计搜索引擎 ...
by dogstar 2008-05-29 浏览 (628) 回复 (0)

推荐系统

/** *作者:张荣华 *日期:2008-3-9 **/ 先说一说问题,不知道大家有没有这样的经验,反正我是经常碰到。         举例1,某些网站每隔几天就发邮件给我,每次发的邮件内容都是一些我根本不感兴趣的东西,我不甚其扰,对其深恶痛绝。        ...
by ahuaxuan 2008-06-10 浏览 (209) 回复 (1)

google背后的分布式架构

Google背后的分布式计算架构策略 Google是与众不同的。它的独特不仅仅表现于革新的思维和充满创意的应用 (比如那个大堂里的地球模型),更在于其有别常规的IT策略……   加利福尼亚州山景城(Mountain View)Google公司(Google,下称Google)总部有一个43号大楼,该建筑的中央大屏幕上显示着一个与Google地球(Google Earth)相仿的世界地图,一个转动 ...
by dogstar 2008-05-29 浏览 (2052) 回复 (0)

使用IBM WAS,Sysinct创建动态的部署环境

本文介绍了美国佛罗里达医院的Websphere动态部署的案例。 背景 佛罗里达医院是佛罗里达州第二大医院,同时也是最大的私有非营利性医院,在心脏病、肿瘤、神经病和妇科病的诊治方面蜚声全国,IBM的商业合作伙伴 Sysinct同IBM一道为该医院开发和部署了一整套在线服务系统,这套医疗系统被称作Integrated Delivery System,覆盖范围达到2,048个急诊病床、包括佛罗里达中 ...
by IBM文章编辑 2007-08-07 浏览 (1574) 回复 (0)

websphere和weblogic的一些资料比较

此资料系个人搜集查询所得,对其真实性不做任何保证,发表在此一为记录方便日后查询,二希望对有同样的需求者有所帮助,如有不妥当之处,请谅解,具体真实情况,请自行核实。 Websphere: 这是ibm公司的网上的信息。更详细的信息可以访问网站: http://www-306.ibm.com/software/cn/websphere/ WebSphere 产品家族和解决方案 业务整合整合服务器提供了 ...
by guona 2007-10-10 浏览 (2403) 回复 (1)

相关问答

赞助商链接