论坛首页 综合技术版 python

New SubProject TPDA

浏览 156 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
时间:2008-03-30

Xspider2的前期已经完成,目前的版本是0.1.1b可以实现

 

Single page的抓取; 页面深度的返回与存储

 

现在打算在X2的基础上增加一个页面深度及路径的算法,这个算法我称之为TPDA,按照GNU风格的解释

 

TPDA: The Page/Point Depth Algorithm.

 

争取实现:

  • 页面深度和路径
  • 无分词文本空间高频词语提取
  • 路径最优算法
核心算法可能采取JAVA去描述,Python来实现架构,有机会的话最好实践把Perl
   
论坛首页 综合技术版 python

跳转论坛:
JavaEye推荐
    快速回复 引用上一条消息 (Alt+S)