浏览 1547 次
|
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
|---|---|
| 作者 | 正文 |
|
时间:2007-03-24 关键字: spider
整理spider的访问情况时发现有些web client带有这样的标识,这个是个spider还是某种浏览器。
有没有不守规则的spider? 有个ip的访问次数和访问量很高,我怀疑这个是spider,不过client标识却是正常的web浏览器. 声明:JavaEye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
|
|
| 返回顶楼 | |
|
时间:2007-03-24
证明电脑上装了KuGoo。
|
|
| 返回顶楼 | |
|
时间:2007-03-24
jack 写道 整理spider的访问情况时发现有些web client带有这样的标识,这个是个spider还是某种浏览器。
有没有不守规则的spider? 有个ip的访问次数和访问量很高,我怀疑这个是spider,不过client标识却是正常的web浏览器. 你是用user-agent的HTTP头信息来查的吧?如果是,一般浏览器默认有固定的信息,但这个头信息是可以任意指定的,比如Opera里可以指定是模拟IE。 |
|
| 返回顶楼 | |
|
时间:2007-03-24
Lucas Lee 写道 jack 写道 整理spider的访问情况时发现有些web client带有这样的标识,这个是个spider还是某种浏览器。
有没有不守规则的spider? 有个ip的访问次数和访问量很高,我怀疑这个是spider,不过client标识却是正常的web浏览器. 你是用user-agent的HTTP头信息来查的吧?如果是,一般浏览器默认有固定的信息,但这个头信息是可以任意指定的,比如Opera里可以指定是模拟IE。 这个我知道,所以我很怀疑某些spider 装成ie或者其他的浏览器来访问。 对比了下baidu和sogou的spider,两个的行为区别很大,baidu会用head指令,sogou直接get。 |
|
| 返回顶楼 | |
|
时间:2007-03-25
看它对robot.txt的访问次数,如果是0的,都是劣质robot或者伪spider,隔时断封IP处理
|
|
| 返回顶楼 | |
|
时间:2007-03-26
crazysoul 写道 看它对robot.txt的访问次数,如果是0的,都是劣质robot或者伪spider,隔时断封IP处理
这条规则 目前搜索引擎还遵守吗? |
|
| 返回顶楼 | |
|
时间:2007-04-27
jack 写道 crazysoul 写道 看它对robot.txt的访问次数,如果是0的,都是劣质robot或者伪spider,隔时断封IP处理
这条规则 目前搜索引擎还遵守吗? 如果是0的,都是劣质robot或者伪spider 部分有遵守,你可以装个awstats观察。 组略统计,Googlebot对robot.txt的访问比率大概是0.78%,BaiDuSpider大概是0.39%,Yahoo Slurp 11.88%,MSNBot: 5.84%。 |
|
| 返回顶楼 | |







