DNSPOD对《关于百度排名的一点小结》的回复

dnspod上午刚写了篇博文《关于百度排名的一点小结》,其中说到dnspod对于百度爬虫数量、标示的不确定性,而带来的解析误差,导致客户站点无法百分百单独而准确地解析爬虫的问题。这不,下午dnspod的市场部MM–然然,就加我QQ了,给我大概解释了些内容,如下:

由于搜索引擎的ip库每天都在更新,我们每天都会去获取搜索引擎ip,并定期更新蜘蛛ip库的,但是我们跟不上他们更新的速度。

若您发现了新的蜘蛛ip,请加下我们的企业QQ:800020304,联系技术支持提供下ip,我们会定期更新到蜘蛛ip库里。

我们(与百度)有过合作,但是他们(蜘蛛ip库)更新不通知我们的…

看出来了吧,dnspod为了那条“搜索引擎”的解析规则,可谓煞费苦心,除了搞好每日必做的服务器维护和技术处理,还得费劲巴力去搞搜索引擎的爬虫ip,dnspod真是不易。 Continue reading

关于百度排名的一点小结

因为想给论坛加个国内的cdn服务,所以琢磨着给论坛的域名搞个备案,不过这期间需要关站,考虑到搜索引擎的收录,索性在dnspod里只是把普通访客的www和@的记录停了,而针对爬虫的记录则开启。

搜索引擎

记录停了三天两夜,其中的两个晚上还是把停掉的两个记录重新开启的。这样做,看起来似乎是两全其美:一来普通访客无法解析,等于是关站;二来爬虫继续可以抓取站点内容,不受影响。但事实并非如此,仅仅三个白天的时间,我的一个在百度排名第一的关键词,掉到了第二。虽然看起来排名变化不大,但几乎可以肯定,这掉下来的一个名次,就是因为停掉普通访客的解析造成的。

据“Linode中文社区”群里的某位大牛说:百度爬虫不太按规则来,大概就是为了防止搜索引擎作弊之类的问题,它们的UA也不是一成不变,所以单靠dnspod的记录来区分访客和爬虫,特别是百度的爬虫,真的是不怎么靠谱。 Continue reading

关于“百度收录”的几点见解

百度对“留点后路”收录速度基本都在几分钟内,对这个速度我没意见,但就在半年之前,百度对本站的收录还在论“天”算。我的QQ群里有童鞋问这其中的原委,说实话,猛一下我也没什么理由,总结了几条,供参考:

上面这张图是在“百度统计”中获得,应该有比较大的权威。这张图记录了从2010年下半年至今,百度搜索引擎对“留点后路”站点的收录情况。下面做个简单分析:

第一阶段:图中的最低阶段。在2010年9月之前,百度的收录量几乎为零,零零星星地涨跌互现,而那时候的状况是:主机是Godaddy Deluxe那款,配有独立ip,没有任何其他扶住措施,那时候的文章数量在150篇左右。

第二阶段:图中2010年9月到2011年6月之间,一段几乎没有上涨曲线、非常平滑的一段。那时的状况是:主机为Linode,节点用的是Fremont或Dallas,一直用的独立ip,此时我的文章数量在230篇左右。 Continue reading

百度爬虫比我还懒…

本人对搜索引擎的“爬虫”没什么研究,更别说它们运行的“习性”和“方式”,但对各大搜索引擎爬虫的访问量,我还是有一个大致的统计。下图是Cloudflare统计的爬虫访问量:

看到了吧,就算是往前推三周的时间,都看不着百度爬虫的影子,难道是百度已经充分认识到:这一个小小的博客,内容更新幅度不会太大,即便是一个月不来,也没多大变化?!那我可真服了百度爬虫的智慧程度,在“运动量”和“获取信息量”两者间达到了一个百度自认为平衡的点,既不会浪费爬虫,也不会因为网站更新内容太多而失去时效性! Continue reading