作为网上创业的一个项目,新上马的一个网站,上马网站第一天提交,第二天就收录首页,并且品牌关键词又不错的排名。但是第三天出现了一个问题,就是百度快照变成了只剩下网址了,而且快照内容是空白.
早上SITE,百度收录,到了晚上SITE,就发现被K了,到第二天早上,SITE一下,有收录,还是只有网址,同时关键词排名消失!这样的情况到现在维持了有一个礼拜左右了,但是快照仍旧是只显示网址。
出现这个问题,开始的时候心理不进害怕,难道网站刚上线就受到百度的惩罚了?心理不免疑问,网站也没有违规操作,外链只是手工发了几条,并没有过激行为。
在百度上查找,发现有同学出现相同的问题,但是并没有找到有效的解决办法。在谷歌搜索的时候,看到一个问题,就是大家都知道淘宝是屏蔽百度蜘蛛的,可以打开淘宝的robots.txt文件看一下,但是在百度搜一下淘宝还是有搜索结果的,也是只有网址,快照没有显示内容
由此我想到,一定是蜘蛛抓取不到网页的页面内容所致,而阻挡百度蜘蛛的一定就是robots.txt,我突然想起来,由于中间我换了后台的CPS,根目录下的文件夹有变化,就把robots.txt内容修改过,我想这可能是百度蜘蛛抓取不到页面的原因,因为百度对robots.txt的反应是有一段时间的。但是我又在想,这次改动,并没有禁止过蜘蛛爬行的语句。我心里觉得问题还不在于这次改动。
我有个习惯,就是在百度正式上马之前,习惯用robots.txt禁止蜘蛛爬行,为的是怕蜘蛛提前收录未架构好的网站,想吧网站架构好之后,在完全放开。这个习惯的初衷是好的,对于谷歌是绝对没问题的。但是大家都知道,百度是比较弱智的,在更新方面也是比较迟钝的,根据大家的经验,百度对 robots.txt的反应是有一段时间的,因此我断定,我的网站,百度还是认为在之前的robots禁止状态。如果不出意外的话,过了这段适应期,百度是会重新收录的,因为此时我的robots文件是正常的。
由此次问题看出,提前禁止百度蜘蛛爬行,对于百度未必是好的方法,最好的方式,就是在网站上吗之前,提前做好整个企划,网站构建在尽量短的时间内完成,而不是像我之前,先禁止蜘蛛爬行,然后网址慢慢完善,这样就有可能出现,百度对之前的robots.txt禁止状态长时间反应不过来,就会造成百度只收录网址,快照显示空白的情况发生。
下面是找到的两个,看起来比较靠谱的原因:
一是,空间质量不好,百度蜘蛛抓取首页有误,导致快照空白。(我使用的空间良好,不存在这个问题,因此不是这个原因)。
二是,网站首页程序的原因。
仔细查看网站程序后台设置和前台文件,发现首页有两个文件,一个是index.asp,另一个是index.html,而空间配置的默认首页文件是 index.html照常理应该是优先访问index.html的,这个是静态文件,出于安全起见先把index.asp暂停使用,对于网站的访问和后台的文件生成没有影响,于是将index.asp删除掉,等待收录情况。第二天早上用站长工具查询时发现首页快照收录正常,快照日期是最新的,快照内容也有了,标题的收录也完整了。至此,百度快照收录空白内容的情况已完全解决。
对于这个原因,我曾以为我就是这个原因,因为曾更换了我的首页文件,因为功能需要,我把index.html修改为index.php了,这样就有可能是百度一直收录的我的html首页,而不收我的php。但是我也做出否定,因为我已经删除index.html,我的后台只有index.php这个首页文件,不存在蜘蛛收录一个不存在的首页的情况。除非首页还在百度的缓存中,但是已经一个礼拜了,k了收,收了k,快照隔天。空间后台也是把 index.php作为默认首页。
因此,唯一让我认可的还是曾经使用robots文件禁用过百度蜘蛛的原因,百度比较呆,看别人的案例,有的情况是,禁止爬行发开后,四十多天才会重新收录的案例。因为我认为,可能是百度蜘蛛对robots的反应慢,依然认为是在被禁止。下面是我搜索遇到的一种说法:
这个现象目前主要有几种可能
2.百度对robots的更新 要一段时间, 如果要让其更快反映,请先删除robots.txt ,猜测 之前禁止过蜘蛛。
我暂时先认可这种办法,先吧robots文件删除,以图百度快点反应过来,重新收录首页!有没有效果,后期会在这篇文章末尾补充。
补充:就在刚刚这篇文章完成之时,我回头SITE了一下,发现快照竟然恢复了,
我不知道是我今天投诉快照的原因,还是,我把后台的默认首页,全都删掉的原因,如果能保持长久不再恢复的话,那就是默认首页的问题了,但是我还是觉得,可能是今天投诉快照的原因。拭目以待,继续观察中……
中国足彩网信息请查看IT技术专栏
2025国考·省考课程试听报名