如何提高百度对网站的抓取效率，以及如何防止百度收录不希望展示的网站内容与信息？-夫唯域名网

如何使百度不收录我的网站信息

若不愿让百度收录我的网站，如何操作？

可于网站根目录下配置robots.txt文件以限制百度爬取。robots.txt需置于站点根目录，文件名需全为小写。robots.txt文件格式如下：

用户代理：指定搜索引擎种类。

禁止：指明禁止搜索引擎索引的地址。

允许：指明允许搜索引擎索引的地址。

我们常用的搜索引擎包括：

谷歌：谷歌机器人

百度：baiduspider

雅虎：咕嘟

Alexaspider：ia_archiver

Msn：msnbot

Altavista蜘蛛：滑板车

Lycosspider：lycos_spider_(霸王龙)

所有网络蜘蛛：快速网络爬虫

inktomiSpider：slurp

robots.txt文件编写方法：

用户代理：代表所有搜索引擎，为通配符。

禁止：禁止对admin目录下的目录进行爬网。

禁止：禁止对require目录下的目录进行爬网。

禁止：禁止对ABC整个目录进行爬网。

禁止：禁止访问/cgi-bin/目录中所有以“.”开头的文件。

禁止：禁止访问网站中的所有动态页面。

禁止：禁止抓取所有jpg格式图片。

禁止：禁止抓取AB文件夹下adc.html的所有文件。

用户代理：代表所有搜索引擎，为通配符。

允许：允许抓取cgi-bin目录下的目录。

允许：允许爬网tmp的整个目录。

允许：仅允许访问以“.”结尾的URL。

允许：允许抓取网页和gif图片。

robots.txt文件用法示例：

新网站长期不被收录，如何解决？

首先、分析网站日志，查看是否有被蜘蛛爬过

作为站长，必须学会分析网站日志，从中发现隐藏问题。具体分析网站日志的方法，可参考小编之前所写的《SEO网站优化每天必做之事：网站日志分析》。

1）、若未被收录的页面未被蜘蛛爬行

页面未被Baiduspider爬行，可适当增加外链引导蜘蛛爬行，或提交页面至搜索引擎。例如，每日吐槽图示页面已很久未被百度收录，可进行以下操作：

2）、若页面已被Baiduspider爬行过

页面被爬行也未被收录，可能存在的因素：

1、第一次被Baiduspider爬行，从百度综合算法来看，该页面价值性极低，决定是否创建索引。

2、第二次被Baiduspider爬行，该页面从始至终未有任何变动，决定暂停分析。

3、第三次被Baiduspider爬行，该页面仍无变动，且长时间未出现其他附加价值（附加价值：评论、分享、转发等），决定不予收录。

要知道Baiduspider也很忙，不会天天爬行未收录的页面，所以当页面长时间不被百度收录时，适当增加附加价值或修改页面，如添加图片、视频或内容，修改标题等，以提高页面被收录的几率。

第二、是否robots设置错误，主动屏蔽Baiduspider

Robots设置非常重要，建议查阅百度站长工具资讯中的详细教程。若为robots设置问题，纠正后更新robots，并在百度站长工具后台进行更新，以便百度蜘蛛重新更改状态。

第三、页面是否存在敏感词

现在越来越多的词对搜索引擎来说都有一定的敏感性，敏感词可能造成页面不被收录，甚至可能导致网站被降权或被K。因此，站长们在建设内容时要注意避免出现敏感词。

第四、页面内容是否为采集

百度曾表示，数据库中肯定存在完全重复的内容，但有一定限制。例如，一篇文章最多被收录20篇，当已收录20篇时，无论是转载还是更新都不会被收录。

希望对您有所帮助，如有其他网络问题，欢迎咨询。

敬请采纳。

如何提高百度对网站的抓取效率，以及如何防止百度收录不希望展示的网站内容与信息？

a351910080

热门文章

如何挑选优秀的网站开发企业？哪家网站建设服务商更值得信赖？

如何提升SEO关键词效果：揭秘专业SEO公司网站外链发布策略

如何提升SEO关键词效果：揭秘SEO优化内涵，探索实用优化策略全解析

如何挑选优质网站制作服务？企业网站建设指南揭秘

相关推荐

QQ咨询

关注微信

回顶部