域名"注册+交易+金融+行情+交流"
域名相关服务一应俱全,旨为您所想。

如何提高百度对网站的抓取效率,以及如何防止百度收录不希望展示的网站内容与信息?

如何使百度不收录我的网站信息

若不愿让百度收录我的网站,如何操作?

可于网站根目录下配置robots.txt文件以限制百度爬取。robots.txt需置于站点根目录,文件名需全为小写。robots.txt文件格式如下:

用户代理:指定搜索引擎种类。

禁止:指明禁止搜索引擎索引的地址。

允许:指明允许搜索引擎索引的地址。

我们常用的搜索引擎包括:

谷歌:谷歌机器人

百度:baiduspider

雅虎:咕嘟

Alexaspider:ia_archiver

Msn:msnbot

Altavista蜘蛛:滑板车

Lycosspider:lycos_spider_(霸王龙)

所有网络蜘蛛:快速网络爬虫

inktomiSpider:slurp

robots.txt文件编写方法:

用户代理:代表所有搜索引擎,为通配符。

禁止:禁止对admin目录下的目录进行爬网。

禁止:禁止对require目录下的目录进行爬网。

禁止:禁止对ABC整个目录进行爬网。

禁止:禁止访问/cgi-bin/目录中所有以“.”开头的文件。

禁止:禁止访问网站中的所有动态页面。

禁止:禁止抓取所有jpg格式图片。

禁止:禁止抓取AB文件夹下adc.html的所有文件。

用户代理:代表所有搜索引擎,为通配符。

允许:允许抓取cgi-bin目录下的目录。

允许:允许爬网tmp的整个目录。

允许:仅允许访问以“.”结尾的URL。

允许:允许抓取网页和gif图片。

robots.txt文件用法示例:

新网站长期不被收录,如何解决?

首先、分析网站日志,查看是否有被蜘蛛爬过

作为站长,必须学会分析网站日志,从中发现隐藏问题。具体分析网站日志的方法,可参考小编之前所写的《SEO网站优化每天必做之事:网站日志分析》。

1)、若未被收录的页面未被蜘蛛爬行

页面未被Baiduspider爬行,可适当增加外链引导蜘蛛爬行,或提交页面至搜索引擎。例如,每日吐槽图示页面已很久未被百度收录,可进行以下操作:

2)、若页面已被Baiduspider爬行过

页面被爬行也未被收录,可能存在的因素:

1、第一次被Baiduspider爬行,从百度综合算法来看,该页面价值性极低,决定是否创建索引。

2、第二次被Baiduspider爬行,该页面从始至终未有任何变动,决定暂停分析。

3、第三次被Baiduspider爬行,该页面仍无变动,且长时间未出现其他附加价值(附加价值:评论、分享、转发等),决定不予收录。

要知道Baiduspider也很忙,不会天天爬行未收录的页面,所以当页面长时间不被百度收录时,适当增加附加价值或修改页面,如添加图片、视频或内容,修改标题等,以提高页面被收录的几率。

第二、是否robots设置错误,主动屏蔽Baiduspider

Robots设置非常重要,建议查阅百度站长工具资讯中的详细教程。若为robots设置问题,纠正后更新robots,并在百度站长工具后台进行更新,以便百度蜘蛛重新更改状态。

第三、页面是否存在敏感词

现在越来越多的词对搜索引擎来说都有一定的敏感性,敏感词可能造成页面不被收录,甚至可能导致网站被降权或被K。因此,站长们在建设内容时要注意避免出现敏感词。

第四、页面内容是否为采集

百度曾表示,数据库中肯定存在完全重复的内容,但有一定限制。例如,一篇文章最多被收录20篇,当已收录20篇时,无论是转载还是更新都不会被收录。

希望对您有所帮助,如有其他网络问题,欢迎咨询。

敬请采纳。

以上所转载内容均来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2020@163.com,本人将予以删除。夫唯域名网 » 如何提高百度对网站的抓取效率,以及如何防止百度收录不希望展示的网站内容与信息?

分享到: 生成海报