如何使百度不收录我的网站信息
若不愿让百度收录我的网站,如何操作?
可于网站根目录下配置robots.txt文件以限制百度爬取。robots.txt需置于站点根目录,文件名需全为小写。robots.txt文件格式如下:
用户代理:指定搜索引擎种类。
禁止:指明禁止搜索引擎索引的地址。
允许:指明允许搜索引擎索引的地址。
我们常用的搜索引擎包括:
谷歌:谷歌机器人
百度:baiduspider
雅虎:咕嘟
Alexaspider:ia_archiver
Msn:msnbot
Altavista蜘蛛:滑板车
Lycosspider:lycos_spider_(霸王龙)
所有网络蜘蛛:快速网络爬虫
inktomiSpider:slurp
robots.txt文件编写方法:
用户代理:代表所有搜索引擎,为通配符。
禁止:禁止对admin目录下的目录进行爬网。
禁止:禁止对require目录下的目录进行爬网。
禁止:禁止对ABC整个目录进行爬网。
禁止:禁止访问/cgi-bin/目录中所有以“.”开头的文件。
禁止:禁止访问网站中的所有动态页面。
禁止:禁止抓取所有jpg格式图片。
禁止:禁止抓取AB文件夹下adc.html的所有文件。
用户代理:代表所有搜索引擎,为通配符。
允许:允许抓取cgi-bin目录下的目录。
允许:允许爬网tmp的整个目录。
允许:仅允许访问以“.”结尾的URL。
允许:允许抓取网页和gif图片。
robots.txt文件用法示例:
新网站长期不被收录,如何解决?
首先、分析网站日志,查看是否有被蜘蛛爬过
作为站长,必须学会分析网站日志,从中发现隐藏问题。具体分析网站日志的方法,可参考小编之前所写的《SEO网站优化每天必做之事:网站日志分析》。
1)、若未被收录的页面未被蜘蛛爬行
页面未被Baiduspider爬行,可适当增加外链引导蜘蛛爬行,或提交页面至搜索引擎。例如,每日吐槽图示页面已很久未被百度收录,可进行以下操作:
2)、若页面已被Baiduspider爬行过
页面被爬行也未被收录,可能存在的因素:
1、第一次被Baiduspider爬行,从百度综合算法来看,该页面价值性极低,决定是否创建索引。
2、第二次被Baiduspider爬行,该页面从始至终未有任何变动,决定暂停分析。
3、第三次被Baiduspider爬行,该页面仍无变动,且长时间未出现其他附加价值(附加价值:评论、分享、转发等),决定不予收录。
要知道Baiduspider也很忙,不会天天爬行未收录的页面,所以当页面长时间不被百度收录时,适当增加附加价值或修改页面,如添加图片、视频或内容,修改标题等,以提高页面被收录的几率。
第二、是否robots设置错误,主动屏蔽Baiduspider
Robots设置非常重要,建议查阅百度站长工具资讯中的详细教程。若为robots设置问题,纠正后更新robots,并在百度站长工具后台进行更新,以便百度蜘蛛重新更改状态。
第三、页面是否存在敏感词
现在越来越多的词对搜索引擎来说都有一定的敏感性,敏感词可能造成页面不被收录,甚至可能导致网站被降权或被K。因此,站长们在建设内容时要注意避免出现敏感词。
第四、页面内容是否为采集
百度曾表示,数据库中肯定存在完全重复的内容,但有一定限制。例如,一篇文章最多被收录20篇,当已收录20篇时,无论是转载还是更新都不会被收录。
希望对您有所帮助,如有其他网络问题,欢迎咨询。
敬请采纳。