域名"注册+交易+金融+行情+交流"
域名相关服务一应俱全,旨为您所想。

实现网页内容自动采集?遭遇百度抓取异常后应如何应对?

网站遭遇百度抓取异常后如何应对

伴随着搜索引擎的持续更新和调整,愈来愈多的网站遭遇降权,四处充斥着“网站再度降权了”、“我的网站降权了怎么办?”、“网站是否降权了?”、“如何判断网站是否被百度降权?”等声音,众多站长已如惊弓之鸟,对网站任何细微变化都疑虑重重,仿佛一有变动就担心网站被降权。

实际上,网站的正常波动是常态,并非所有不利现象都是降权。网站被百度降权有几种迹象,如快照回溯、排名下滑、收录锐减、秒收文章几小时即被删除、文章收录后搜索不到等。上述任何一种现象都可能是降权的表现,但出现这些现象并不一定就是降权。我们需要结合网站运营历史数据来初步判断是否降权。

百度降权迹象查询

1、网站百度快照问题

快照问题其实无需过分担忧。百度并未明确表示好网站快照就隔天更新,差网站快照就停滞。同时,我们也常看到半年前的快照排在某些大站首页前面。快照停滞或回溯并不需要过分惊慌。出现快照问题,我们首先应考虑是否长时间未更新网站、是否购买了链接或软文。实际上,百度快照系统本身也存在问题。经常出现内容更新但快照时间未更新。因此,不必过分关注快照。

2、网站排名下滑

正常优化的网站,理论上搜索引擎排名应持续上升。但上升至一定程度后,可能就会停滞不前甚至下降。这时,不要轻易怀疑自己的优化方法或网站技术问题。先观察竞争对手的网站,或许是自己网站在文章质量、内链、外链、网站规模等方面不如人,亦或是竞争对手的优化技术更胜一筹。因此,排名下滑并不意味着降权。如果从第一页直接跌至第10页甚至搜不到,这才是降权。

3、网站收录锐减

收录量反映着一个网站的流量来源。通常情况下,搜索引擎排名一定的网站,收录量越多流量越大。若手中的网站收录量突然减少,我们需要查看之前有排名的页面是否还存在,若存在,可初步判断是百度算法调整。若大量页面消失,则可能是降权。因此,此时应分析被删除的收录页面是否存在采集、抄袭或工具伪原创现象。百度识别无价值页面需要一段时间,对于无价值页面早晚都会删除。但若一下子删除过多页面,对网站仍有一定影响。当然,如果一个收录数百或更多的网站,收录量突然降至个位数,若百度系统无问题,则很可能被降权。

4、首页不在第一位

site、domain不在第一也要分情况。新站site或domain不在第一,不必过分担忧,因为网站刚上线,权重较低,不在第一也是正常。但若老站之前site和domain都在第一,更新后不在第一,则需引起注意。一般网站有问题时,这并非绝对。但应足够引起重视。site不在第一,关键词排名大量下降。百度排名是按照权重来排名的,site出来的权重高的排在前面,权重低的排在后面。若site的首页内页后面,则说明首页的权重不如内页,这时网站很可能被降权。此时要结合核心关键词是否大幅下降,若没有大幅下降,则证明未被降权。若大幅下降,则证明网站已被降权。伴随的还有不带www的排名好过带www的,这通常是被降权的表现。

5、网站秒收文章搜不到

秒收是一种境界,但收录后无排名是我们不愿看到的问题。文章被秒收说明网站较受搜索引擎关注,但收录无排名也是权重低的表现。新站和被降权的网站都可能存在这种情况。若之前发布的文章有排名,现在被秒收的文章却无排名,则肯定是降权了。

6、网站外链锐减

外链锐减这个现象许多站长都经历过。遇到搜索引擎更新,网站外链锐减几千甚至几万,这种情况多半是网站外链质量的问题。当然,减少几十、几百,可能是搜索引擎对互联网信息整合,删除重复信息,这也不必担心。但若外链锐减至正常数量的一半以上,则需小心。

总结:网站降权的迹象还有很多,但出现迹象不一定就是真被降权。一定要做好数据分析,综合网站降权的各种迹象进行判断,并了解搜索引擎之前有何动作,自己之前有何动作。

百度降权恢复

网站降权一直是站长头疼的问题,降权可大可小,轻则收录变慢,重则直接K站封域名。网站被降权后如何处理?许多站长都不知所措。一些人试图通过改版来解决降权问题,这是错误的。盲目操作不仅不会为网站带来权重恢复的希望,甚至可能带来更大的危险。许多站长都吃过这样的苦。查询到网站降权的迹象后,不要盲目操作,保持冷静,分析才是关键。检查降权时间、分析近期操作、查看服务器、了解搜索引擎变化,主动找出网站被降权的原因,对症下药才是解决问题的根本。

1、服务器问题导致降权:升级硬件、增加防护

除了百度算法变更和百度系统异常之外,所有降权原因都来自网站本身。因此,在慌乱之余,先检查服务器近期是否出现过问题(DDOS攻击、线路不稳定、机房升级),DNS是否出现过故障,再就是网站是否被挂马。

服务器和DNS的问题可以通过百度站长平台里的网站异常提醒工具查看。其中会记录服务器无法连接或百度蜘蛛无法抓取网站的时间和次数。必要时需要联系服务器提供商或域名注册商进行百度蜘蛛抓取测试,排除服务器屏蔽百度蜘蛛或DNS无法被百度识别的情况。

服务器与DNS故障可通过百度站长平台中的异常监测工具得知。其中记录着服务器无法连接或百度蜘蛛抓取网站的时间与频次。在必要时需联系服务器供应商或域名注册商进行百度蜘蛛抓取测试,以排除服务器屏蔽百度蜘蛛或DNS无法被百度识别的情况。

2、恶意代码植入导致权重降低:清除恶意代码、修复漏洞、申请删除快照

网站遭受恶意代码植入是多数新手站长最头痛的问题。恶意代码不仅影响网站权重,还损害网站给客户的形象。明显的恶意代码会篡改网站标题、内容,添加大量垃圾链接,使网站面目全非。还有一种隐藏的恶意代码是页面不显示,只显示在源代码里,通常以黑链为主。在绿萝时代,网站被挂黑链很容易被降权,但只要发现及时,也能迅速恢复。

还有一种恶意代码使用了搜索引擎欺骗技术,只针对搜索引擎挂马(黑链),而用户正常浏览以及查看源文件都无法发现黑链链接,只是从快照中可以发现。当然,使用模拟搜索引擎抓取的工具也可以查看。这种不可见的黑链和可见黑链危害相同,都要尽早删除。删除后,快照不会立刻删除或更新,这时就需要我们向百度提交删除快照的申请。详细说明原因,过一两天就会收到百度的回复。

3、无价值或不相关内容导致权重降低:减少对这种页面的权重导向,使用nofollow进行权重保护

内容为王是我们一直强调的课题,无论何时搜索引擎都会优先尊重有价值的内容。所以,如果你的网站想要有好的排名,内容质量一定要过硬。这个内容质量,我们要从三个方面来考量:一是可读性、二是原创性、三是篇幅。可读性主要是针对那些用伪原创工具进行的词语替换来说的,一篇不通顺的文章不仅会使搜索引擎理解混乱,同时来自读者的跳出率也会间接反映给搜索引擎,使之对此页面扣分。原创性不需要多说,搜索引擎喜欢新颖独特的内容,抄袭来的不仅增加搜索引擎的负担,还会降低搜索引擎对你网站的兴趣。篇幅是很多站长忽略的问题。一篇文章要想有价值至少要有完整的意思,而几句话的文章说得再好,也是没有竞争力的。所以,要想文章有好的排名,必须要保证文章在一屏以上。

4、垃圾外链、黑链、被K友链导致的网站权重降低:拒绝外链、删除友链,同时适当补充同行业的有价值的链接

绿萝2.0让更多的外链行业倒闭了,不仅外链权重大打折扣,外链的质量和变化率还直接影响着网站的稳定性。虽然有人冒险购买外链获得了不错的排名,但把命运交给内容之外的因素本身就是一种冒险。

问题出在链接上,我们首先要从链接上入手。多数降权是因为外链不稳定造成的,这包括数量的不稳定和权重的不稳定。购买外链很难把握住日增数量(主要指的是被百度收录的外链数量),再加上如果发布外链的平台是站群或同类型的站,很可能被一次性全删除或屏蔽,到时候外链量突然减少不降你的权才怪。

除了垃圾外链影响,也要看一下是不是友链的网站被K了,百度友情链接连坐惩罚已经不是一次两次了。就如同法律上包庇罪犯也是犯罪一样。所以,友链被降权了赶紧处理一下吧。

5、长期不更新、无外链导致的网站权重降低:更新文章,发外链引蜘蛛

搜索引擎喜欢活跃的网站,长期不更新的“死站”对搜索引擎来说没有什么价值,除非你网站的内容独一无二,并且没有人能够复制走你的东西。这样的站严格地说不算降权,排名下降是因为被更优秀的网站挤下去了,只要好好更新内容、发外链自然会回到应有的排位的。

6、改版换程序导致的网站权重降低:301重定向、百度站长平台提交对应URL规则,将旧外链和友链尽可能转移到新页面上来

改版是网站发展到一定阶段后常有的事,为了扩大受众、突出特色或增加功能,必须进行一些结构或功能方面的调整。而网站大幅度修改容易让搜索引擎突然“不认识你”,所以你需要做的就是让搜索引擎接受你的新面孔,将旧的页面重定向到新页面上来,同时将旧的外链也指向新页面。你网站短暂的降权期很快就会恢复的。

7、HTTP响应状态错误导致的网站权重降低:设置调整为正确的HTTP状态

一种是301重定向误用为302重定向,或者使用JS或meta进行重定向跳转。另一种是404错误跳转到首页或返回200状态。搜索引擎承认的可以完善传递权重的重定向是301重定向,其他的重定向不但传递权重效果不好,还容易被判定为作弊,所以一定要保证你要传递权重时使用的是301重定向,这主要用在网站换域名、页面更换路径。而404错误页是用来告诉读者该页面不存在,同时也是告诉搜索引擎此页面不存在,无需再来抓取信息。如果这时给搜索引擎返回200,说明页面是正常页面,那网站中存在的N个404错误页都成了雷同甚至完全相同的正常页,这会让搜索引擎觉得你网站相似度过高,内容价值过低而降权的。所以,一旦知道这方面的错误一定要第一时间改正。

8、页面重复度过高或大量垃圾转载导致的网站权重降低:规范重复页面,更新高质量内容

网站有很多重复的标题或发布了很多内容完全一样或相近的内容,没有删除,并且都被收录了,网站就会受到处罚。很多产品站、企业站,除了图片和产品的一些参数不一样之外,内页的产品页内容基本上是重复的,对这些重复内容,百度会给予很大的处罚,这种情况就是相似度过高,如果很多页面一模一样,就会被处罚,这个时候如果不是必须,我们不要删除这些重复页面,因为大量的删除会造成死链,加大了404的负担,可以把重复的页面直接robots屏蔽掉或是用Canonical标签规范主页面。还有经常性的转载或采集低质量内容是百度现在打击的,如果质量低导致降权就要从内容着手,更新高质量内容。

网站若充斥着大量雷同的标题或发布大量内容相似的文章而未予以删除,均被搜索引擎收录,将面临惩罚。众多产品站点、企业站点,除图片及产品参数略有差异外,内页产品页面内容大多雷同,此类重复内容,百度将给予严厉处罚,即相似度过高,若众多页面完全相同,将受到惩罚。此时,除非必要,否则不应删除这些重复页面,因为大量删除可能导致死链,增加404错误的负担,可直接通过robots文件屏蔽重复页面或使用Canonical标签规范主页面。此外,百度目前严厉打击频繁转载或采集低质量内容的行为,若内容质量低导致权重下降,需从内容入手,更新高质量内容。

9、遗留死链接导致降权:提交死链,进行重定向

部分网站在改版过程中会调整URL链接,甚至删除不再使用的HTML页面。此类站点,若仅少量页面修改URL,通常不会出现问题,但若涉及页面众多,网站必受降权!修改URL后,新地址将与旧页面产生内容重复。删除页面后,将出现大量404错误页,其负面影响短期内难以解决!此时,我们需要提交网站死链,并将其逐一重定向至对应网址。

网站降权原因众多,找到原因是关键。若快照问题,需检查外链和内容质量、数量;若收录量问题,需检查内容质量、数量、内链;若网站无法打开,需检查服务器。然后逐一排查问题,对症下药。

难以找到降权原因

找到降权原因固然好,但很多时候降权原因难以寻觅。在找到降权原因之前,我们应如何应对?

1、对网站进行全面检查

对网站进行全面检查,分析不利于排名或严重失误的地方,制定整改策略。在降权期间,不要一次性全部整改,要平稳执行,并结合后续操作实施。

2、有规律地更新高质量内容

有规律地更新高质量内容,更新量可适当减少,但需满足用户和搜索引擎的需求。切勿大量采集内容,更新内容需与网站相关,保持主题相关性。可挖掘组合高质量长尾关键词制作标题,然后根据长尾关键词进行原创写作。内容不宜添加锚链接,因为我们不确定降权原因是否与锚链接有关。页面不宜过度使用优化技术,追求自然最好。

3、优化网站源代码

大多数网站是自己设置的,同时人们也追求美观。在实现华丽页面的同时,后台也需要编写大量代码。编写代码时,要注意检查网站是否过度使用H标签,若过多,适当调整。检查网站是否在Alt标签中堆砌关键词,若有,建议合理布置。网站正常时,也不要随意更改源代码,保证网站稳定性。

4、停止友情链接交换

全面检查现有友情链接,并停止新交换友情链接。若现有友情链接收录明显减少、外链减少、site排名不是第一、友情链接类型不相关、降权前期刚交换的友情链接,都应去掉。强调友情链接要注意“友情”二字,在去掉链接时,要通知对方,说明原因。当对方权重恢复后,可再次合作。因此,要尊重他人,才能获得他人尊重。若确定降权原因不是友情链接,可适当交换友链,增加外部推荐,缩短降权恢复时间。

5、有规律地建设高质量外链

网站降权后,外链建设要格外小心,外链建设要有规律,避免大起大落。关键时刻,经不起大风大浪。做外链时,要注意相关性,关注外链质量和广泛度。当然,外链越广越好,外链要自然,避免首页外链过多,内页链接不足,做到首页和内页外链平衡。建议,网站降权后,适当减少每天外链数量,重点关注外链质量。

6、其他注意事项

网站降权后,尽量不要改变关键词密度、位置、网站结构,尽量不要更改正常代码,降低波动。此阶段,服务器也要稳定,讨好搜索引擎。最后,若以上问题都注意了,百度仍未收录,最后一招就是修改首页TITLE。若几个月后仍未有效,建议改版换站。

百度现在注重平稳性、自然度、用户体验度。恢复过程就是讨好搜索引擎的过程,因此网站降权后,最好不要过度使用优化技术。朴实无华,追求自然,满足客户需求的高质量原创文章和高质量外链是最好的恢复手段。网站结构问题、源代码问题、友情链接若没问题或一直未更改,就无需更改。降权时,尽量减少网站波动。例如,网站检查出有iframe框架、大量使用H标签、Alt标签中堆砌关键词等问题,若早已存在,无需在此阶段更改,因为这些可能不是降权原因。但若降权期间,搜索引擎正在排查这些问题,则必须更改。另外,若长时间无法恢复,则需全部更改诊断出的问题和不利优化及用户体验的地方,给搜索引擎一个新面貌,重新开始。

百度目前强调的是稳定性、流畅度、用户满意度。修复过程实际上是在取悦搜索引擎的过程,因此网站遭受降权后,不宜过度依赖优化手段。简洁而不失雅致,追求自然,满足用户需求的高品质原创内容和高质量外链是最佳的修复策略。网站架构问题、源代码问题、友情链接若无问题或一直未变更,则无需进行修改,在降权期间应尽量降低网站的波动。例如,若网站检查发现存在iframe框架,过度使用H标签,alt标签中堆砌关键词等问题,若这些问题早已存在,此时无需更改,因为这些通常不是此次降权的原因。但如果在网站降权期间,搜索引擎正在排查这些问题,那么毫无疑问,你必须进行修改。另外,如果长时间无法恢复,那么这些诊断出的问题以及不利于优化和用户体验的方面都需要进行整改,为搜索引擎呈现一个全新的面貌,重新开始。

百度网站管理员“抓取分析”失败,寻求解决网站访问正常的方法

抓取失败频繁,将影响网站的收录

首先点击抓取失败,查看具体原因,然后进行改进

一般抓取失败的原因:

1.301或302重定向设置错误

301重定向是指当百度蜘蛛访问链接时发生跳转,若跳转后的链接过长或连续跳转次数超过5次,将导致重定向错误,进而引发抓取失败。

2.网站访问速度

本地测试正常,但抓取分析一直显示抓取中,无任何反馈,这可能是由于服务器线路不同,百度蜘蛛抓取速度可能存在延迟,导致看似正常访问却出现抓取失败的情况。一般遇到这种情况需要定期检测服务器各地访问速度,优化网站的打开访问速度。

3.robots.txt禁止

在抓取分析工具中,若返回抓取失败,请确认你是否对网站设置了robots.txt禁止,阻止百度蜘蛛抓取网站的部分内容。若未使用robots.txt文件屏蔽百度,请点击旁边的报错链接,百度会立即更新你网站的robots信息;若误操作导致robots.txt禁止,请及时修改robots文件,避免影响网站在百度收录量。

4.DNS错误问题

DNS错误是指由于服务器停止运行或DNS至网域的路由存在问题,导致百度蜘蛛无法与DNS服务器通信。这需要联系DNS供应商处理。

5.404错误

一般情况下,当百度蜘蛛访问到不存在的网页(因为你删除或重命名了网页且未将旧网址重定向到新网页,或链接中存在拼写错误)时,就会出现“未找到”状态错误(通常是404 HTTP状态代码),404错误也会导致抓取失败。

以上所转载内容均来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2020@163.com,本人将予以删除。夫唯域名网 » 实现网页内容自动采集?遭遇百度抓取异常后应如何应对?

分享到: 生成海报