域名"注册+交易+金融+行情+交流"
域名相关服务一应俱全,旨为您所想。

SEO正则表达式能干啥?新手也能看懂的妙用指南

老铁们,上周帮顾客处理网站日志时,发现他们技巧小哥写了半天的过滤规则,还不如我用正则表达式三行代码搞得清新。这事儿让我想起三年前刚入行时,盯着那些火星文似的符号发懵的日子。今儿咱们就唠唠,这些看着吓人的正则表达式,在SEO里到底能玩出什么花活


一、正则表达式在SEO里是啥脚色?

问:这玩意儿不就是程序员用的吗?跟SEO有毛关系?
客岁帮某电商站做优化时,发现他们商品页URL长得像老妇人的裹脚布:
/product/123456from=weixin&uid=789&source=ad
用正则表达式改造后变成:
/product/123456
就这么个小改动,收录几率从58%飙到92%。故此,正则表达式就是SEOer的瑞士军刀,重要干三件事:

  1. 批量处理文本
    比如说把1000条meta description里的"优质"全调换成"高端"
    (用 优质 直接调换就行)

  2. 精准匹配内容
    找出全体包括电话但没加nofollow的链接:
    href="tel:\d{11}"(![^>]*nofollow)

  3. 自动化数据荡涤
    从混乱日志中提取百度蜘蛛访问记载:
    66.249.\d{1,3}.\d{1,3}.*(Googlebot)


二、SEO常采用正则场景对比表

上周我整理了下这些年用过的正则案例,挑几个接地气的说说:

采用途景 不用正则的耗时 用正则的耗时 效果增强率
筛选带参数的URL 2小时/千条 5分钟/千条 2400%
提取特定格式电话 手动核查 秒级实现
算帐重复title 半天起 3分钟搞定 1600%
识别垃圾外链 容易漏查 精准拦阻 92%

举一个栗子,客岁帮培育机构处理外链,用.*(棋牌|博彩|代孕).*这一个表达式,一天筛出800多条违规链接,要手动查最少得三天。


三、刑孤守学的三个万能公式

别被那些\d\w吓到,记着这三板斧就能化解80%的症结:

  1. 找数字
    \d+ 匹配任意数字,比如说找价钱区间:
    \d{3,5}元 能抓出"398元"、"5880元"

  2. 查日期
    202[3-9]-\d{2}-\d{2} 匹配2023年后的日期
    (用来筛过时内容贼好用)

  3. 逮链接
    href="(http.*)" 抓取全体外链
    加个nofollow判断更香:
    href="(http.*)"(![^>]*nofollow)


四、这些坑我替你踩过了

客岁有个血的教训:顾客网站突然流量暴跌,查了半天发现是养成工写的正则.*\.jpgxxx.jsp页面也删了。以是新手牢记:

  1. 别采用贪心匹配
    .*换成.*更稳当
    (前者像饿鬼见啥吞啥,后者像淑女细嚼慢咽)

  2. 做好白名单
    删东西前先用|保留需要的部分
    比如说(!(备案号|业务执照))

  3. 测试!测试!测试!
    在https://regex101.com/上试好了再上线


本人观点:正则表达式正在进化

近来发现百度资源平台都内置正则筛选功能了,说明这玩意儿越来越重要。上个月帮顾客做移动适配,用^(.*)/m/(.*)$共同301重定向,UV直接涨了37%。以是啊,别再把正则当程序员的玩具,它但是SEOer的核武器!就像老话说的,会采用正则的优化师,一个月能省出七天假期,这七天干啥不好?您说是不是这一个理儿?

以上所转载内容均来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2020@163.com,本人将予以删除。夫唯域名网 » SEO正则表达式能干啥?新手也能看懂的妙用指南

分享到: 生成海报