老铁们,上周帮顾客处理网站日志时,发现他们技巧小哥写了半天的过滤规则,还不如我用正则表达式三行代码搞得清新。这事儿让我想起三年前刚入行时,盯着那些火星文似的符号发懵的日子。今儿咱们就唠唠,这些看着吓人的正则表达式,在SEO里到底能玩出什么花活?
一、正则表达式在SEO里是啥脚色?
问:这玩意儿不就是程序员用的吗?跟SEO有毛关系?
客岁帮某电商站做优化时,发现他们商品页URL长得像老妇人的裹脚布:
/product/123456from=weixin&uid=789&source=ad
用正则表达式改造后变成:
/product/123456
就这么个小改动,收录几率从58%飙到92%。故此,正则表达式就是SEOer的瑞士军刀,重要干三件事:
-
批量处理文本
比如说把1000条meta description里的"优质"全调换成"高端"
(用优质直接调换就行) -
精准匹配内容
找出全体包括电话但没加nofollow的链接:
href="tel:\d{11}"(![^>]*nofollow) -
自动化数据荡涤
从混乱日志中提取百度蜘蛛访问记载:
66.249.\d{1,3}.\d{1,3}.*(Googlebot)
二、SEO常采用正则场景对比表
上周我整理了下这些年用过的正则案例,挑几个接地气的说说:
| 采用途景 | 不用正则的耗时 | 用正则的耗时 | 效果增强率 |
|---|---|---|---|
| 筛选带参数的URL | 2小时/千条 | 5分钟/千条 | 2400% |
| 提取特定格式电话 | 手动核查 | 秒级实现 | ∞ |
| 算帐重复title | 半天起 | 3分钟搞定 | 1600% |
| 识别垃圾外链 | 容易漏查 | 精准拦阻 | 92% |
举一个栗子,客岁帮培育机构处理外链,用.*(棋牌|博彩|代孕).*这一个表达式,一天筛出800多条违规链接,要手动查最少得三天。
三、刑孤守学的三个万能公式
别被那些\d、\w吓到,记着这三板斧就能化解80%的症结:
-
找数字
\d+匹配任意数字,比如说找价钱区间:
\d{3,5}元能抓出"398元"、"5880元" -
查日期
202[3-9]-\d{2}-\d{2}匹配2023年后的日期
(用来筛过时内容贼好用) -
逮链接
href="(http.*)"抓取全体外链
加个nofollow判断更香:
href="(http.*)"(![^>]*nofollow)
四、这些坑我替你踩过了
客岁有个血的教训:顾客网站突然流量暴跌,查了半天发现是养成工写的正则.*\.jpg把xxx.jsp页面也删了。以是新手牢记:
-
别采用贪心匹配
把.*换成.*更稳当
(前者像饿鬼见啥吞啥,后者像淑女细嚼慢咽) -
做好白名单
删东西前先用|保留需要的部分
比如说(!(备案号|业务执照)) -
测试!测试!测试!
在https://regex101.com/上试好了再上线
本人观点:正则表达式正在进化
近来发现百度资源平台都内置正则筛选功能了,说明这玩意儿越来越重要。上个月帮顾客做移动适配,用^(.*)/m/(.*)$共同301重定向,UV直接涨了37%。以是啊,别再把正则当程序员的玩具,它但是SEOer的核武器!就像老话说的,会采用正则的优化师,一个月能省出七天假期,这七天干啥不好?您说是不是这一个理儿?

夫唯域名网



