今天在对一些静态页面做处理时,发现里面包含了很多tppabs代码。刚上查了下,该代码一般为离线浏览器(如Teleport Pro)下载时记录下来的。说白了,基本上是无用的代码。我看了下代码里包含该内容的一般有如下两种:

1<a href="index.htm" tppabs="index.htm">快乐强盗</a>
23<a href="index.htm" tppabs="http://xxx.com/xxxx/xxx/index.htm">快乐强盗</a>

既然找能到规律,处理起来就简单 。直接通过正则利用sed处理掉就行了。

上面一种的直接:

1sed -i 's/btppabs="[^"]*"//g'  xxx.html

第二种的为:

1sed -i 's/btppabs="h[^"]*"//g'   xxx.html

注:如果没确定把握的最先不用-i参数,因为该参数直接就在原文件里修改掉了

要查找所有的html文件并直接替换所有,也很简单,配合一个for循环就可以搞定:

1#!/bin/bash
2for i in `grep -r 'tppabs' *|awk -F: '{print $1}'|sort |uniq`
3do
4sed -i 's/btppabs="h[^"]*"//g' $i
5done