匹配一行中两个单词之间的内容(后续)

之前我写我一篇日志叫“匹配一行中两个单词之间的内容”,这个可以算是那个的后续吧!因为我要从https://blog.361way.com/sitemap.xml 这个地图链接里找出我的所有url地址。于是又用到了sed的正则。

首先通过,curl -G https://blog.361way.com/sitemap.xml” 得出的结果是和https://blog.361way.com/sitemap_baidu.xml 这个链接得的内容一样的。如下格式:

 1<url>
 2        <loc>https://blog.361way.com/wordpress-zaiyao/74.html</loc>
 3        <lastmod>2011-08-16T07:57:45+00:00</lastmod>
 4        <changefreq>monthly</changefreq>
 5        <priority>0.2</priority>
 6</url>
 7<url>
 8        <loc>https://blog.361way.com/wordpress-link/98.html</loc>
 9        <lastmod>2011-08-16T07:55:27+00:00</lastmod>
10        <changefreq>monthly</changefreq>
11        <priority>0.2</priority>
12</url>

而我要取得的值便是之间的内容。于是我先执行curl “https://blog.361way.com/sitemap.xml”|grep ““先把所有的行过滤出来,然后再通过sed把前面的过滤掉。首先可以sed -e进行多语句过滤:

1curl "https://blog.361way.com/sitemap.xml"|grep "<loc>"|sed -e 's/<loc>//g' -e 's/</loc>//g'

但这样感觉太累人。和后面加两个sed 过滤首 |sed 过滤尾 没什么分别。后来又偿试把两个条件通过[,]这样加入,发现把所有的/也给过滤了,接着试(),(),又试着加双引号指定……总之,N种尝试都未得到要得到的结果。才发现把正则忘的差不多了,这么简单的问题竞搞的这么难搞等。索性静下心来再把原来的文档翻过来看下。呵呵,发现了一个很有用的符号“|”(逻辑或)。

于是curl "https://blog.361way.com/sitemap.xml"|grep "<loc>"|sed 's/<loc>|</loc>//g'搞定。当然,如果想把http://www. 也过滤掉就再改下curl “https://blog.361way.com/sitemap.xml”|grep ““|sed ‘s/http://www.|//g’ 。

逻辑与 (and) (顺便再补一点逻辑与的东西吧)

查找文档b中同时包含one和three的行

1b.txt的内容
2one two three
3four five six
4one two
5one seven three
6gawk "/one/&&/three/" b.txt
7sed -ne '/one/{/three/p}' b.txt

正则表达式在具体到某个工具的时候,又会有细微的差别,如在sed中&保存搜索字符用来替换其他字符,如s/love/**&**/,love这成love

写在最后:看来学好正则表达式的基础很重要。因为awk 、sed、grep ,perl甚至连vi都是使用的相同正则标准。因此,想学好这几个工具的使用。正则的基础一定是要打好。

其实本文也只是一个衔接的文章,因为我之前写过一个用vbs刷网站流量的日志。(不过好像那个文章加密了。)因为要再写一个linux下通过curl刷网站流量的文章,便用到了先用curl、sed获取站点所有地址。