python中使用urllib2伪造HTTP报头的2个方法 2014-08-14 | perl/php/python/gawk/sed 很多网站反感爬虫的到访,于是对爬虫一律拒绝。在采集网页信息的时候,经常需要伪造报头来实现采集脚本的有效执行,这需修改http包中的header、User-Agent、Accept、Connection、Referer(对付反盗链必备)等伪造更多信息。例如使用nginx,经常会通过…… Continue reading
python解析json 2014-08-13 | perl/php/python/gawk/sed 一、JSON概述 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScript Programming Language, Standard ECMA-262 3rd Edition – December 1999的一个子集。JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C, C++, C#, Java, JavaScript, Perl, Python等)。这些特性使JS…… Continue reading