分类 perl/php/python/gawk/sed articles

php采集类snoopy

Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单。下载地址:http://sourceforge.net/projects/snoopy/files/ 。snoopy具有的特点如下: 抓取网页的内容 fetch 抓取网页的文本内容 (去除HTML标签) fetchtext 抓取网页的链接,……

Continue reading

linux下在某行的前一行或后一行添加内容

linux的sed工具是十分强大的,能很容易的实现在某关键词的前一行或后一行增加内容。今天在批量修改tomcat的日志时就用到了该功能。 一、在某行的前一行或后一行添加内容 具休操作如下: 1#匹配行前加 2sed -i '/allow 361way.com/iallow www.361way.com' the.conf.file 3#匹配行前后 4sed -i '/allow 361way.com/aallow www.361way.com' the.conf.file 而在书写的时候为便与区分,往往会在i和a前面……

Continue reading

linux下去掉tppabs冗余代码

今天在对一些静态页面做处理时,发现里面包含了很多tppabs代码。刚上查了下,该代码一般为离线浏览器(如Teleport Pro)下载时记录下来的。说白了,基本上是无用的代码。我看了下代码里包含该内容的一般有如下两种: 1<a href="index.htm" tppabs="index.htm">……

Continue reading

php正则过滤html标签、空格、换行符

1$str=preg_replace("/s+/", " ", $str); //过滤多余回车 2$str=preg_replace("/<[ ]+/si","<",$str); //过滤<__("<"号后面带空格) 3$str=preg_replace("/<!--.*?-->/si","",$str); //注释 4$str=preg_replace("/<(!.*?)>/si","",$str); //过滤DOCTYPE 5$str=preg_replace("/<(/?html.*?)>/si","",$str); //过滤html标签 6$str=preg_replace("/<(/?head.*?)>/si","",$str); //过滤head标签 7$str=preg_replace("/<(/?meta.*?)>/si","",$str); //过滤meta标签 8$str=preg_replace("/<(/?body.*?)>/si","",$str); //过滤body标签 9$str=preg_replace("/<(/?link.*?)>/si","",$str); //过滤link标签 10$str=preg_replace("/<(/?form.*?)>/si","",$str); //过滤form标签 11$str=preg_replace("/cookie/si","COOKIE",$str); //过滤COOKIE……

Continue reading

php采集与js和css

php采集过程中,对页面的某些无用信息或有用信息需要进行过滤。这里以js和css为例。如一些站点的js文件可能不是我们想要的,而别人的css样式可能又是你所机要的。现以两者为例说下php下的实现。 1、删除HTML中的JS部分 js在html的标记为…… ,根据该规则,可以通过下面的代……

Continue reading

php curl获取页面所有的链接

本文承接上面两篇,本篇中的示例要调用到前两篇中的函数,做一个简单的URL采集。一般php采集网络数据会用file_get_contents、file和cURL。不过据说cURL会比file_get_contents、file更快更专业,更适合采集。今天就试试用cURL来获取网页上……

Continue reading

从Snoopy类中提取函数:获取链接标签

通分析过了Snoopy类,它里面有比较完善的匹配源码,可以看到有function fetchlinks($URI)。也就是获取”< a >”中链接的函数,可以很简单的提取出来,此外还发现,它的正则还支持高级语言中的三目运算,函数及示例如下: 1<?php 2function _striplinks($document) { 3 preg_match_all("'<s*as.*?hrefs*=s*(["'])?(?(1) (.*?)\1 | ([^s>]+))'isx", $document, $links); 4 // catenate the non-empty matches……

Continue reading

PHP采集链接:相对链接转为绝对链接

该采集链接是从Snoopy中提取出来的,也是一个很好的函数,可以根据URL是相对链接还是绝对链接采集到链接,如果是相对链接会根据相对链接和主域名,返回绝对链接,也支持不同端口。 1<?php 2/*===================================================================* 3 Function: _expandlinks 4 Purpose: expand each link into a fully qualified URL 5 Input: $links the links to qualify 6 $URI the full URI to get the base from 7 Output: $expandedLinks the expanded links 8*===================================================================*/ 9function _expandlinks($links,$URI) 10{ 11 $URI_PARTS = parse_url($URI); 12 $host = $URI_PARTS["host"]; 13 preg_match("/^[^?]+/",$URI,$match);……

Continue reading

php自动创建目录并保存文件

php保存文件,还可以根据文件路径自动连续创建目录,代码如下(注:PHP要版本5以上): 1<?php 2 /** 3 * 保存文件 4 * 5 * @param string $fileName 文件名(含相对路径) 6 * @param string $text 文件内容 7 * @return boolean 8 */ 9 function saveFile($fileName, $text) { 10 if (!$fileName || !$text) 11 return false; 12 if (makeDir(dirname($fileName))) { 13 if ($fp = fopen($fileName, "w")) { 14 if (@fwrite($fp, $text)) { 15 fclose($fp); 16 return true; 17 } else { 18 fclose($fp); 19 return false; 20 } 21 } 22 } 23 return false; 24 } 25……

Continue reading

php分页功能

1<?php 2//header("Content-Type: text/html; charset=utf-8"); 3$link=mysql_connect("localhost","root",""); 4mysql_select_db("db"); 5mysql_query("set names utf8"); 6$sql="select * from useinfo"; 7$result=mysql_query($sql); 8$num=mysql_num_rows($result); 9$page=$_GET['page'];//当前页 10if(empty($page)||$page<=0) 11 $page=1; 12$page_len=9;//显示的页数 13$page_total=ceil($num/10);//总页数 14$begin=1;//第一页 15$end=$page_total; 16if($page!=1) 17{ 18 $pagenums="$page/$page_total <a href="/" mce_href=&#……

Continue reading

Latest articles

Categories

Tags

ACL AD AES AI Alpine Android Anpic Ansible Apache Apm Apparmor Appfog Apr Apt-Get Aria2 Array Atlassian Atop Audit Awk AWS Awstats Axel Azure Backdoor Backup Bamboo Bash Bat Benchmark Bigdata Bin Bind Bitwise Blockchain BMC Book Bootstrap Brocade Bsd C1000 Cache Capistrano Catlog CDH5 Centos Centos7 Chatops Chattr Check_mk Checkinstall Cisco CL210 Clickhouse Cloud Cloud-Desktop Cmdb Cms Cobbler Collectd Comm Compress Confd Conver Corosync Cpu Crontab Crunchbang Css Curl C语言 Date DDOS Decode Dell Desktop Devops Df Dhcp Diff Diskpart DISTINCT Django DNS Docker Dos2unix Dpkg Drupal Duckdb EKS ELK Etcd Excel Fail2ban Fastcgi Fdisk Fiddler Find Firewalld Flask Flvtool Ftp Function Fuser GCP Geek Ghost Gin Git Github Gitlab Glances Glusterfs Go Godaddy Golang Google Gooupadd Grafana Graphviz Gravatra Grep Grub2 Hadoop Haproxy Hardware HBA HCIE Heartbeat Helm Hexdump Hhvm History Hotspot Html Http/Html/Web Http/Html/Web Httplogs Https HttpWatch Huawei Huaweicloud Hugo IBM Icmp Iconv Ifconfig IIS InfluxDB Ingress InnoDB Inotify Iopp IOS Ipmitool Iptables Iredmail Iscsi Isito It-News Java JavaScript Jdk Jenkins Jinja2 Jira Join Joomla K3s K8s Kdump Keepalived Kernel Kingate KVM Lamp Last Leetcode Lib Linux Linux高级篇 Ln Ls Lsi Lsof Lvm Lvs Mac Mail Man Mark Markdown Matplotlib Maven Memcached Microservice Mimikatz Mkdocs Mkpasswd Mmonit Mod_jk Mongodb Monit Monitor Mono Moodle Mosh Mount Mplayer Mpm Mrtg Mtr My.cnf Mysql Mysqlbinlog Mysqld_multi MySQLdb Mysqldump Mysqlhotcopy Nagios Nc Nethogs Netlify Nexus Nfs Nginx Nmon Nocatlog Node.js Nrpe Ntfs Ntop Ntp Obs Ocr Open-Falcon Openbox Opencv Openldap OpenResty Openssl Openstack Oracle Oswatch Paas Pacemaker Pam Pandas Parted Pcp Pcre Pdf Percona Perl Pexpect Pgrep Php Php-Fpm Ping Plsql Develope PM Postfix PostgreSQL Powershell Prettify Proc Prometheus Puppeteer Pushd Pwgen Pxe Pyecharts Python Python模块 QoS Radmin Raid Rdesktop Read Redhat Redis Redmine Regex Rh134 RH318 RH442 RHCA RHCE Rhel7 Rhel8 RHEV Rm Rman Rootkit Route Rpm Rpmforge Rrdtool RSA Rsync Rsyslog Safe Saltstack Samba Scapy Screen SecureCRT Sed Selenium Selinux Seo Seq Session Set Shc Sheepdog Shell Shopt Sitemap Skydns Smokeping Snffier Snmp Socket Soft Sort Spider Sql Sqlserver Squid SRE Ss Ssh Sshpass Statuscode Strace Strings Su SublimeText2 Sudo Suse Svn Sysbench Syslog-Ng Sysstat Systemd T Tar TC Tcpcopy Tcpdump Tech Telecom Telnet Tencentcloud Tengine Test Testlink Threads Time Tmux Tomcat Touch Tr Tsar Twisted Ubuntu Udev Ulimit Unix Unixbench User-Agent Useradd Varnish VBA Vbs Vercel Vi Vim Visudo Vmstat Vmware Vnc Voice Vpn Vscode Vsftp Vsftpd Vue Watchdog Web Webcam Webistrano Wget Wiki Windows Wol Wordpress Workshop Wsl X-Windows Xampp Xcache Xmllint Xtrabackup Yule Yum Zabbix Zeromq Zip Zonetime Zookeeper 下载工具 云主机 云原生 代理 加密 古意 吐槽 圈里圈外 娱乐 字符串函数 安全 平台架构 推理 提权 故事汇 故障案例 数据结构 每日看点 民国史 生活 科学记录 站长管理工具 算法 管理 网站架构 翻墙 股票 行业 诗韵 负载均衡 远程管理 面试题

Links

Meta