Board logo

标题: [文件操作] 批处理能否截取网页源码中的指定内容? [打印本页]

作者: wangxiulin    时间: 2011-7-30 15:07     标题: 批处理能否截取网页源码中的指定内容?

本帖最后由 pcl_test 于 2017-2-27 13:39 编辑

比如 这个网站 http://www.baidu.com/s?tn=jilin5 ... thome&tn_flag=1

源码中有这句话<div id="foot">&copy;2011 Baidu <span>此内容系百度根据您的指令自动搜索的结果,不代表百度赞成被搜索网站的内容或立场</span></div>

取中文汉字..

能不能....
作者: wangxiulin    时间: 2011-7-30 18:25

回复 2# else     谢谢了
作者: CUer    时间: 2011-7-30 23:02

  1. sed -r "/Baidu <span>/!d; s/.*<span>(.*)<\/span>.*/\1/" a.htm >a.txt
复制代码

作者: CUer    时间: 2011-7-30 23:06

  1. gawk -F "[<>]+" "/Baidu <span>/{print $5}" a.htm >a.txt
复制代码





欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2