希望支持 前后引用
譬如抓取网页 <X>我要的内容</X> html标签
我编了个正则歌诀:
网页抽取也简单,标上颜色改括号。
正则表达式:
(?<=(html" target="_blank" style="max-width:150px;overflow:hidden;white-space:nowrap;text-overflow:ellipsis;")>).*(?=</[a]>)
测试代码:
- <a href="http://search.onlinedown.net/search_list.php?searchsid=1&searchname=金山清理专家" target="_blank" style="max-width:150px;overflow:hidden;white-space:nowrap;text-overflow:ellipsis;">金山清理专家</a><a href="/special_583724.html" target="_blank" style="max-width:150px;overflow:hidden;white-space:nowrap;text-overflow:ellipsis;">金山清理专家 3.4.2官方</a>
- <a href="http://search.onlinedown.net/search_list.php?searchsid=1&searchname=搜狗软件助手" target="_blank" style="max-width:150px;overflow:hidden;white-space:nowrap;text-overflow:ellipsis;">搜狗软件助手</a><a href="/special_582862.html" target="_blank" style="max-width:150px;overflow:hidden;white-space:nowrap;text-overflow:ellipsis;">搜狗软件助手 3.1.15.47官方版</a>
- <a href="http://search.onlinedown.net/search_list.php?searchsid=1&searchname=数学系工会工作计划" target="_blank" style="max-width:150px;overflow:hidden;white-space:nowrap;text-overflow:ellipsis;">数学系工会工作计划</a><a href="/special_51026.html" target="_blank" style="max-width:150px;overflow:hidden;white-space:nowrap;text-overflow:ellipsis;">数学系工会工作计划 </a>
复制代码
|