Board logo

标题: [文本处理] [已解决]批处理如何提取文本中列出的多个网址中的顶级域名和二级域名 [打印本页]

作者: yiduancang    时间: 2013-5-7 10:41     标题: [已解决]批处理如何提取文本中列出的多个网址中的顶级域名和二级域名

小弟弄了个批处理是提取顶级域名和二级域名的数据   现在想加个过滤机制  /域名级数多余3级的去掉      域名中有?号动态网址的去掉   剩余的数据 二级域名 顶级域名  和一些内页提取出来  注意这个批处理要把WWW.去掉才能提取的准确  我一般是手动替换  但是数据大也是麻烦 如果可以 麻烦修改的大大 顺便把在提取数据前  自动替换掉WWW.的功能加进去 感激不尽
作者: BAT-VBS    时间: 2013-5-12 20:13

先帮你删除www.
  1. sed "s/www\.//" "louboutin pumps.txt" > "louboutin pumps_new.txt"
复制代码

作者: yiduancang    时间: 2013-5-13 19:36

回复 2# BAT-VBS


    先谢过大侠。。
作者: sinsky    时间: 2015-5-1 00:35

我用来去www的 你看下
  1. @set topdomain=%u:www.=%
复制代码
这个是我用来去读文件行,然后生成的不同后缀的,可以借鉴使用
  1. for /f "delims=" %%i in (mb.txt) do (if not defined %%i set %%i=A & echo %%i>>tmp.tmp)
  2. for /f %%i in ('type tmp.tmp') do (@echo ^/^%%i%%t>>cgi.list)
复制代码





欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2