[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] 批处理BAT如何在一堆URL中提取其每行的一级域名?

回复 18# 封印
如此:
  1. @echo off&setlocal enabledelayedexpansion
  2. (for /f "tokens=1* delims=:" %%a in (a.txt) do (
  3.     set "str=%%b"
  4.     set "str=!str::= !"
  5.     for %%i in (!str!) do (
  6.         for /f "delims=/" %%a in ("%%i") do (
  7.             set "str=%%a"
  8.             set "str=!str:.= !"
  9.             set m=0
  10.             set "tmp="
  11.             for %%a in (!str!) do (
  12.                 set/a m+=1
  13.                 set ".=!tmp!"
  14.                 set "#!m!=%%a."
  15.                 set "tmp=%%a"               
  16.             )
  17.             if "!.:~2!"=="" (set/a n=m-2) else set/a n=m-1
  18.             set "e="
  19.             for /l %%a in (!n!,1,!m!) do set "e=!e!!#%%a!"
  20.             echo,!e:~,-1!
  21.         )               
  22.     )
  23. ))>b.txt
复制代码
初学BAT,非专业。代码不适当之处还望前辈们多多指点。在此表示感谢!

TOP

回复 19# 封印
将第二行至第十七行括起来 然后重定向到B.TXT
  1. (这里是第二行至第十七行代码)>b.txt
复制代码

TOP

回复 20# DAIC


    嗯,加好了,效果更完美了。
只是这代码FOR这么多层,对我来说好难理清啊。要是能注释一下,就更好了
向你学习

TOP

回复 19# 封印


    你自己加个重定向就行了啊

TOP

回复 16# terse


    运行完后,没有生成整理后的文本啊。

TOP

回复 14# xxpinqz


    朋友,还能再改一下吗?
后面两字符的,取三组的话。那像ABC.DEF.CN这类型取出来就是二级域名了。
分两种情况,比如一种是ABC.DEF.GH.IJ这类型,后缀是GH.IJ
一种是ABC.DEF.IJ这类型后缀是IJ
按照特征来看的话,后缀圆点左右各两字符的取三组。后缀圆点右边两字符的,取两组就可以了。
看看怎么样?

TOP

回复 15# 封印


    你把没有成功提取的贴出来,也许可以变成绝对完美。

TOP

判断结尾后六个字符的长度
  1. @echo off
  2. for /f "delims=" %%i in (a.txt) do (
  3.     set "str=%%i"
  4.     setlocal enabledelayedexpansion
  5.     set str=!str:http://= !
  6.     for %%a in (!str!) do (
  7.         for /f "delims=/" %%b in ("%%a") do set str=%%b
  8.         for /f %%b in ("!str!") do (
  9.             for /f %%c in ("!str:.=\!\..") do set s=%%~nc%%~xb&set "str=%%~nb"
  10.             if "!s:~6!" == "" for /f %%d in ("!str:.=\!\..") do (
  11.                if "%%~nd" neq "" set s=%%~nd.!s!
  12.             )
  13.             echo !s!
  14.         )
  15.     )
  16.     endlocal
  17. )
  18. pause
复制代码

TOP

回复 14# xxpinqz


    嗯,这段已经,已经很牛B了。。虽然还有少部分URL没截取成功。但已经无限接近完美了。值得学习。

TOP

自己都没理顺思路,叫人如何写。这样试试,后面是两字符的取3组,余者取两
  1. @echo off&setlocal enabledelayedexpansion
  2. (for /f "tokens=1* delims=:" %%a in (a.txt) do (
  3.     set "str=%%b"
  4.     set "str=!str::= !"
  5.     for %%i in (!str!) do (
  6.         for /f "delims=/" %%a in ("%%i") do (
  7.             set "str=%%a"
  8.             set "str=!str:.= !"
  9.             set m=0
  10.             for %%a in (!str!) do (
  11.                 set/a m+=1
  12.                 set "#!m!=%%a."
  13.                 set "tmp=%%a"               
  14.             )
  15.             if "!tmp:~2!"=="" (set/a n=m-2) else set/a n=m-1
  16.             set "e="
  17.             for /l %%a in (!n!,1,!m!) do set "e=!e!!#%%a!"
  18.             echo,!e:~,-1!
  19.         )               
  20.     )
  21. ))>b.txt
复制代码
初学BAT,非专业。代码不适当之处还望前辈们多多指点。在此表示感谢!

TOP

回复 10# DAIC


   好吧,从后往前,开始,可以按结尾的字符个数判断。结尾后六个字符(包含“.”),如co.jp,.com,com.cn。者截取,前一个点为止。
比如。ABC.DEF.CO.JP。截取到DEF.CO.JP。
ABC.DEF.COM.CN,则截取到DEF.COM.CN
也可以把所有域名后缀列个表。然后包含域名中的后缀则截取域名后缀之前的字符串,直到遇到有"."为止。
比如ABC.DEF.COM
后缀列表中有com就可以取DEF.COM
当然,也可以有更好的方法。

TOP

回复 11# apang


    这个VBS没有运行起来。运行完之后是这样子:

TOP

  1. Set fso = CreateObject("Scripting.FileSystemObject")
  2. txt = fso.OpenTextFile("a.txt",1).ReadAll
  3. Set re = New RegExp
  4. pattern = "com|net|org|gov|edu|mil|biz|name|info|mobi|pro|"
  5. pattern = pattern & "travel|museum|int|aero|post|rec|asia"
  6. re.Pattern = "[\w\-]+\.([a-z]{2}|" & pattern & ")(\.[a-z]{2})?(?:\b|/)"
  7. re.IgnoreCase = True
  8. re.Global = True
  9. For Each a in re.Execute(txt)
  10.     str = str & a & vbCrLf
  11. Next
  12. WScript.Echo str
复制代码

TOP

回复 9# 封印


你需要说清楚如何做人工判断
有规律、有方法,最后转换成代码就行了。

TOP

返回列表