[文本处理] 在文本中取每行间部分字符并保存到新文件的批处理

zljzsmzzx

Rank: 5 Rank: 5

帖子: 101
积分: 795
技术: 0
捐助: 0
注册时间: 2009-6-10

27楼

发表于 2009-6-11 23:54 | 只看该作者

非常同意22楼“随风”版主。楼主要处理的域名太没有规律了，很难做到完美提取。26楼的代码我是看不懂，只是测试了一下，大部分没问题。但如果哪个心血来潮把域名搞成类似“a.com.abc.com”的形式同样提取不到位。

zqz0012005

荣誉版主

Rank: 8 Rank: 8

帖子: 1069
积分: 12123
技术: 38
捐助: 0
注册时间: 2008-5-10

26楼

发表于 2009-6-10 03:30 | 只看该作者

033) lts88.com 新网站
034) www.coffice.com
www.cawa.org.cn
www.99sj.cn.cn
www.abc.com.cn
aa.bb.cc.dd.abc.cn.cn
1234556.abc.com
bbs.abc.org.cn
*.1223.abc.com.cn
abc.cn

@echo off
set "domain=cn|com|org|net|edu|tw|us" 还有其他域名按此格式添加
mshta "javascript:fso=new ActiveXObject('Scripting.FileSystemObject'); s=fso.OpenTextFile('a.txt').ReadAll(); fso.OpenTextFile('b.txt',2,true).Write ( s.replace(/(\w+)(?:\.(?:%domain%))+.*/g,'$1').replace(/.*[. ]/g,'') ); close();"
复制代码

命令行参考：hh.exe ntcmds.chm::/ntcmds.htm
求助者请拿出诚心，别人才愿意奉献热心！
把查看手册形成条件反射！

wangshuping42

四级士官

Rank: 3 Rank: 3

帖子: 32
积分: 263
技术: 0
捐助: 0
注册时间: 2008-8-20

25楼

发表于 2009-6-10 01:05 | 只看该作者

试试这个，手机发帖，没测试

把文本保存成test.txt，运行代码后，生成的list.txt就是你想要的。

@echo off
for /f "delims=. tokens=2" %%i  in (test.txt) do (
echo %%i>>list.txt
   )

pause>nul
复制代码

Rank: 5 Rank: 5

帖子: 157
积分: 832
技术: 2
捐助: 0
注册时间: 2009-2-21

24楼

发表于 2009-6-9 19:27 | 只看该作者

我理解是楼主想提取域名中的主机名。如
www.abc.com.cn
aa.bb.cc.dd.abc.cn.cn
1234556.abc.com
bbs.abc.org.cn
*.1223.abc.com.cn
abc.cn

提取都是abc.

tab

少将

Rank: 8 Rank: 8

帖子: 31
积分: 5460
技术: 0
捐助: 0
注册时间: 2009-5-6

23楼

发表于 2009-6-9 15:36 | 只看该作者

方便的话，楼主还是把文件内容贴全了吧。想见识一下都有什么样的域名。

随风

荣誉版主

Rank: 8 Rank: 8

帖子: 1759
积分: 5387
技术: 51
捐助: 210
注册时间: 2007-10-26

22楼

发表于 2009-6-9 13:27 | 只看该作者

说句实话，我到现在仍不知道楼主是要按什么规律提取文本内容，各位是依据什么写的代码，能给点提示吗？楼主10楼的例子更是让人摸不着头脑。
比如：023) 0n.com.cn 新网站要求得到的结果是：0nime
到底哪些部分是应该要抛弃的？
如果只是要抛弃最后的.com 等后缀名很好办，主要是如何抛弃前面的内容不知道规律。

[ 本帖最后由随风于 2009-6-9 13:33 编辑 ]

技术问题请到论坛发帖求助！

Rank: 5 Rank: 5

帖子: 157
积分: 832
技术: 2
捐助: 0
注册时间: 2009-2-21

21楼

发表于 2009-6-9 12:37 | 只看该作者

呵，还有这么怪的域名后缀么。试试下边这个，国内域名后缀应该不会超过这个范围吧？,不够可以再加，会影响点效率.

@echo off&setlocal enabledelayedexpansion
cd.>url_tmp.txt
for /f "tokens=2 delims=) " %%a in (1.txt) do (
set url=%%~na
for %%i in (.com .net .cn .org .cc .hk .tw .asia .me .tel .me .biz .tv .mobi) do set url=!url:%%i=!
for /f "tokens=* delims=*" %%b in (".!url!") do set str=%%~xb&echo !str:.=!>>url_tmp.txt
)
start url_tmp.txt
复制代码

[ 本帖最后由 inittab 于 2009-6-9 12:40 编辑 ]

3887676

二级士官

Rank: 2

帖子: 22
积分: 160
技术: 0
捐助: 0
注册时间: 2009-6-6

20楼

发表于 2009-6-9 10:20 | 只看该作者

十六楼的遇到www.cawa.org.cn，www.99sj.cn.cn就不能正常获取麻烦再帮忙测测

3887676

二级士官

Rank: 2

帖子: 22
积分: 160
技术: 0
捐助: 0
注册时间: 2009-6-6

19楼

发表于 2009-6-8 23:20 | 只看该作者

哈哈，大家真热情，我明天再认真检查一下，再次谢谢了

Rank: 5 Rank: 5

帖子: 157
积分: 832
技术: 2
捐助: 0
注册时间: 2009-2-21

18楼

发表于 2009-6-7 19:12 | 只看该作者

呵，我真是马虎。没测试就放上来了。丢失的是两行带*号，已修正。

tab

少将

Rank: 8 Rank: 8

帖子: 31
积分: 5460
技术: 0
捐助: 0
注册时间: 2009-5-6

17楼

发表于 2009-6-7 17:41 | 只看该作者

提示：16楼的代码丢失了两行。

Rank: 5 Rank: 5

帖子: 157
积分: 832
技术: 2
捐助: 0
注册时间: 2009-2-21

16楼

发表于 2009-6-7 17:34 | 只看该作者

对13楼朋友提到的问题改进,加强通用性

@echo off&setlocal enabledelayedexpansion
cd.>url_tmp.txt
for /f "tokens=2 delims=) " %%a in (1.txt) do (
set url=%%~na&set url=!url:.com=!&set url=!url:.net=!
for /f "tokens=* delims=*" %%b in (".!url!") do set str=%%~xb&echo !str:.=!>>url_tmp.txt
)
start url_tmp.txt
复制代码

呵，楼下的问题已改正。不知还有没有没考虑到的情况

[ 本帖最后由 inittab 于 2009-6-7 19:09 编辑 ]

Rank: 5 Rank: 5

帖子: 157
积分: 832
技术: 2
捐助: 0
注册时间: 2009-2-21

15楼

发表于 2009-6-7 16:35 | 只看该作者

回复 14楼的帖子

等等，没有考虑全
如果是 bbb.aaa.com.cn, bbb.ccc.net.cn
楼主是取 aaa ccc 吗？

如是，12楼的正则是正确的。