返回列表发帖

zjw767676

上校

Rank: 6 Rank: 6

帖子: 275
积分: 3596
技术: 0
捐助: 0
注册时间: 2008-12-21

1楼 跳转到 » 倒序看帖

打印

字体大小: tT

发表于 2016-2-17 22:18 | 只看该作者

[文本处理] [已解决]批处理如何提取文本内的指定内容？

本帖最后由 zjw767676 于 2016-2-18 18:18 编辑

需要提取index.txt中的“/dushi/20150506/1237296.html”之类的输入到1.txt:

 
* 其他类型</book/qita/>
  * 全本小说</change/quanben/>
  * 

加入书签 | 推荐本书 | 返回书页</book/dushi/1844/> | 我的书架 | 手机阅读<http://m.7ddw.com/chapter/dushi/1844/>

顶点小说<http://www.7ddw.com> -> 都市言情</book/dushi/> -> 重生之财色天下</book/dushi/1844/>
  

重生之财色天下 最新章节更新列表

  

重生之财色天下作者：天下第一白

  
第1章 ：梦回2000</dushi/20150506/1237296.html> 第2章 ：三大门户网站都不赚钱</dushi/20150506/1237297.html> 第3章 ：那些年，我们追过的女孩</dushi/20150506/1237298.html> 第4章 ：指点丁磊</dushi/20150506/1237299.html>
第5章 ：五张模拟试卷</dushi/20150506/1237300.html> 第6章 ：熊猫烧香</dushi/20150506/1237301.html> 第7章 ：试探张宁</dushi/20150506/1237302.html> 第8章 ：病毒发威</dushi/20150506/1237303.html>
复制代码

我的代码：

@echo off&setlocal enabledelayedexpansion
(for /f "delims=^<^> tokens=1-8" %%a in (index.txt) do (
set a=%%a
  set b=%%b
     set c=%%c
        set d=%%d
           set e=%%e
              set f=%%f
                 set g=%%g
                   set h=%%h
set /a "1/!a:~-11,-5!" 2>nul && echo,%%a
set /a "1/!b:~-11,-5!" 2>nul && echo,%%b
set /a "1/!c:~-11,-5!" 2>nul && echo,%%c
set /a "1/!d:~-11,-5!" 2>nul && echo,%%d
set /a "1/!e:~-11,-5!" 2>nul && echo,%%e
set /a "1/!f:~-11,-5!" 2>nul && echo,%%f
set /a "1/!g:~-11,-5!" 2>nul && echo,%%g
set /a "1/!h:~-11,-5!" 2>nul && echo,%%h

))1.txt
复制代码

代码不足之处：不简练，会产生空行。请指教！！！

有一种爱叫放弃

WHY

上校

Rank: 6 Rank: 6

帖子: 1442
积分: 3193
技术: 556
捐助: 0
注册时间: 2015-7-19

2楼

发表于 2016-2-17 23:08 | 只看该作者

@echo off
for /f "tokens=2,4,6,8 delims=<>" %%i in ('findstr /i "[0-9]\.html" index.txt') do (
    echo;%%i
    echo;%%j
    echo;%%k
    echo;%%l
)
pause
复制代码

1 评分人数

zjw767676: 这就是我需要的！居然不要转义！！！！ ...技术 + 1

TOP

ivor

上校

Rank: 6 Rank: 6

帖子: 979
积分: 3381
技术: 172
捐助: 40
注册时间: 2012-1-7

3楼

发表于 2016-2-17 23:34 | 只看该作者

本帖最后由 ivor 于 2016-2-18 00:16 编辑

回复 1# zjw767676

python比cmd控制台兼容性好，代码也少，越复杂会越明显。

# python 3.5.1
# coding:utf-8

import re

try:
    with open(r"d:\desk\bat\test.html", "r") as file:
        for lines in file.readlines():
            data = re.findall(r"<(.+?)>",lines)
            for i in data:
                print(i)
except:
    print("出现问题了,去www.bathome.net反馈")
    input("回车退出...")
input("回车退出...")
复制代码

1 评分人数

zjw767676: 感谢帮助！不懂python技术 + 1

#&cls&@powershell "Invoke-Expression ([Io.File]::ReadAllText('%~0',[Text.Encoding]::UTF8))" &pause&exit

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

4楼

发表于 2016-2-18 00:39 | 只看该作者

本帖最后由依山居于 2016-2-18 00:44 编辑

正则表达式

第\d+章.*?<(.*?)>
复制代码

这样可能更严谨点

第\d+章.*?<(.*?\.html)>
复制代码

2 评分人数

zjw767676: 感谢！！！！技术 + 1
ivor: 可以有技术 + 1

下载安装python3 https://www.python.org/downloads/ 代码存为xx.py 双击运行或IDLE打开F5运行

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

5楼

发表于 2016-2-18 08:53 | 只看该作者

"""
2016年2月18日 08:20:03 codegay
"""
import re
url=re.findall(r"<(/dushi/\d+/\d+.html)>",open("提取指定文本.py",encoding="utf-8").read())
[print(r,file=open("result.txt","a+")) for r in url]


"""
 
* 其他类型</book/qita/>
  * 全本小说</change/quanben/>
  * 

加入书签 | 推荐本书 | 返回书页</book/dushi/1844/> | 我的书架 | 手机阅读<http://m.7ddw.com/chapter/dushi/1844/>

顶点小说<http://www.7ddw.com> -> 都市言情</book/dushi/> -> 重生之财色天下</book/dushi/1844/>
  

重生之财色天下 最新章节更新列表

  

重生之财色天下作者：天下第一白

  
第1章 ：梦回2000</dushi/20150506/1237296.html> 第2章 ：三大门户网站都不赚钱</dushi/20150506/1237297.html> 第3章 ：那些年，我们追过的女孩</dushi/20150506/1237298.html> 第4章 ：指点丁磊</dushi/20150506/1237299.html>
第5章 ：五张模拟试卷</dushi/20150506/1237300.html> 第6章 ：熊猫烧香</dushi/20150506/1237301.html> 第7章 ：试探张宁</dushi/20150506/1237302.html> 第8章 ：病毒发威</dushi/20150506/1237303.html>
"""
复制代码

1 评分人数

zjw767676: 感谢！！！技术 + 1

下载安装python3 https://www.python.org/downloads/ 代码存为xx.py 双击运行或IDLE打开F5运行

TOP

WHY

上校

Rank: 6 Rank: 6

帖子: 1442
积分: 3193
技术: 556
捐助: 0
注册时间: 2015-7-19

6楼

发表于 2016-2-18 11:51 | 只看该作者

按照顶楼代码的意思，楼主应该是想匹配 .html 前面的7位数字
另外，如果不确定文本编码类型，可以考虑用 PowerShell

$ar = type index.txt | %{
    [regex]::Matches($_, '<(/.+?/\d{7}\.html)>', 'IgnoreCase') | %{$_.Groups[1].Value}
}
Out-File 1.txt -Input $ar -Encoding utf8
复制代码

TOP

zjw767676

上校

Rank: 6 Rank: 6

帖子: 275
积分: 3596
技术: 0
捐助: 0
注册时间: 2008-12-21

7楼

发表于 2016-2-18 18:17 | 只看该作者

回复 2# WHY

这就是我想要的，下载小说用的提取各章节的地址！
"<>"不需转义也可用！！！！！受教了！

有一种爱叫放弃

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] [已解决]批处理如何提取文本内的指定内容？

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]