批处理如何查找含有指定字符的行并按层次建立文件夹？

hmgl

Rank: 1

帖子: 28
积分: 95
技术: 0
捐助: 0
注册时间: 2010-3-2

3楼

发表于 2010-3-4 13:24 | 只看该作者

上传最原始的文件，有用的数据已经提取出来放在一楼代码栏中，最后有空行

[ 本帖最后由 hmgl 于 2010-3-6 12:13 编辑 ]

Rank: 5 Rank: 5

帖子: 157
积分: 832
技术: 2
捐助: 0
注册时间: 2009-2-21

4楼

发表于 2010-3-5 18:10 | 只看该作者

@echo off&setlocal enabledelayedexpansion
for /f "tokens=4,5 delims=［］=<>" %%a in ('findstr "article.aspx? ［" 1.txt') do (
    set str=%%a
       if "!str:~0,4!"=="dnah" (set dir2=%%b) else set dir1=%%a
       md !dir1!\!dir2!
)

pause
复制代码

hmgl

Rank: 1

帖子: 28
积分: 95
技术: 0
捐助: 0
注册时间: 2010-3-2

5楼

发表于 2010-3-5 19:05 | 只看该作者

原帖由 inittab 于 2010-3-5 18:10 发表
@echo off&setlocal enabledelayedexpansion
for /f "tokens=4,5 delims=［］=" %%a in ('findstr "article.aspx? ［" 1.txt') do (
set str=%%a
if "!str:~0,4!"=="dnah" (set dir2=%%b) else set di ...

谢谢了，写的高度精炼，就是我执行的时候停顿了，可能我其余代码有错。另外我的要求现在不光是建立文件夹，详情请看一楼更改后的内容

[ 本帖最后由 hmgl 于 2010-3-6 12:16 编辑 ]

hmgl

Rank: 1

帖子: 28
积分: 95
技术: 0
捐助: 0
注册时间: 2010-3-2

6楼

发表于 2010-3-5 23:15 | 只看该作者

如何逐行提取含有指定字符的文本，建立带序号的多层文件夹?

本楼内容转移到一楼，方便大家

[ 本帖最后由 hmgl 于 2010-3-6 11:16 编辑 ]

BatCoder

少尉

Rank: 5 Rank: 5

帖子: 213
积分: 740
技术: 0
捐助: 0
注册时间: 2009-6-5

7楼

发表于 2010-3-5 23:27 | 只看该作者

提取含有哪个指定字符的文本？建立什么样的文件夹？

http://bbs.bathome.net/thread-7263-1-1.html
跟这个帖子有什么不同？

Do All in Command Line

hmgl

Rank: 1

帖子: 28
积分: 95
技术: 0
捐助: 0
注册时间: 2010-3-2

8楼

发表于 2010-3-5 23:53 | 只看该作者

原帖由 BatCoder 于 2010-3-5 23:27 发表
提取含有哪个指定字符的文本？建立什么样的文件夹？

http://bbs.bathome.net/thread-7263-1-1.html
跟这个帖子有什么不同？

http://bbs.bathome.net/thread-7263-1-1.html的代码是建文件夹，我执行后就停顿了，不知道哪里有错，所以索性把最终要求全贴到1楼，代码最好易读性高，便于学习，修改。

[ 本帖最后由 hmgl 于 2010-3-6 11:19 编辑 ]

Rank: 5 Rank: 5

帖子: 157
积分: 832
技术: 2
捐助: 0
注册时间: 2009-2-21

9楼

发表于 2010-3-6 11:42 | 只看该作者

怎么题目又改了。楼主最好所有要求考虑好。
免得回复跟主题不致，给大家造成困扰。

hmgl

Rank: 1

帖子: 28
积分: 95
技术: 0
捐助: 0
注册时间: 2010-3-2

10楼

发表于 2010-3-6 12:10 | 只看该作者

不好意思，本来想一步步请教，不想太麻烦诸位，可是搞不定，所以这次把全部要求贴到这里

Rank: 5 Rank: 5

帖子: 157
积分: 832
技术: 2
捐助: 0
注册时间: 2009-2-21

11楼

发表于 2010-3-6 12:22 | 只看该作者

你是不是想提取电脑爱好者的期刊啊，呵呵。
你想达到什么样的效果直接给出结果就可以了，过程和方法可能会有不同。请大家自己去想就行了。

hmgl

Rank: 1

帖子: 28
积分: 95
技术: 0
捐助: 0
注册时间: 2010-3-2

12楼

发表于 2010-3-6 12:55 | 只看该作者

原帖由 inittab 于 2010-3-6 12:22 发表
你是不是想提取电脑爱好者的期刊啊，呵呵。
你想达到什么样的效果直接给出结果就可以了，过程和方法可能会有不同。请大家自己去想就行了。

呵呵，被你看破了，最终结果就是要一楼的那个文件夹结构。琢磨了好多天，提问也是围绕这个

Rank: 5 Rank: 5

帖子: 157
积分: 832
技术: 2
捐助: 0
注册时间: 2009-2-21

13楼

发表于 2010-3-6 16:05 | 只看该作者

这题有点意思的。花了点时间写，就当练手吧。试试是否符合要求
运行时需要下载好三方工具htox32c.exe sed.exe放置于相同目录;

@echo off&setlocal enabledelayedexpansion
title "期刊采集器"
:start
set/p qs=请输入电脑爱好者期数:（1－24,按q退出):
if "%qs%"=="q" goto :eof
if %qs% gtr 24 echo\输入有误!!,按任意键重新输入！&pause>nul&goto start
if %qs% leq 0  echo\输入有误!!,按任意键重新输入！&pause>nul&goto start
if not exist 第!qs!期 md 第!qs!期
echo;正在下载，请稍等...
curl -s http://www.qikan.com.cn/MagDetails/1005-0043/2009/%qs%.html | sed -n "/右侧列表内容开始/,/返回新闻时政类期刊按钮开始/p">tmp1.txt
find "本刊文章版于近期发布,您可以阅读原貌版" tmp1.txt >nul && (echo;本期暂未有文字版&goto :eof)
sed "s/\/Article\/dnah\//>/g;s/\" target=\"_blank\" class=\"/@</g;s/^s*$//g" tmp1.txt>tmp2.txt
htox32c /ip tmp2.txt>tmp3.txt 2>nul
echo;建立目录结构并下载处理内容
set/a m=0
for /f "tokens=1,2 delims=@" %%a in (tmp3.txt) do (
if not "%%a"=="" (
if "%%b"=="" (set dir1=00!m!_%%a&set/a m+=1,n=0&md "第!qs!期\!dir1!" 2>nul) else (
set dir2=00!n!_%%b&set/an+=1&md "第!qs!期\!dir1!\!dir2!" 2>nul
curl -s "http://www.qikan.com.cn/Article/dnah/%%a" | sed -n "/rticleReadConText/,/div/p" | sed "1d;/div/d;s/<br>//g;s/\t//g">"第!qs!期\!dir1!\!dir2!\src.txt"
:::::以下两行为调试用，可删除
echo;&echo;======================!%%b===========================================
echo;[DIR]第!qs!期\!dir1!\!dir2!&echo;&type 第!qs!期\!dir1!\!dir2!\src.txt
)
)
)
复制代码

[ 本帖最后由 inittab 于 2010-3-6 16:20 编辑 ]

hmgl

Rank: 1

帖子: 28
积分: 95
技术: 0
捐助: 0
注册时间: 2010-3-2

14楼

发表于 2010-3-6 17:08 | 只看该作者

期刊下载器名字不错
好像sed的编码不对，建立文件夹的全是乱码：╡┌1╞┌，换了sed的另一个版本，现在正常,
1.能否直接设定起始ur，比如：http://xmlib.vip.qikan.com/Mag.aspx?issn=1005-0043&year=2008&issue=1，从该页面能否自动提取期刊名年数和期数（在期刊目录那行），作为文件夹名，不是只用期数做文件夹名，该页面含有各年各期的url，批处理能否可以直接将其他各期下载
3.期刊中的文章可能很长，会分为两个甚至更多页面，比如：http://lnlib.vip.qikan.com/article.aspx?titleid=dnah20090501，下面还有第二页面的链接，这两页或者更多的内容能否合并为一个src.txt

[ 本帖最后由 hmgl 于 2010-3-6 18:11 编辑 ]

Rank: 5 Rank: 5

帖子: 157
积分: 832
技术: 2
捐助: 0
注册时间: 2009-2-21

15楼

发表于 2010-3-6 18:16 | 只看该作者

最新的win32版 sed 4.2下载。
http://ncu.dl.sourceforge.net/pr ... sed-4.2-1-setup.exe
安装完成后，将
C:\Program Files\GnuWin32\bin
下的所有文件复制到c:\windows\system32 下。批处理所有目录如果有sed.exe ，需要删除。

其他的页面采集的话，需要针对具体情况改动代码（针对性是很强的，不过原理思路差不多的）。