Board logo

标题: [文本处理] 批处理怎样从多个网页中提取RAR文件到文本列表? [打印本页]

作者: gamess    时间: 2010-12-31 10:43     标题: 批处理怎样从多个网页中提取RAR文件到文本列表?

网页中的代码  放在一个文本列表中
<a title="CAD图纸" href="../../../../../ftp@ftp1.jcwcn.com/0911/3d/4/8.rar">图纸下载</a></p>

诸如此类代码  href="../../../../../ftp@ftp1.jcwcn.com/0911/3d/4/8.rar

蓝色均为变化的部分

把多个网页中所有的地址我编辑了半天批处理也没成功提取出来呀

各位大大帮帮忙

作者: Batcher    时间: 2010-12-31 11:16

你的批处理怎么写的?
作者: hanyeguxing    时间: 2010-12-31 11:17

如果源文件为ansi或unicode,可以尝试使用for或sed等命令提取
也可以使用curl等第三方命令直接实现

[ 本帖最后由 hanyeguxing 于 2010-12-31 12:15 编辑 ]
作者: gamess    时间: 2010-12-31 17:39

麻烦给个完整的能用的哈。。。谢了
这个是我修改的。。提取不出来哈。

@echo off
cd.>list.txt
for %%i in (*.htm) do (
    (echo.&echo %%i 中的RAR&echo.)>>list.txt
    for /f "delims=" %%j in ('findstr /i "href="../../../../../.*.ftp@ftp1.jcwcn.com/*\.rar" %%i 2^>nul') do (
        set "str=%%j"
        setlocal enabledelayedexpansion
        set str=!str:"=!
        set str=!str:*href="../../../../../!
        for /f "delims==> " %%k in ("!str!") do echo %%k>>list.txt
        endlocal
    )
)
start list.txt

[ 本帖最后由 gamess 于 2010-12-31 17:45 编辑 ]
作者: gamess    时间: 2010-12-31 17:44

原始HTML文件中想提取部分的代码
   <p align="center"><img alt="图纸" src="../../../../imguploads/Image/0911/cad/4/8.jpg" /> </p>
<p align="center"><a title="图纸" href="../../../../../ftp@ftp1.jcwcn.com/0911/cad/4/8.rar">图纸下载</a></p>   <div align="center">
<script type="text/javascript"> /*580*90,创建于2010-10-28*/ var cpro_id = 'u258562';</script>
<script type="text/javascript" src="../../../../../cpro.baidu.com/cpro/ui/c.js"></script>
</div>

[ 本帖最后由 gamess 于 2010-12-31 17:45 编辑 ]
作者: tmplinshi    时间: 2010-12-31 20:21

  1. type *.htm | GetURLs /s:"ftp" > list.txt
复制代码
geturls.exe:提取链接
http://bathome.net/viewthread.php?tid=10581

[ 本帖最后由 tmplinshi 于 2010-12-31 20:29 编辑 ]
作者: gamess    时间: 2011-1-1 08:04

实在是搞不定了。。麻烦版主给个完整版的,我直接存为BAT,先解决下问题先。。谢谢。。。
作者: tmplinshi    时间: 2011-1-1 08:29     标题: 回复 7楼 的帖子

把 6 楼代码保存为批处理,然后下载 geturls.exe 至批处理目录

[ 本帖最后由 tmplinshi 于 2011-1-1 08:31 编辑 ]




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2