12 下一页

返回列表发帖

impk

一级士官

Rank: 2

帖子: 94
积分: 122
技术: 2
捐助: 0
注册时间: 2019-7-22

1楼 跳转到 » 倒序看帖

打印

字体大小: tT

发表于 2019-7-22 15:41 | 只看该作者

[文本处理] [已解决]批处理如何从网页源代码中提取资源链接？

本帖最后由 impk 于 2019-8-4 12:51 编辑

https://www.manhuadb.com
如何从这个网页的源代码里提取图片资源链接
过滤出http至jpg之间的全部内容并输入到txt
有几种方法可以实现？需要用到哪几种命令？

zaqmlp

上尉

Rank: 5 Rank: 5

帖子: 972
积分: 1273
技术: 94
捐助: 0
注册时间: 2017-10-30

2楼

发表于 2019-7-22 17:32 | 只看该作者

本帖最后由 zaqmlp 于 2019-7-26 12:03 编辑

@echo off
set info=互助互利,支付宝扫码头像,感谢赞助
rem 有问题,可加QQ956535081及时沟通
title %info%
cd /d "%~dp0"
powershell -NoProfile -ExecutionPolicy bypass ^
    [System.Collections.ArrayList]$s=@();^
    $url='https://www.manhuadb.com/';^
    $web=New-Object System.Net.WebClient;^
    $web.Encoding=[System.Text.Encoding]::UTF8;^
    $html=$web.DownloadString($url);^
    $m=[regex]::matches($html,'(?^<=src=\"").+?\.jpg');^
    if($m.count -ge 1){^
        foreach($item in $m){[void]$s.Add($item.value);};^
        [IO.File]::WriteAllLines('结果.txt', $s, [Text.Encoding]::Default);^
    };
echo;%info%
pause
复制代码

提供bat代写，为你省时省力省事，支付宝扫码头像支付
微信: unique2random

TOP

impk

一级士官

Rank: 2

帖子: 94
积分: 122
技术: 2
捐助: 0
注册时间: 2019-7-22

3楼

发表于 2019-7-22 17:48 | 只看该作者

本帖最后由 impk 于 2019-7-22 17:54 编辑

回复 2# zaqmlp

保存为bat运行后提示，powershell不是内部或外部命令，也不是可运行的程序或批处理文件

这个脚本需要安装额外的运行环境么？我用的是XP3系统

TOP

WHY

上校

Rank: 6 Rank: 6

帖子: 1482
积分: 3266
技术: 567
捐助: 0
注册时间: 2015-7-19

4楼

发表于 2019-7-22 21:44 | 只看该作者

回复 3# impk

WinXP 系统现在几乎没人用了，不闲麻烦的话你可以安装 PowerShell 试试。
https://www.microsoft.com/zh-CN/download/details.aspx?id=16818

TOP

WHY

上校

Rank: 6 Rank: 6

帖子: 1482
积分: 3266
技术: 567
捐助: 0
注册时间: 2015-7-19

5楼

发表于 2019-7-22 21:49 | 只看该作者

本帖最后由 WHY 于 2019-7-26 11:28 编辑

var txt = getText('https://www.manhuadb.com');

var arr = [], m = [], map = [];
var reg = /src="((?:https?:\/)?\/[^"]+\.jpe?g)"/ig;  //匹配 src="https://...jpg" 或者 src="/...jpg" 
while( m = reg.exec(txt) ){
    var s = m[1].toLowerCase().replace(/^\//, 'https://www.manhuadb.com/');
    if( !map[s] ){  //去重复
        arr.push(s); map[s] = 1;
    }
}

writeToFile(arr);

//提取网页
function getText(url) {
    var http = new ActiveXObject('Microsoft.XMLHTTP');
    http.open('GET', url, false);
    http.send();
    with( new ActiveXObject('ADODB.Stream') ){
        Type = 1;
        Mode = 3;
        Open();
        Write(http.responseBody);
        Position = 0;
        Type = 2;
        Charset = 'UTF-8';
        var str = ReadText(-1);
    }
    return str;
}

//写入文本
function writeToFile(arr) {
    var fso  = new ActiveXObject('Scripting.FileSystemObject');
    fso.OpenTextFile('result.Log', 2, true).WriteLine(arr.join('\r\n'));
}

WSH.Echo('Done');
复制代码

1 评分人数

smss: 消消火技术 + 1

TOP

netdzb

上尉

Rank: 5 Rank: 5

帖子: 909
积分: 1215
技术: 3
捐助: 0
注册时间: 2018-1-17

6楼

发表于 2019-7-23 13:47 | 只看该作者

回复 5# WHY

这个是什么脚本。

TOP

JC_2019

列兵

Rank: 1

帖子: 22
积分: 31
技术: 0
捐助: 0
注册时间: 2019-3-25

7楼

发表于 2019-7-26 09:13 | 只看该作者

回复 6# netdzb
vbs

JC网络工作室

TOP

WHY

上校

Rank: 6 Rank: 6

帖子: 1482
积分: 3266
技术: 567
捐助: 0
注册时间: 2015-7-19

8楼

发表于 2019-7-26 11:32 | 只看该作者

好吧，再次修改一下。因为得到图片地址有遗漏。
保存为 Test.JS

TOP

impk

一级士官

Rank: 2

帖子: 94
积分: 122
技术: 2
捐助: 0
注册时间: 2019-7-22

9楼

发表于 2019-7-28 18:12 | 只看该作者

回复 5# WHY

这个脚本是保存为vbs文件再使用吧？我这边报错，提示【行1字符19语法错误代码800A03EA】

TOP

xczxczxcz

中尉

Rank: 5 Rank: 5

帖子: 709
积分: 961
技术: 83
捐助: 0
注册时间: 2012-9-14

10楼

发表于 2019-7-28 18:34 | 只看该作者

回复 9# impk

您的眼力真好，人家明明说保存 js ，你要保存 vbs.

TOP

impk

一级士官

Rank: 2

帖子: 94
积分: 122
技术: 2
捐助: 0
注册时间: 2019-7-22

11楼

发表于 2019-7-28 18:58 | 只看该作者

回复 impk

您的眼力真好，人家明明说保存 js ，你要保存 vbs.
xczxczxcz 发表于 2019-7-28 18:34

保存为js也报错提示【行18字符5 系统未找到指定的资源代码800C0005】

TOP

xczxczxcz

中尉

Rank: 5 Rank: 5

帖子: 709
积分: 961
技术: 83
捐助: 0
注册时间: 2012-9-14

12楼

发表于 2019-7-28 20:17 | 只看该作者

https://media.manhuadb.com/cartoon/1488_title_paniwcbr.jpg
https://media.manhuadb.com/cartoon/6247_title_qirqiyix.jpg
https://media.manhuadb.com/cartoon/143_title_hjecxxeh.jpg
https://media.manhuadb.com/cartoon/1585_title_lkveswyl_720x405.jpg
https://media.manhuadb.com/cartoon/1185_title_gktsajut.jpg
https://media.manhuadb.com/cartoon/1167_title_vfowmmsg.jpg
https://media.manhuadb.com/cartoon/7797_cover_qnolrmmf.jpg
https://media.manhuadb.com/cartoon/7796_cover_razazdtf.jpg
https://media.manhuadb.com/cartoon/7795_cover_lobmedaj.jpg
https://media.manhuadb.com/cartoon/7794_cover_zwzldgxn.jpg
https://media.manhuadb.com/cartoon/7793_cover_cyofbpdm.jpg
https://media.manhuadb.com/cartoon/7792_cover_yrfkzest.jpg
https://media.manhuadb.com/cartoon/7791_cover_yzpvzsnb.jpg
https://media.manhuadb.com/cartoon/7790_cover_umsatbcm.jpg
https://media.manhuadb.com/cartoon/7789_cover_gmbubydc.jpg
https://media.manhuadb.com/cartoon/7788_cover_wvlppvip.jpg
https://media.manhuadb.com/cartoon/7787_cover_gcjtftpt.jpg
https://media.manhuadb.com/cartoon/7786_cover_cipstctc.jpg
https://www.manhuadb.com/cartoon/139_title_eqymyphu.jpg
https://www.manhuadb.com/cartoon/162_cover_glhxiyir.jpg
https://media.manhuadb.com/cartoon/1466_cover_cawzjzvo_250x362.jpg
https://media.manhuadb.com/cartoon/_cover_uczonnez.jpg
https://media.manhuadb.com/cartoon/1518_title_fipqdtpt.jpg
https://www.manhuadb.com/press/296_1_ycygyayd_thumb.jpg
https://media.manhuadb.com/cartoon/3145_cover_jbmhtazk.jpg
https://media.manhuadb.com/cartoon/_cover_djxwbobi.jpg
https://www.manhuadb.com/cartoon/103_cover_dnahrshe.jpg
https://www.manhuadb.com/cartoon/1061_title_rmzbrgjr.jpg
https://www.manhuadb.com/cartoon/147_cover_iegknrqv.jpg
https://www.manhuadb.com/cartoon/138_cover_pgojimpj.jpg
https://www.manhuadb.com/cartoon/114_cover_ivqpicbz.jpg
https://www.manhuadb.com/cartoon/236_cover_raumwyvs.jpg
https://www.manhuadb.com/press/261_1_hberznkx_thumb.jpg
https://media.manhuadb.com/cartoon/_cover_nhkpnyxt.jpg
https://media.manhuadb.com/cartoon/1520_cover_ovlvzpem.jpg
https://media.manhuadb.com/cartoon/6603_cover_wqldmvru.jpg
https://media.manhuadb.com/cartoon/2060_cover_nodusfkj.jpg
https://media.manhuadb.com/cartoon/2584_cover_qhsomnay.jpg
https://media.manhuadb.com/cartoon/7746_cover_rcsbywsk.jpg
https://media.manhuadb.com/cartoon/7666_cover_lcdqerfk.jpg
https://media.manhuadb.com/cartoon/7165_cover_zrkpddfr.jpg
https://media.manhuadb.com/cartoon/6474_cover_ixqeakrk.jpg
https://media.manhuadb.com/cartoon/2971_cover_uforygug.jpg
https://www.manhuadb.com/cartoon/1203_cover_fubjqdgw.jpg
https://www.manhuadb.com/cartoon/181_cover_pgmtlitq.jpg
https://media.manhuadb.com/cartoon/4248_cover_hrdninkt.jpg
https://media.manhuadb.com/cartoon/6450_cover_vosbgtlb.jpg
https://media.manhuadb.com/cartoon/5376_cover_sdtjnmwv.jpg
https://media.manhuadb.com/cartoon/5983_cover_rczkutnm.jpg
https://media.manhuadb.com/cartoon/6646_cover_ksewiaib.jpg
https://media.manhuadb.com/cartoon/3876_cover_ucfwkywt.jpg
https://media.manhuadb.com/cartoon/5025_cover_kghatein.jpg
https://media.manhuadb.com/cartoon/7471_cover_xiqvvswv.jpg
https://media.manhuadb.com/cartoon/3772_cover_hcrrfnci.jpg
https://media.manhuadb.com/cartoon/7154_cover_soyukzbg.jpg
https://media.manhuadb.com/cartoon/1482_cover_eavxecdn.jpg
https://media.manhuadb.com/cartoon/1584_cover_ngubnkzy.jpg
https://media.manhuadb.com/cartoon/1588_cover_hszsmktf.jpg
https://media.manhuadb.com/cartoon/1635_cover_wddvozfb.jpg
https://media.manhuadb.com/cartoon/1817_cover_qpsbuivc.jpg
https://media.manhuadb.com/cartoon/1890_cover_manrlmkg.jpg
https://media.manhuadb.com/cartoon/2073_cover_hzwayfnw.jpg
https://media.manhuadb.com/cartoon/2500_cover_zksojfap.jpg
https://media.manhuadb.com/cartoon/2515_cover_fgnebxdd.jpg
复制代码

TOP

523066680

版主

Rank: 7 Rank: 7 Rank: 7

帖子: 3151
积分: 6455
技术: 317
捐助: 70
注册时间: 2008-8-3

13楼

发表于 2019-7-28 20:33 | 只看该作者

Mojolicious

use Modern::Perl;
use Mojo::UserAgent;
my $ua = Mojo::UserAgent->new();
my $dom = $ua->get("https://www.manhuadb.com/")->result->dom;

for my $e ( $dom->find("img")->each ) {
    say $e->attr("src") if $e->attr("src")=~/jpg$/;
}
复制代码

FuniCode 编程论坛

TOP

WHY

上校

Rank: 6 Rank: 6

帖子: 1482
积分: 3266
技术: 567
捐助: 0
注册时间: 2015-7-19

14楼

发表于 2019-7-28 22:33 | 只看该作者

回复 11# impk

碰到这种问题你应该先去问搜索引擎，脚本没有问题，不要背锅给脚本。没能力解决就别用。

TOP

impk

一级士官

Rank: 2

帖子: 94
积分: 122
技术: 2
捐助: 0
注册时间: 2019-7-22

15楼

发表于 2019-7-29 11:59 | 只看该作者

回复 14# WHY

回复 14# WHY

碰到这种问题你应该先去问搜索引擎，脚本没有问题，不要背锅给脚本。没能力解决就别用。

废话有问题先搜索这还用你教？你怎知我没搜索过？
脚本在我机器上有问题，我实话实说，跟背锅有什么关系？
你能力大就别搭理我们这种菜鸟，听你说话还不够恶心的呢

TOP

12 下一页

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] [已解决]批处理如何从网页源代码中提取资源链接？

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]