[网络连接] [已解决]wget下载的网页源码是乱码

本帖最后由 hlzj88 于 2018-11-1 22:21 编辑

各位论坛大佬，请教了
问题如题，下载顶点的圣墟，这是其中两个地址

wget --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" --no-check-certificate -e robots=off -c -t 0 -T 40 "https://www.23us.so/files/article/html/13/13694/13271729.html"

wget --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" --no-check-certificate -e robots=off -c -t 0 -T 40 "https://www.23us.so/files/article/html/13/13694/13122995.html"

第1个下载后的文件源码是乱码，另存为下是 ansi编码，第2个是正常的，另存为是 utf-8编码。
在浏览器上查看上面两个地址的源码都是正常的。

请教有何办法破解并兼容，最好是在wget软件的基础上。

目的，学习批处理

hlzj88

少校

Rank: 6 Rank: 6

帖子: 826
积分: 1629
技术: 54
捐助: 20
注册时间: 2008-11-3

3楼

发表于 2018-11-1 22:14 | 只看该作者

谢谢 523066680 版主，如你说进行操作，能得到正确网页。

目的，学习批处理

TOP

523066680

版主

Rank: 7 Rank: 7 Rank: 7

帖子: 3151
积分: 6455
技术: 317
捐助: 70
注册时间: 2008-8-3

2楼

发表于 2018-11-1 07:54 | 只看该作者

本帖最后由 523066680 于 2018-11-1 08:18 编辑

回复 1# hlzj88

可能该页面特殊，默认返回gzip格式，改名为.zip，解压后就有了。
干脆统一请求gzip格式，获取后统一解压。

wget --header="Accept-Encoding:gzip" --no-check-certificate -e robots=off -c -t 0 -T 40 "https://www.23us.so/files/article/html/13/13694/13271729.html" --adjust-extension

FuniCode 编程论坛

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[网络连接] [已解决]wget下载的网页源码是乱码

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]