[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[网络连接] [已解决]wget下载的网页源码是乱码

本帖最后由 hlzj88 于 2018-11-1 22:21 编辑

各位论坛大佬,请教了
问题如题,下载顶点的圣墟,这是其中两个地址

wget --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" --no-check-certificate -e robots=off -c -t 0 -T 40 "https://www.23us.so/files/article/html/13/13694/13271729.html"

wget --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" --no-check-certificate -e robots=off -c -t 0 -T 40 "https://www.23us.so/files/article/html/13/13694/13122995.html"

第1个下载后的文件源码是乱码,另存为下是 ansi编码,第2个是正常的,另存为是 utf-8编码。
在浏览器上查看上面两个地址的源码都是正常的。

请教有何办法破解并兼容,最好是在wget软件的基础上。
目的,学习批处理

谢谢 523066680 版主,如你说进行操作,能得到正确网页。
目的,学习批处理

TOP

本帖最后由 523066680 于 2018-11-1 08:18 编辑

回复 1# hlzj88

    可能该页面特殊,默认返回gzip格式,改名为.zip,解压后就有了。
干脆统一请求gzip格式,获取后统一解压。

wget --header="Accept-Encoding:gzip" --no-check-certificate -e robots=off -c -t 0 -T 40 "https://www.23us.so/files/article/html/13/13694/13271729.html" --adjust-extension

TOP

返回列表