Board logo

标题: [网络连接] [已解决]wget下载的网页源码是乱码 [打印本页]

作者: hlzj88    时间: 2018-10-31 19:35     标题: [已解决]wget下载的网页源码是乱码

本帖最后由 hlzj88 于 2018-11-1 22:21 编辑

各位论坛大佬,请教了
问题如题,下载顶点的圣墟,这是其中两个地址

wget --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" --no-check-certificate -e robots=off -c -t 0 -T 40 "https://www.23us.so/files/article/html/13/13694/13271729.html"

wget --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" --no-check-certificate -e robots=off -c -t 0 -T 40 "https://www.23us.so/files/article/html/13/13694/13122995.html"

第1个下载后的文件源码是乱码,另存为下是 ansi编码,第2个是正常的,另存为是 utf-8编码。
在浏览器上查看上面两个地址的源码都是正常的。

请教有何办法破解并兼容,最好是在wget软件的基础上。
作者: 523066680    时间: 2018-11-1 07:54

本帖最后由 523066680 于 2018-11-1 08:18 编辑

回复 1# hlzj88

    可能该页面特殊,默认返回gzip格式,改名为.zip,解压后就有了。
干脆统一请求gzip格式,获取后统一解压。

wget --header="Accept-Encoding:gzip" --no-check-certificate -e robots=off -c -t 0 -T 40 "https://www.23us.so/files/article/html/13/13694/13271729.html" --adjust-extension
作者: hlzj88    时间: 2018-11-1 22:14

谢谢 523066680 版主,如你说进行操作,能得到正确网页。




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2