[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] htox32c转换htm2txt 汉字乱码

遇上加了/IP参数还是乱码的怎么办?
htm文件使用记事本打开时是UTF-8编码的。
  1. @echo off
  2. curl -o 123.txt http://www.sge.sh/publish/sge/xqzx/jyxq/index.htm
  3. md htm
  4. pause
  5. title 下载数据文件
  6. set n=0
  7. setlocal enabledelayedexpansion
  8. for /f "delims=><= tokens=4skip=170" %%i in (123.txt) do (
  9. set a=%%i
  10. echo http://www.sge.sh/publish/sge/xqzx/jyxq/%%i
  11. if "!a:~-4,3!"=="htm" set /a n+=1 & echo %%i !n! & curl -o htm\!n!.htm  http://www.sge.sh/publish/sge/xqzx/jyxq/%%i
  12. )
  13. title 转换文件格式
  14. HtoX32c /ip /O0 htm\*.htm
  15. md txt 2>nul
  16. move htm\*.txt txt\>nul
  17. pause
  18. exit
复制代码

这个网站的CHARSET是UTF-8,没什么说的
试一下HtoX32c /i8 /O0 htm\*.htm(HtoX32c,curl我这儿都没有,也懒得下了)
枫中残雪:风停了,我的心却在动,让我心中的寒意走向远方

TOP

回复 2# wc726842270


    换成/i8 也是乱码

TOP

呵呵,这个没有做试验,给你个网址也许对你有帮助:
【原创】用批处理+curl+HtoX32c整理中国医药网上的医院名录信息http://bbs.et8.net/bbs/showthread.php?t=1014614
枫中残雪:风停了,我的心却在动,让我心中的寒意走向远方

TOP

刚才无聊做了一下试验,发现HtoX32c可以将GB2312正常转换(也就是说没有乱码),而LZ所提供的网站是用UTF-8的,所以出现的点问题,有兴趣可以用VBS下载
枫中残雪:风停了,我的心却在动,让我心中的寒意走向远方

TOP

返回列表