标题: [文本处理] 【已解决】批处理怎样批量转码htm网页文件? [打印本页]
作者: tbjx138 时间: 2014-11-26 21:00 标题: 【已解决】批处理怎样批量转码htm网页文件?
先谢谢各位大神的帮忙!!我有很多htm网页,我用EmEditor打开就提示下面的图:
每次我都是这样做的,点击确定,然后文档打开,点击一下空格键,然后保存就可以了
几个可以,太多就不行了。我想请大神帮忙,批处理能不能批量转换,解决我的这个问题呢?
作者: Batcher 时间: 2014-11-26 21:11
压缩一个htm文件传上来看看
作者: tbjx138 时间: 2014-11-26 21:16
我上传网盘了,请管理员看看,谢谢!!
链接:http://pan.baidu.com/s/1hq48kAC 密码:8mlr
作者: tbjx138 时间: 2014-11-27 07:18
还请各位大神帮忙!!!谢谢!!
作者: DAIC 时间: 2014-11-27 08:52
用EmEditor打开的目的是什么?我用Nodepad++打开没有这个提示。
作者: tbjx138 时间: 2014-11-27 09:07
用EmEditor打开的目的是什么?我用Nodepad++打开没有这个提示。
DAIC 发表于 2014-11-27 08:52
回复大神,我是在网页提取时报错,必须做下转码,才能提取!
作者: DAIC 时间: 2014-11-27 09:44
回复 6# tbjx138
网页提取时使用的代码发出来我试试
作者: cyq8886 时间: 2014-11-27 10:08
第三方工具挺好用的,可以试试- iconv -f gbk -t utf-8 a.txt >b.txt
复制代码
http://www.bathome.net/thread-32989-1-1.html
作者: apang 时间: 2014-11-27 10:38
源文件10.htm中存在 nul 字符,如果文件多的话,用sed 可以删掉它复制代码
作者: tbjx138 时间: 2014-11-27 10:50
第三方工具挺好用的,可以试试
cyq8886 发表于 2014-11-27 10:08
这个代码不知道转码使用。请大神说明一下!
作者: tbjx138 时间: 2014-11-27 10:51
本帖最后由 tbjx138 于 2014-11-27 11:13 编辑
源文件10.htm中存在 nul 字符,如果文件多的话,用sed 可以删掉它
apang 发表于 2014-11-27 10:38
多谢apang大神,用大神的代码做了bat,使用后很好用!
作者: apang 时间: 2014-11-27 11:12
回复 11# tbjx138
估计你没有sed.exe,7楼DAIC签名档有下载地址
D:\test>dir *.htm
驱动器 D 中的卷没有标签。
卷的序列号是 0000-ECDB
D:\test 的目录
2014-11-26 14:41 11,139,967 010.htm
1 个文件 11,139,967 字节
0 个目录 57,363,992,576 可用字节
D:\test>sed -i "s/\x00//g" *.htm
D:\test>dir *.htm
驱动器 D 中的卷没有标签。
卷的序列号是 0000-ECDB
D:\test 的目录
2014-11-27 11:05 11,139,965 010.htm
1 个文件 11,139,965 字节
0 个目录 57,363,992,576 可用字节
D:\test>
修改后010.htm少了两个字节(两个 nul 字符被删掉了),我用UltraEdit32测试也是如此。
作者: tbjx138 时间: 2014-11-27 11:17
回复 tbjx138
估计你没有sed.exe,7楼DAIC签名档有下载地址
修改后010.htm少了两个字节( ...
apang 发表于 2014-11-27 11:12
第一次是没有sed,我下载使用后很好,我的htm很多,能不能整个文件夹里的所有htm一起转换!谢谢大神的帮忙!!
作者: DAIC 时间: 2014-11-27 16:12
回复 13# tbjx138
9楼代码里面的*.htm就是表示批量处理当前目录下的所有htm文件
作者: tbjx138 时间: 2014-11-27 18:39
好的,懂了,谢谢DAIC大神!!
欢迎光临 批处理之家 (http://bbs.bathome.net/) |
Powered by Discuz! 7.2 |