找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
查看: 33152|回复: 14

[文本处理] 【已解决】批处理怎样批量转码htm网页文件?

[复制链接]
发表于 2014-11-26 21:00:06 | 显示全部楼层 |阅读模式
先谢谢各位大神的帮忙!!我有很多htm网页,我用EmEditor打开就提示下面的图:

每次我都是这样做的,点击确定,然后文档打开,点击一下空格键,然后保存就可以了
几个可以,太多就不行了。我想请大神帮忙,批处理能不能批量转换,解决我的这个问题呢?

评分

参与人数 1PB +2 收起 理由
Batcher + 2 感谢给帖子标题标注[已解决]字样

查看全部评分

发表于 2014-11-26 21:11:02 | 显示全部楼层
压缩一个htm文件传上来看看
 楼主| 发表于 2014-11-26 21:16:18 | 显示全部楼层
我上传网盘了,请管理员看看,谢谢!!
链接:http://pan.baidu.com/s/1hq48kAC 密码:8mlr
 楼主| 发表于 2014-11-27 07:18:16 | 显示全部楼层
还请各位大神帮忙!!!谢谢!!
发表于 2014-11-27 08:52:48 | 显示全部楼层
用EmEditor打开的目的是什么?我用Nodepad++打开没有这个提示。
 楼主| 发表于 2014-11-27 09:07:45 | 显示全部楼层
用EmEditor打开的目的是什么?我用Nodepad++打开没有这个提示。
DAIC 发表于 2014-11-27 08:52



回复大神,我是在网页提取时报错,必须做下转码,才能提取!
发表于 2014-11-27 09:44:09 | 显示全部楼层
回复 6# tbjx138


    网页提取时使用的代码发出来我试试
发表于 2014-11-27 10:08:28 | 显示全部楼层
第三方工具挺好用的,可以试试
  1. iconv -f gbk -t utf-8 a.txt >b.txt
复制代码
http://www.bathome.net/thread-32989-1-1.html
发表于 2014-11-27 10:38:55 | 显示全部楼层
源文件10.htm中存在 nul 字符,如果文件多的话,用sed 可以删掉它
  1. sed -i "s/\x00//g" *.htm
复制代码

评分

参与人数 1技术 +1 收起 理由
tbjx138 + 1 乐于助人

查看全部评分

 楼主| 发表于 2014-11-27 10:50:20 | 显示全部楼层
第三方工具挺好用的,可以试试
cyq8886 发表于 2014-11-27 10:08

这个代码不知道转码使用。请大神说明一下!
 楼主| 发表于 2014-11-27 10:51:57 | 显示全部楼层
本帖最后由 tbjx138 于 2014-11-27 11:13 编辑
源文件10.htm中存在 nul 字符,如果文件多的话,用sed 可以删掉它
apang 发表于 2014-11-27 10:38


多谢apang大神,用大神的代码做了bat,使用后很好用!
发表于 2014-11-27 11:12:29 | 显示全部楼层
回复 11# tbjx138


    估计你没有sed.exe,7楼DAIC签名档有下载地址

D:\test>dir *.htm
驱动器 D 中的卷没有标签。
卷的序列号是 0000-ECDB

D:\test 的目录

2014-11-26  14:41        11,139,967 010.htm
               1 个文件     11,139,967 字节
               0 个目录 57,363,992,576 可用字节

D:\test>sed -i "s/\x00//g" *.htm

D:\test>dir *.htm
驱动器 D 中的卷没有标签。
卷的序列号是 0000-ECDB

D:\test 的目录

2014-11-27  11:05        11,139,965 010.htm
               1 个文件     11,139,965 字节
               0 个目录 57,363,992,576 可用字节

D:\test>


修改后010.htm少了两个字节(两个 nul 字符被删掉了),我用UltraEdit32测试也是如此。
 楼主| 发表于 2014-11-27 11:17:49 | 显示全部楼层
回复  tbjx138


    估计你没有sed.exe,7楼DAIC签名档有下载地址



修改后010.htm少了两个字节( ...
apang 发表于 2014-11-27 11:12

第一次是没有sed,我下载使用后很好,我的htm很多,能不能整个文件夹里的所有htm一起转换!谢谢大神的帮忙!!
发表于 2014-11-27 16:12:19 | 显示全部楼层
回复 13# tbjx138


    9楼代码里面的*.htm就是表示批量处理当前目录下的所有htm文件
 楼主| 发表于 2014-11-27 18:39:59 | 显示全部楼层
好的,懂了,谢谢DAIC大神!!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-19 17:55 , Processed in 0.022485 second(s), 8 queries , File On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表