Board logo

标题: [文本处理] [已解决]如何批处理html转换为txt主要是要去除html里面的标签源码 [打印本页]

作者: bbaatt    时间: 2012-11-18 08:34     标题: [已解决]如何批处理html转换为txt主要是要去除html里面的标签源码

本意是用来整理下载的小说
大家见笑了
主要是因为下载的小说是html格式里面的标签源码太多
想删掉里面html的标签,这样阅读起来才比较方便!
同时除了删除必要的html标签源码之外,原来html文章里面的一些网址是否也可以指定删除掉呢因为明显是广告啊!
谢谢大家
谢谢那个工具!
谢谢bat论坛
谢谢tmplinshi斑竹

作者: cjiabing    时间: 2012-11-18 09:29

提供个链接或范本
作者: tmplinshi    时间: 2012-11-18 11:15

把网页文件转换为纯文本的工具HtoX32c
http://www.bathome.net/thread-1974-1-1.html
作者: bbaatt    时间: 2012-11-20 17:04

回复 3# tmplinshi


    提示

错误:不能打开文件 →.html

请问应该将这个HtoX32c.exe放在哪里呢?
然后在cmd里面输入需要具体路径吗?否则怎么知道转换哪里的html呢
比如我html放在d:\a\文件夹里面
作者: tmplinshi    时间: 2012-11-20 17:17

转换一个文件:
  1. HtoX32c.exe /Ip /O0 d:\a\a.html
复制代码
转换所有文件:
  1. HtoX32c.exe /Ip /O0 d:\a\*.html
复制代码
转换后的 txt 在 html 所在目录。
作者: CrLf    时间: 2012-11-20 18:46

本帖最后由 CrLf 于 2012-11-20 19:38 编辑

不想用第三方的话,也可以用 vbs 或 js:
  1. @echo off
  2. more +4 %0>innertext.vbs
  3. for %%a in (*.htm) do cscript /nologo innertext.vbs "%%~fa">"%%a.txt"
  4. pause&exit
  5. set ie = GetObject(WScript.Arguments(0), "htmlfile")
  6. Do Until ie.readyState="complete" : WScript.Sleep 1 : Loop
  7. WScript.echo ie.documentelement.innertext
复制代码

作者: tmplinshi    时间: 2012-11-20 18:56

回复 6# CrLf


   
e:\我的文档\桌面\innertext.vbs(2, 1) (null): 灾难性故障

请按任意键继续. . .

作者: CrLf    时间: 2012-11-20 19:38

回复 7# tmplinshi


    没注意 getobject 不支持相对路径,已修改




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2