找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
查看: 25990|回复: 7

[文本处理] [已解决]如何批处理html转换为txt主要是要去除html里面的标签源码

[复制链接]
发表于 2012-11-18 08:34:33 | 显示全部楼层 |阅读模式
本意是用来整理下载的小说
大家见笑了
主要是因为下载的小说是html格式里面的标签源码太多
想删掉里面html的标签,这样阅读起来才比较方便!
同时除了删除必要的html标签源码之外,原来html文章里面的一些网址是否也可以指定删除掉呢因为明显是广告啊!
谢谢大家
谢谢那个工具!
谢谢bat论坛
谢谢tmplinshi斑竹

评分

参与人数 1PB +2 收起 理由
tmplinshi + 2 感谢给帖子标题标注[已解决]字样

查看全部评分

发表于 2012-11-18 09:29:54 | 显示全部楼层
提供个链接或范本
发表于 2012-11-18 11:15:33 | 显示全部楼层
把网页文件转换为纯文本的工具HtoX32c
http://www.bathome.net/thread-1974-1-1.html

评分

参与人数 1技术 +1 收起 理由
Batcher + 1 乐于助人

查看全部评分

 楼主| 发表于 2012-11-20 17:04:13 | 显示全部楼层
回复 3# tmplinshi


    提示

错误:不能打开文件 →.html

请问应该将这个HtoX32c.exe放在哪里呢?
然后在cmd里面输入需要具体路径吗?否则怎么知道转换哪里的html呢
比如我html放在d:\a\文件夹里面
发表于 2012-11-20 17:17:23 | 显示全部楼层
转换一个文件:
  1. HtoX32c.exe /Ip /O0 d:\a\a.html
复制代码
转换所有文件:
  1. HtoX32c.exe /Ip /O0 d:\a\*.html
复制代码
转换后的 txt 在 html 所在目录。
发表于 2012-11-20 18:46:21 | 显示全部楼层
本帖最后由 CrLf 于 2012-11-20 19:38 编辑

不想用第三方的话,也可以用 vbs 或 js:
  1. @echo off
  2. more +4 %0>innertext.vbs
  3. for %%a in (*.htm) do cscript /nologo innertext.vbs "%%~fa">"%%a.txt"
  4. pause&exit

  5. set ie = GetObject(WScript.Arguments(0), "htmlfile")
  6. Do Until ie.readyState="complete" : WScript.Sleep 1 : Loop
  7. WScript.echo ie.documentelement.innertext
复制代码

评分

参与人数 1技术 +1 收起 理由
tmplinshi + 1 不错。innertext

查看全部评分

发表于 2012-11-20 18:56:20 | 显示全部楼层
回复 6# CrLf


   
e:\我的文档\桌面\innertext.vbs(2, 1) (null): 灾难性故障

请按任意键继续. . .
发表于 2012-11-20 19:38:39 | 显示全部楼层
回复 7# tmplinshi


    没注意 getobject 不支持相对路径,已修改
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-19 20:21 , Processed in 0.021828 second(s), 8 queries , File On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表