[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖
演示下将本地的目录“小说”目录下的所有网页转换成txt,
希望可以做到去除非段落换行,比如浏览器打开网页文件显示:

  
色当即羞红了起来
网页代码应该去除两个<br/>  <br/>及之间的内容:
“脸<br/>  <br/>色当即羞红了起来”替换成“脸色当即羞红了起来”

如果<br/>  <br/>左边有中文右边有正规的段落换行(全角半角空格多个),不希望替换;
如果<br/>  <br/>左边有中文右边有中文,必须替换;
如果<br/>  <br/>左边第一个字是,、“:;,必须替换;
如果<br/>  <br/>右边是,。、“”:;!?…,必须替换;
如果<br/>  <br/>左边第一个字是。?!”……右边是……不希望替换;
如果<br/>  <br/>左边是:右边是“必须替换;

还有有时候所有的换行不是<br/>  <br/>而是</P><P>、<br/><br/>或
<br/>
<br/>

最后提取标题和<br/>之间内容,自定义的替换广告内容,和对多个空字符换行被清理掉,变成干净的ANSI文本

我这里有几个测试网页

TOP

返回列表