- 帖子
- 56
- 积分
- 100
- 技术
- 8
- 捐助
- 0
- 注册时间
- 2017-4-29
|
演示下将本地的目录“小说”目录下的所有网页转换成txt,
希望可以做到去除非段落换行,比如浏览器打开网页文件显示:
脸
色当即羞红了起来
网页代码应该去除两个<br/> <br/>及之间的内容:
“脸<br/> <br/>色当即羞红了起来”替换成“脸色当即羞红了起来”
如果<br/> <br/>左边有中文右边有正规的段落换行(全角半角空格多个),不希望替换;
如果<br/> <br/>左边有中文右边有中文,必须替换;
如果<br/> <br/>左边第一个字是,、“:;,必须替换;
如果<br/> <br/>右边是,。、“”:;!?…,必须替换;
如果<br/> <br/>左边第一个字是。?!”……右边是……不希望替换;
如果<br/> <br/>左边是:右边是“必须替换;
还有有时候所有的换行不是<br/> <br/>而是</P><P>、<br/><br/>或
<br/>
<br/>
最后提取标题和<br/>之间内容,自定义的替换广告内容,和对多个空字符换行被清理掉,变成干净的ANSI文本
我这里有几个测试网页 |
|