Board logo

标题: [文本处理] 抽取网页源代码中的文本内容 [打印本页]

作者: locoman    时间: 2021-11-9 21:28     标题: 抽取网页源代码中的文本内容

平时浏览网页时,可以用右键“查看网页源代码”,保存为一个文本文件。
需求:
将这个网页源代码文件中所有的HTML代码全部清除,只保留其中的真正的内容文本,最好能保持内容的原排版格式。

谢谢大家一起分析研究和帮助指导!!
作者: Batcher    时间: 2021-11-9 21:58

回复 1# locoman


试试这个命令行工具:HtoX32c
http://bbs.bathome.net/thread-1974-1-1.html




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2