Board logo

标题: [文本处理] [已解决]批处理如何在记事本或者htm里提取文本? [打印本页]

作者: tbjx138    时间: 2015-2-8 19:23     标题: [已解决]批处理如何在记事本或者htm里提取文本?

我有n个htm网页文件,想提取出指定的文本,提取结果如下:

附上2个网页文件,请大神帮忙!!!批处理和vba都可以,谢谢!
作者: tbjx138    时间: 2015-2-9 10:12

请大神帮忙!!
作者: apang    时间: 2015-2-9 12:59

  1. @set @n=0;/* & echo off
  2. echo,BKID,书名,作者,出版日期,出版社,ISBN>1.csv
  3. (for %%a in (*.htm) do (
  4.         cscript -nologo -e:jscript "%~0"<"%%a"
  5. ))>>1.csv
  6. pause & exit/b */
  7. txt = WScript.StdIn.ReadAll();
  8. re = />作者:[\s\S]+?word=.+?'/ig;
  9. s = "";
  10. while ((ar = re.exec(txt)) != null) {
  11.         s += ar[0].match(/bkid=(\d+)/i)[1] + ","
  12.         s += ar[0].match(/word=(.*?)'/i)[1] + ","
  13.         s += ar[0].match(/>作者:(.+?)</)[1] + ","
  14.         s += ar[0].match(/>出版日期:(.+?)</)[1] + ","
  15.         s += ar[0].match(/>出版社:(.+?)</)[1] + ","
  16.         s += ar[0].match(/>ISBN:(.+?)</i)[1] + "\r\n";
  17. }
  18. WScript.StdOut.Write(s)
复制代码

作者: tbjx138    时间: 2015-2-9 13:28

回复 3# apang

感谢大神的帮忙,已经可以提取,大神的技术太牛了!!!




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2