[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] 【已解决】批处理如何去除html网页中的<>标签?

本帖最后由 pcl_test 于 2016-11-24 08:09 编辑

<!DOCTYPE html
        PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
         "http://www.w3.org/TR/html4/loose.dtd">
<html><head><title>LinkDB Search Result: KEGG DGROUP DG00012</title>
<meta http-equiv="Content-Style-Type" content="text/css">
<meta http-equiv="Content-Script-Type" content="text/javascript">
<link type="text/css" rel="stylesheet" href="/css/gn2.css">
<style>pre{font-family:monospace}</style>
</head>
<span style="color:#36c"><b>KEGG DGROUP</b></span>

<a href="/dbget-bin/www_bget?dgG01633">DG01633</a>              CYP3A4 substrate

<span style="color:#36c"><b>ATC</b></span>

事实上,我只需要留下红色部分
希望把红色数据继续再存到DG00012.txt里,该如何实现?

@bailong360

TOP

这个,用正则好。

TOP

请描述一下规律是什么,比如为何不留下 ATC 呢?
Talk is cheap. Show me the code.
没事不要瞎扯淡,有能耐就把代码贴出来给我看。

TOP

好难折分,提了二组后面的,一组的又丢失

TOP

回复 4# gawk


    ATC提出也可,我其实只想要红色信息部分,要是不容易,退而求其次,只余下除<>外内容也可,感谢!

TOP

回复 5# fcxk

ATC提出也可,我其实只想要红色信息部分,要是不容易,退而求其次,只余下除<>外内容也可,感谢!

TOP

回复 3# chromatin2

是~但是这个字符串太大,正则不好用

TOP

  1. HtoX32c.exe 1.txt > 2.txt
复制代码
Talk is cheap. Show me the code.
没事不要瞎扯淡,有能耐就把代码贴出来给我看。

TOP

回复 9# gawk

用了之后没反应。。。。。

TOP

:'(忧愁。。。

TOP

回复 10# sweet惜缘


    我这里测试没问题,你的HtoX32c.exe从哪里下载的?
Talk is cheap. Show me the code.
没事不要瞎扯淡,有能耐就把代码贴出来给我看。

TOP

本帖最后由 pcl_test 于 2015-5-11 22:03 编辑
  1. @if(0)==(0) echo off
  2. ::如果非html格式文件,自行修改代码中的文件后缀名;修改原文件,测试前先备份好原文件
  3. for %%a in (*.html) do (
  4. CScript -NoLogo -E:JScript "%~f0" <"%%a" >"tmp_%%a"
  5. move "tmp_%%a" "%%a"
  6. )
  7. pause & exit
  8. @end
  9. var s = WScript.StdIn.ReadAll().replace(/<[^>]+>/gm,"");
  10. WSH.echo(s);
复制代码

TOP

多来几个样本吧,找到规律的话用grep提取也不失为一种办法

TOP

回复 14# bailong360

多谢~楼上的方法就行拉~

TOP

返回列表