[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

200元求助批处理从txt文件截取到网址信息并判断

费用200元(还可追加),1-2天内完成,
请查看我列出的信息,如果能处理的话,可以在帖子留言,我会回复微信

目录结构如图:
需要处理的是,当前路径下的所有文件夹(实际工作中可能文件名不同,数量也不一致)中的所有txt文件中的所有txt内容




一小部分数据
链接:https://pan.baidu.com/s/1oQnnTWvq07Gl-Qe4ULKvLg
提取码:uoav

问题描述:
采集的一些文章导出为txt文件后,存在一些网址信息,在前期处理中不好被处理,导致了现在的问题。


文件中的网址格式不一,这里复制一小部分文件中含有的内容
  1. 好运的好名字:http://www.123.com/qiming/</p><h3>人力资源公司名称
  2. 课程试听【复制后面链接在浏览器也可打开】:       www.ab.com.cn/school/3dmodel?type=4&amp;zdhhr-11y04r-1991147216662704187   </p><p>在“3d打
  3. 百能网(www.ae.cn</p><p>)是一家专注
  4. 异议或投诉,请联系:info@aa.cn</p><p>金江
  5. 不过当时 www.n1.com已被人注册
  6. 口气注册了www.126.com、www.188.com等一批短数
  7. 可打开】:       www.h1.com.cn/school/3dmodel?type=2&amp;zdhhr-10y22r-28436431   </p><p>在“3
复制代码
解决方案:
定位到文中的 .com   .cn     .cc   .net   .org  .top   .vip  字符位置
然后向左截取至第一个不是英文且不是英文标点的位置
向右截取至   “</”  或者第一个不是英文且不是英文标点的位置(哪个先满足条件,就以哪个为准作为结束条件)
//我只是这样想的,可能描述上不不流畅
如果有其他剔除方式也可

处理流程:
截取到网址信息后,判断该网址长度,如果大于6个字符(就是仅有.com  .cn等本身的话不需要处理),则将其移除掉,并将移除掉的内容写入到当前路径下的  info.txt日志中(为了查看是否有截取错误等情况)


其他:单次处理一般数据量在10-60万个txt,速度上尽可能的快
每日一问

回复 4# zaqmlp


    感谢老哥,暂时尚未发现问题,200已经扫描头像转过去了,如果需要修改到时候我就再追加回复
每日一问

TOP

回复 3# jyswjjgdwtdtj


    首先说声谢谢
执行后原始文件乱码,暂未看到效果,我使用了另外一个老哥的方案了
每日一问

TOP

回复 4# zaqmlp


    老哥,如果能有一个处理进度条就好了
每日一问

TOP

返回列表