200元求助批处理从txt文件截取到网址信息并判断

费用200元（还可追加），1-2天内完成，
请查看我列出的信息，如果能处理的话，可以在帖子留言，我会回复微信

目录结构如图：
需要处理的是，当前路径下的所有文件夹（实际工作中可能文件名不同，数量也不一致）中的所有txt文件中的所有txt内容

一小部分数据
链接：https://pan.baidu.com/s/1oQnnTWvq07Gl-Qe4ULKvLg
提取码：uoav

问题描述：
采集的一些文章导出为txt文件后，存在一些网址信息，在前期处理中不好被处理，导致了现在的问题。

文件中的网址格式不一，这里复制一小部分文件中含有的内容

好运的好名字：http://www.123.com/qiming/</p><h3>人力资源公司名称
课程试听【复制后面链接在浏览器也可打开】：       www.ab.com.cn/school/3dmodel?type=4&amp;zdhhr-11y04r-1991147216662704187   </p><p>在“3d打
百能网（www.ae.cn</p><p>）是一家专注
异议或投诉，请联系：info@aa.cn</p><p>金江
不过当时 www.n1.com已被人注册
口气注册了www.126.com、www.188.com等一批短数
可打开】：       www.h1.com.cn/school/3dmodel?type=2&amp;zdhhr-10y22r-28436431   </p><p>在“3
复制代码

解决方案：
定位到文中的 .com .cn    .cc .net .org  .top .vip  字符位置
然后向左截取至第一个不是英文且不是英文标点的位置
向右截取至 “</”  或者第一个不是英文且不是英文标点的位置（哪个先满足条件，就以哪个为准作为结束条件）
//我只是这样想的，可能描述上不不流畅
如果有其他剔除方式也可

处理流程：
截取到网址信息后，判断该网址长度，如果大于6个字符（就是仅有.com  .cn等本身的话不需要处理），则将其移除掉，并将移除掉的内容写入到当前路径下的  info.txt日志中（为了查看是否有截取错误等情况）

其他：单次处理一般数据量在10-60万个txt，速度上尽可能的快

本主题由 Batcher 于 2023-7-4 10:22 关闭

每日一问

曾经的你

三级士官

Rank: 3 Rank: 3

帖子: 225
积分: 239
技术: 0
捐助: 0
注册时间: 2018-6-7

2楼

发表于 2023-6-12 22:57 | 显示全部帖子

回复 4# zaqmlp

感谢老哥，暂时尚未发现问题，200已经扫描头像转过去了，如果需要修改到时候我就再追加回复

每日一问

TOP

曾经的你

三级士官

Rank: 3 Rank: 3

帖子: 225
积分: 239
技术: 0
捐助: 0
注册时间: 2018-6-7

3楼

发表于 2023-6-12 22:58 | 显示全部帖子

回复 3# jyswjjgdwtdtj

首先说声谢谢
执行后原始文件乱码，暂未看到效果，我使用了另外一个老哥的方案了

每日一问

TOP

曾经的你

三级士官

Rank: 3 Rank: 3

帖子: 225
积分: 239
技术: 0
捐助: 0
注册时间: 2018-6-7

4楼

发表于 2023-6-12 23:02 | 显示全部帖子

回复 4# zaqmlp

老哥，如果能有一个处理进度条就好了

每日一问

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

200元求助批处理从txt文件截取到网址信息并判断

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]