费用200元(还可追加),1-2天内完成,
请查看我列出的信息,如果能处理的话,可以在帖子留言,我会回复微信
目录结构如图:
需要处理的是,当前路径下的所有文件夹(实际工作中可能文件名不同,数量也不一致)中的所有txt文件中的所有txt内容


一小部分数据
链接:https://pan.baidu.com/s/1oQnnTWvq07Gl-Qe4ULKvLg
提取码:uoav
问题描述:
采集的一些文章导出为txt文件后,存在一些网址信息,在前期处理中不好被处理,导致了现在的问题。
文件中的网址格式不一,这里复制一小部分文件中含有的内容 | 好运的好名字:http://www.123.com/qiming/</p><h3>人力资源公司名称 | | 课程试听【复制后面链接在浏览器也可打开】: www.ab.com.cn/school/3dmodel?type=4&zdhhr-11y04r-1991147216662704187 </p><p>在“3d打 | | 百能网(www.ae.cn</p><p>)是一家专注 | | 异议或投诉,请联系:info@aa.cn</p><p>金江 | | 不过当时 www.n1.com已被人注册 | | 口气注册了www.126.com、www.188.com等一批短数 | | 可打开】: www.h1.com.cn/school/3dmodel?type=2&zdhhr-10y22r-28436431 </p><p>在“3COPY |
解决方案:
定位到文中的 .com .cn .cc .net .org .top .vip 字符位置
然后向左截取至第一个不是英文且不是英文标点的位置
向右截取至 “</” 或者第一个不是英文且不是英文标点的位置(哪个先满足条件,就以哪个为准作为结束条件)
//我只是这样想的,可能描述上不不流畅
如果有其他剔除方式也可
处理流程:
截取到网址信息后,判断该网址长度,如果大于6个字符(就是仅有.com .cn等本身的话不需要处理),则将其移除掉,并将移除掉的内容写入到当前路径下的 info.txt日志中(为了查看是否有截取错误等情况)
其他:单次处理一般数据量在10-60万个txt,速度上尽可能的快 |