[原创代码] python字符串切片处理DB2 DEL文件断行问题实现不以引号开头的行与上一行连接.py

"""
python字符串切片处理DB2 DEL文件断行问题实现不以引号开头的行与上一行连接.py
题目来源 http://www.bathome.net/thread-38164-1-1.html
依山居  17:47 2015/11/24
这个解决思路在脑子里绕了好几天~找到\n也就是换行符，同时切出它的下一位不为"号的字符。
也就是不以引号开头行的第一个字。然后再替换掉\n
感觉这个处理方法,不需要正则表达式可靠性也很高。
"""
import time
start=time.time()
print("运行中..."*3)

with open("a.txt") as f:
    txt=f.read()
#增加字符长度,取\n的下一位字符时就不用担心和考虑越界的问题
txt=txt+"###"
rn=len(txt)
#找到\n也就是换行符，同时切取出它的下一位不为"号的字符。
rs=[txt[r]+txt[r+1] for r in range(rn-3) if ("\n" in txt[r]) and ('\"' not in txt[r+1])]
#rs=['\n2', '\n5', '\n2', '\n3'...]
for r in rs:
    #设r为\n3,替换为r[1]也就是换为3，相当于删掉了\n。这个不以引开头的行就能与上行连接了。
    txt=txt.replace(r,r[1])
txt=txt.rstrip("###")+"\n"
with open("aa.txt","w+") as f:
    f.write(txt)

end=time.time()
pt=end-start
print("运行耗时：",pt)
try:
    input("按回车退出")
except SyntaxError:
    pass
复制代码

1 评分人数

CrLf: 感谢分享技术 + 2

下载安装python3 https://www.python.org/downloads/ 代码存为xx.py 双击运行或IDLE打开F5运行

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

2楼

发表于 2015-11-24 20:14 | 只看该作者

败了。逐个字符扫描太慢了。
用以下代码生成3百M的测试文件，久久没完成。

"""
生成测试数据
依山居 20:01 2015/11/24
"""
import time
start=time.time()
print("运行中..."*3)

a=""""1","1
2","123","","201
5-10-31",
"1","1
2","12
3","","",
"1","12","123","123
4"
"A","AB","ABC","ABCD"
"R","RS","RS
T","RSTU"
"E","EF","EFG","EFGH"
"c","EF","EFG","EFGH"
"d","EF","EFG","EFGH
xxx"
"f","EF","EFG","EFGH
13:05 2015/11/17"
"c","EF","EFG","EFGH"
"c","EF","EFG","EFGH"
"c","EF","EFG","EFGH"
"c","EF","EFG","EFGH"
"""

b=a*1000000
with open("a.txt","w") as f:
    f.write(b)

end=time.time()
pt=end-start
print("运行耗时：",pt)
try:
    input("按回车退出")
except SyntaxError:
    pass
复制代码

下载安装python3 https://www.python.org/downloads/ 代码存为xx.py 双击运行或IDLE打开F5运行

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

3楼

发表于 2015-11-25 01:58 | 只看该作者

测试总结:
与直觉相反，并不是逐字扫描慢，而是在进行迭代replace慢。非常非常非常非常慢~
经测试慢在这个部分，测试生成测试文件3M 三百万个字符。8万个字符需要替换，需要180秒才能完成替换:
for r in rs:
txt=txt.replace(r,r[1])
所以大量的字符替换不能使用这个方法。

下载安装python3 https://www.python.org/downloads/ 代码存为xx.py 双击运行或IDLE打开F5运行

TOP

依山居

中尉

Rank: 5 Rank: 5

帖子: 593
积分: 935
技术: 49
捐助: 0
注册时间: 2008-1-3

4楼

发表于 2015-11-28 23:34 | 只看该作者

新代码

"""
python列表切片处理DEL文件断行.py
这版的代码是之前列表切片版的改进，目的是把DEL文件中不以引号开头的行与上一行连接
下一行不以引号开头则清除行后的空白字符，包括\n，在写入的时候就自动与上一行连接了。
http://www.bathome.net/thread-38164-1-1.html
"""

import time
start=time.time()
print("运行中..."*3)

txt=[]
with open("a.txt") as f:
    txt=f.readlines()

    end=time.time()
    pt=end-start
    print("readlines运行耗时：",pt)

    ln=len(txt)
    print("需要处理的文件行数：",ln)

    end=time.time()
    pt=end-start
    print("len(txt)运行耗时：",pt)
    #为了防指针越界，所以rn需要减1
    #flines=[txt[r] if ('\"' in txt[r+1][0]) else txt[r].rstrip() for r in range(ln-1)]
    #与上一行等效写法
    flines=[txt[r] if (txt[r+1].startswith('\"')) else txt[r].rstrip() for r in range(ln-1)]
	
end=time.time()
pt=end-start
print("flines运行耗时：",pt)

with open("out.txt","w+") as f:
    f.writelines(flines)
    #补上最后一行
    f.write(txt[-1])
    f.close()
    
txt[:]=[]
flines[:]=[]

end=time.time()
pt=end-start
print("运行耗时：",pt)
try:
    input("按回车退出")
except SyntaxError:
    pass

"""
测试结果，列表切片和模式匹配处理速度相当，670M的文本，大约60-70秒左右，
包括写入时间,算出处理速度大约是每秒处理10M左右。
实际发现内存占用峰值会高出好几倍，python 进程会短时占用好几个G内存的情况。

"""
复制代码

下载安装python3 https://www.python.org/downloads/ 代码存为xx.py 双击运行或IDLE打开F5运行

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[原创代码] python字符串切片处理DB2 DEL文件断行问题实现不以引号开头的行与上一行连接.py

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]