Rank: 5 Rank: 5

帖子: 663
积分: 1326
技术: 3
捐助: 0
注册时间: 2012-7-1

1楼 跳转到 » 正序看帖

字体大小: tT

发表于 7 天前 23:54 | 只看该作者

[文本处理] 【已解决】如何使用gawk处理文本四元组的分割与合并

本帖最后由思想之翼于 2025-3-9 15:44 编辑

A.txt记录多行数值，格式为：
1234567
8888888
1122339
......

若将A.txt记录的数值，进行四元组分割，可以得到按照位置顺序命名的35个文本：1234.txt 1235.txt 1236.txt 1237.txt 1245.txt 1246.txt 1247.txt 1256.txt 1257.txt 1267.txt 1345.txt 1346.txt 1347.txt 1356.txt 1357.txt 1367.txt 1456.txt 1457.txt 1467.txt 1567.txt 2345.txt 2346.txt 2347.txt 2356.txt 2357.txt 2367.txt 2456.txt 2457.txt 2467.txt 2567.txt 3456.txt 3457.txt 3467.txt 3567.txt 4567.txt

这35个文本，记录对应位置的数据：
1234.txt：
1234
8888
1122

1235.txt：
1235
8888
1123

1236.txt：
1236
8888
1123

1237.txt：
1237
8888
1129
......

4567.txt：
4567
8888
2339

【问题1】如何使用第三方工具gawk，按照位置顺序四元组合，将A.txt分割成35个文本？
【问题2】如何使用第三方工具gawk，将上述35个文本，按照对应的位置顺序，拼接成A.txt？（35个文本行数不同且有重复）

Five66

上尉

Rank: 5 Rank: 5

帖子: 952
积分: 1354
技术: 141
捐助: 0
注册时间: 2021-8-26

10楼

发表于 3 天前 22:33 | 只看该作者

突然意识到一个问题
难道生成的文本名字不是根据第一行的组合来命名的???
而是不管第一行是啥都是1234.txt 1235.txt 1236.txt 1237.txt 1245.txt 1246.txt 1247.txt 1256.txt 1257.txt 1267.txt 1345.txt 1346.txt 1347.txt 1356.txt 1357.txt 1367.txt 1456.txt 1457.txt 1467.txt 1567.txt 2345.txt 2346.txt 2347.txt 2356.txt 2357.txt 2367.txt 2456.txt 2457.txt 2467.txt 2567.txt 3456.txt 3457.txt 3467.txt 3567.txt 4567.txt

TOP

Five66

上尉

Rank: 5 Rank: 5

帖子: 952
积分: 1354
技术: 141
捐助: 0
注册时间: 2021-8-26

9楼

发表于 3 天前 22:15 | 只看该作者

回复 2# Five66

啊 ,2楼的代码结果顺序并不正确 ,除了第一行 ,后面的都偏移了1

改正如下 ,批处理文件中运行(cmd窗口运行的话将双英文百分号给位单英文百分号)

gawk "function fff(a,b,c,d,e){X[x]=c;Y[y]=d;Z[z]=e;for(C[i]=Y[y];C[i]<=a-1;C[i]++){t=Z[z]\"\"B[C[i]+1];if(length(t)==b){if(u){o=m%%n;print t>>D[o]\".txt\";m++}else{D[n++]=t;print t>t\".txt\"}}else{l=C[i]+1;x++;y++;z++;i++;fff(a,b,c,l,t)}};x--;y--;z--;i--;};BEGIN{u=0}{split($0,A,/./,B);fff(7,4,1,0,\"\");u++}" A.txt
复制代码

补上一个问题二 ,仅适用原来文本第一行为1234567并且是7选4的组合 ,合并后文件名为m_A.txt

gawk "ARGIND==1{A[++i]=$0}ARGIND>1{++l;if(l>i){l=1};c=$0;s=substr(c,length(c),1);A[l]=A[l]\"\"s}END{for(k=1;k<=i;k++)print A[k];}" 1234.txt 1235.txt 1236.txt 1237.txt >m_A.txt
复制代码

同问题二 ,原来文本第一行为可为任意 ,并且可是任意选任意的组合(设置变量m跟n) ,因为是通过文件创建时间来决定顺序的 ,结果可能不准确 ,合并后文件名为m_A.txt

dir /tc|sort|gawk -v"m=7" -v"n=4" "{split($0,D,/ +/);s=length(D);if(match(D[s],/txt$/))if(length(D[s])==n+4)F[++i]=D[s]}END{for(i=1;i<=n;i++){if(F[i]){while((getline l<F[i])>0){if(i==1){A[++j]=l}else{++k;if(k>j)k=1;if(length(A[k])<m){s=substr(l,length(l),1);A[k]=A[k]\"\"s;}}}}};for(i=1;i<=j;i++)print A[i]}" >m_A.txt
复制代码

TOP

aloha20200628

少校

Rank: 6 Rank: 6

帖子: 1149
积分: 1956
技术: 263
捐助: 0
注册时间: 2021-10-13

8楼

发表于 3 天前 19:21 | 只看该作者

本帖最后由 aloha20200628 于 2025-3-10 17:23 编辑

回复 1# 思想之翼

也给一个 python 版本
第一题型》生成35个分割文件（存为 test1.py 与 A.txt 源文件同目录运行）

from itertools import combinations
with open('A.txt', 'r') as fr: all = fr.readlines()
for l in (list(combinations(range(1,8),4))):
	with open((ln:=''.join([str(i) for i in l]))+'.txt', 'w') as fw:
		for s in all: fw.write(s[int(ln[0])-1]+s[int(ln[1])-1]+s[int(ln[2])-1]+s[int(ln[3])-1]+'\n')
复制代码

第二题型》复原源文件的副本 AA.txt（存为 test2.py 运行，须基于 test1.py 的运行结果-即35个分割文件已经产生）

with open('1234.txt', 'r') as fr: a1 = fr.readlines()
with open('4567.txt', 'r') as fr: a2 = fr.readlines()
with open('AA.txt', 'w') as fw:
	for n in range(len(a1)): fw.write(a1[n].strip()+a2[n][1:])
复制代码

1 评分人数

思想之翼: 学习技术 + 1

TOP

wanghan519

三级士官

Rank: 3 Rank: 3

帖子: 151
积分: 236
技术: 22
捐助: 0
注册时间: 2023-5-30

7楼

发表于 3 天前 11:20 | 只看该作者

python也没有很方便

from itertools import combinations
with open('a.txt', 'r') as f:
    a = f.readlines()
for i in combinations(range(len(a[0].strip())), 4):
    n = ''.join([a[0][j] for j in i])
    with open(n + '.txt', 'w') as f:
        f.writelines(map(lambda x: ''.join([x[j] for j in i]) + '\n', a))
复制代码

拼回来

import os
import re
a = {}
for i in os.listdir('.'):
    if re.match(r'\d+\.txt', i):
        with open(i, 'r') as f:
            t = f.readlines()
            for j in range(len(t[0].strip())):
                if i[j] in a:
                    continue
                a[i[j]] = list(map(lambda x: x[j], t))
k = sorted([i for i in a.keys()])
with open('b.txt', 'w') as f:
    f.writelines(map(lambda y:''.join(y) + '\n', zip(*map(lambda x:a[x], k))))
复制代码

1 评分人数

思想之翼: 学习技术 + 1

TOP

xczxczxcz

中尉

Rank: 5 Rank: 5

帖子: 715
积分: 970
技术: 85
捐助: 0
注册时间: 2012-9-14

6楼

发表于 4 天前 18:19 | 只看该作者

修复第25行下标不正确(越界)

QQ: 458609586
脚本优先 [PowerShell win10]

TOP

xczxczxcz

中尉

Rank: 5 Rank: 5

帖子: 715
积分: 970
技术: 85
捐助: 0
注册时间: 2012-9-14

5楼

发表于 4 天前 12:42 | 只看该作者

本帖最后由 xczxczxcz 于 2025-3-8 18:17 编辑

回复 4# 思想之翼

若非 hawk :
给你来个 “大的”

class CombineDigitHelper{
	[string]$directory; # a.txt; b.log;
	[string]$SplitDirectory; # 1234.txt; 1235.txt ...
	[object[]]$comb;        # 组合

	# 指定分割文本和总文本的目录
	CombineDigitHelper([string]$dir){
		if(![IO.Directory]::Exists($dir)){
			[IO.Directory]::CreateDirectory($dir);
		}
		$this.directory=$dir;
		$this.comb=@();
		$this.SplitDirectory=[IO.Path]::Combine($this.directory, "Split");
		if(![IO.Directory]::Exists($this.SplitDirectory)){
			[IO.Directory]::CreateDirectory($this.SplitDirectory);
		}
	}

	# 分割文件的组合，分割时要先运行此方法
	[void] CombDigit([string]$file, [int]$sel){
		$_f=[IO.Path]::Combine($this.directory, $file);
		$_o=[string[]](Get-Content $_f -ReadCount 0);
		$obj=1..$_o[0].Length;
		$select=[int[]]::new($sel);
		0..($sel-1)|ForEach-Object{$select[$_]=$_}

		while($true){
			$str="";
			for($i=0; $i -lt $sel; $i++){$str+=$obj[$select[$i]].ToString()}
			$this.comb+=$str;
			if($select[$sel-1] -lt $obj.length-1){$select[$sel-1]++}
			else{
				$p=$sel-1;
				while(($p -gt 0) -and ($select[$p-1] -eq $select[$p]-1)){$p--}
				if($p -eq 0) {break;}
				$select[$p-1]++;
				for($j=$p; $j -lt $sel; $j++){
					$select[$j] =$select[$j-1]+1;
				}
			}
		}
	}

	# 制作总文本并指定每行为7个字符
	[void] MakeContent([string]$file, [int]$count){
		$this.MakeContent($file, $count, 7);
	}

	# 制作总文本并指定每行为任意个字符
	[void] MakeContent([string]$file, [int]$count, [int]$tol){
		# $source=[string[]]("1234567890abcdefghijklmnopqrstuvwxyz".ToCharArray());
		$source=1..9;
		$destfile=[IO.Path]::Combine($this.directory, $file);
		[IO.File]::CreateText($destfile).Close();
		for($i=0;$i-lt$count;$i++){
			$data=Get-Random -InputObject $source -Count $tol;
			Add-Content $destfile -Value (-join($data)) -Encoding Default -Force;
		}
	}

	# 分割文本
	[void] SplitContent([string]$sourceFile){
		if($this.comb.Length -eq 0){
			Write-Host '先生成文件组合再分割' -fore red;
			return;
		}
		$a=[IO.Path]::Combine($this.directory, $sourceFile);
		$Atxt=[string[]](Get-Content $a -ReadCount 0);

		foreach($txt in $this.comb){
			$file=[IO.Path]::Combine($this.SplitDirectory, "$txt.log");
			[IO.File]::CreateText($file).Close();
			$sb=[Text.StringBuilder]::new();
			for($j=0;$j -lt $Atxt.Length; $j++){
				if($Atxt[$j] -match '^$'){continue;}
				[string]$line="";
				for($i=0; $i -lt $txt.length; $i++){
					[int]$_i=[string]$txt[$i];
					$line+=$Atxt[$j][$_i-1];
				}
				[void]$sb.Append($line+"`r`n");
			}
			Set-Content $file -Value $sb.ToString().Trim() -Enc Default -NoNewline -Force;
		}
	}

	# 合并文本
	[void] MergeToFile([string]$destFile){
		$file=[IO.Path]::Combine($this.directory, $destFile);
		$outContentArr=@();
		$logs=[IO.Directory]::GetFiles($this.SplitDirectory, "*.log");
		$max=[Collections.Generic.HashSet[object]]($logs.Foreach{(Get-Item $_).BaseName.ToCharArray()});

		foreach($log in $logs){
			$bName=[string]([IO.Path]::GetFileNameWithoutExtension($log));
			$content=[string[]](Get-Content $log -ReadCount 0);
			if($outContentArr.Count -eq 0){
				for($i=0; $i -lt $content.Length; $i++){
					$outContentArr+=,[string[]]::new($max.Count);
				}
				$max.Clear();
			}

			for($i=0;$i -lt $content.Length;$i++){
				for($a=0; $a -lt $bName.Length; $a++){
					[int]$t=[string]$bName[$a]
					if(![string]::IsNullOrEmpty($outContentArr[$i][$t-1])){continue}
					$outContentArr[$i][$t-1]=$content[$i][$a];
				}
			}
		}

		$_out=@($outContentArr.ForEach{-join($_)}) -join "`r`n";
		Set-Content $file -Value $_out -Encoding Default -NoNewline  -Force;
	}

	# 删除合并文本和分割文本及相关目录
	[void] ClearTxt([bool]$delSubDir){
		if($null -ne $this.comb){$this.comb.Clear()}
		$this.comb=$null;
		try{
			[IO.Directory]::Delete($this.SplitDirectory, $true);
			[IO.Directory]::Delete($this.directory, $delSubDir);
		}catch{}
	}
}

# 食用,不要把脚本放在制作目录中 ;实例化，换成自己的目录
$comb=[CombineDigitHelper]::new("F:\WinTemp\Temp\Combine\");
# 生成随机数创建A.txt 1000=行数 8=每行字符数，默认为7，有现存的则不执行此句
$comb.MakeContent("a.txt", 1000); # $comb.MakeContent("a.txt", 1000, 8);

# 下面的方法按需要运行
# 分割文本 4=按4个字符组合
$comb.CombDigit("a.txt", 4);
$comb.SplitContent("a.txt");
# 合并文件
$comb.MergeToFile("b.txt");
# 清除文件，会清除所有文件，注意备份
$comb.ClearTxt($false);
复制代码

1 评分人数

思想之翼: 学习技术 + 1

QQ: 458609586
脚本优先 [PowerShell win10]

TOP

思想之翼

上尉

Rank: 5 Rank: 5

帖子: 663
积分: 1326
技术: 3
捐助: 0
注册时间: 2012-7-1

4楼

发表于 5 天前 23:35 | 只看该作者

贴一个问题1的解决方案（非gawk）

@echo off
setlocal enabledelayedexpansion

rem 定义所有四元组组合
set combinations=1234 1235 1236 1237 1245 1246 1247 1256 1257 1267 1345 1346 1347 1356 1357 1367 1456 1457 1467 1567 2345 2346 2347 2356 2357 2367 2456 2457 2467 2567 3456 3457 3467 3567 4567

rem 清空现有输出文件
for %%C in (%combinations%) do if exist %%C.txt del %%C.txt

rem 逐行处理A.txt
for /f "usebackq delims=" %%L in ("A.txt") do (
    set "line=%%L"
    for %%C in (%combinations%) do (
        set "pos=%%C"
        rem 提取四个位置索引
        set /a i1=!pos:~0,1!-1
        set /a i2=!pos:~1,1!-1
        set /a i3=!pos:~2,1!-1
        set /a i4=!pos:~3,1!-1
        rem 截取字符并拼接
        for %%a in (!i1!) do set "c1=!line:~%%a,1!"
        for %%a in (!i2!) do set "c2=!line:~%%a,1!"
        for %%a in (!i3!) do set "c3=!line:~%%a,1!"
        for %%a in (!i4!) do set "c4=!line:~%%a,1!"
        echo !c1!!c2!!c3!!c4!>>%%C.txt
    )
)

endlocal
复制代码

TOP

Five66

上尉

Rank: 5 Rank: 5

帖子: 952
积分: 1354
技术: 141
捐助: 0
注册时间: 2021-8-26

3楼

发表于 6 天前 23:48 | 只看该作者

问题2麻烦之处在于楼主要求输出的文件没有顺序 ,在不知道原本内容情况下无法确定文件顺序(不知道怎么确认)
但是如果输出的文件是1.txt , 2.txt ,3.txt ,4.txt ,5.txt ,6.txt ,7.txt .... ,35.txt的话
文件名已经明确了顺序 ,7组合4的情况下 ,只需要前4个文件就行了(即1.txt , 2.txt ,3.txt ,4.txt)
取1.txt的每一行跟2.txt ,3.txt ,4.txt每一行的最后一个就是了

TOP

Five66

上尉

Rank: 5 Rank: 5

帖子: 952
积分: 1354
技术: 141
捐助: 0
注册时间: 2021-8-26

2楼

发表于 6 天前 13:11 | 只看该作者

不知行否
问题一
批处理文件中
默认换行符

gawk "function fff(a,b,c,d,e){X[x]=c;Y[y]=d;Z[z]=e;for(C[i]=Y[y];C[i]<=a-1;C[i]++){t=Z[z]\"\"B[C[i]+1];if(length(t)==b){if(u){++m;o=m%%n;print t>>D[o]\".txt\"}else{D[n++]=t;print t>t\".txt\"}}else{l=C[i]+1;x++;y++;z++;i++;fff(a,b,c,l,t)}};x--;y--;z--;i--;};BEGIN{u=0}{split($0,A,/./,B);fff(7,4,1,0,\"\");u++}" A.txt
复制代码

1 评分人数

思想之翼: 结果正确，学习了技术 + 1

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] 【已解决】如何使用gawk处理文本四元组的分割与合并

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]