[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖
无聊 写了个 PS 跑了下, 50秒
QQ: 己阵亡
脚本优先 [PowerShell win10]

TOP

回复 31# xczxczxcz
老师好!
PS又是什么?
恳请老师详解,谢谢!

TOP

一分钟不到解决,真乃高手也!

TOP

我用纯批写了一个,且未去重,测试目录用了22分钟,一直未好意思发。

TOP

gnu命令: sed sort
  1. @echo off
  2. setlocal ENABLEDELAYEDEXPANSION
  3. set path=%pathgnu%;%path%
  4. echo %path%
  5. set sour=新建文件夹
  6. set dest=bbb1
  7. set exclude=QQ
  8. del /q "%dest%\*.*"
  9. echo %~nx0 %time% 1 >>time.txt
  10. for /f "usebackq tokens=* delims=" %%a in (`dir /s /b "%sour%\*.txt"`) do (
  11.     echo "%%~fa"
  12.     type "%%~fa" | sed -r -e "/\S+\s+\S+\s+\S+/^!d" -e "/%exclude%/d" -e "s/SZ/1/" -e "s/SH/0/" -e "s/\s+/^|/g"  >> "%dest%\%%~na.tmp"
  13. )
  14. echo,
  15. echo %~nx0 %time% 2 >>time.txt
  16. echo,
  17. for /f "usebackq tokens=* delims=" %%a in (`dir /s /b "%dest%\*.tmp"`) do (
  18.     echo "%%~fa"
  19.     type "%%~fa" | sort.exe -u >>"%%~dpna.txt"
  20. )
  21. echo %~nx0 %time% 3 >>time.txt
  22. echo,
  23. del %dest%\*.tmp
复制代码
1

评分人数

    • PCL0769: 谢谢老师出手帮助!高技术!高人品!技术 + 1

TOP

gnu 命令 sed awk
  1. @echo off
  2. setlocal ENABLEDELAYEDEXPANSION
  3. set path=%pathgnu%;%path%
  4. echo %path%
  5. set sour=新建文件夹
  6. set dest=bbb2
  7. set exclude=QQ
  8. del /q "%dest%\*.*"
  9. echo %~nx0 %time% 1 >>time.txt
  10. for /f "usebackq tokens=* delims=" %%a in (`dir /s /b "%sour%\*.txt"`) do (
  11.     echo "%%~fa"
  12.     type "%%~fa" | sed -r -e "/\S+\s+\S+\s+\S+/^!d" -e "/%exclude%/d" -e "s/SZ/1/" -e "s/SH/0/" -e "s/\s+/^|/g"  >> "%dest%\%%~na.tmp"
  13. )
  14. echo,
  15. echo %~nx0 %time% 2 >>time.txt
  16. echo,
  17. for /f "usebackq tokens=* delims=" %%a in (`dir /s /b "%dest%\*.tmp"`) do (
  18.     echo "%%~fa"
  19.     type "%%~fa" | awk " { arr[$0]++ ; if ( arr[$0] == 1 ) { print $0 } } "  >>"%%~dpna.txt"
  20. )
  21. echo %~nx0 %time% 3 >>time.txt
  22. echo,
  23. del %dest%\*.tmp
复制代码
1

评分人数

    • PCL0769: 谢谢老师出手帮助!高技术!高人品!技术 + 1

TOP

效率 比较
sed + sort
1.bat 16:01:09.17 1
1.bat 16:02:06.45 2
1.bat 16:02:21.43 3
sed + awk
2.bat 16:03:13.41 1
2.bat 16:04:11.68 2
2.bat 16:04:26.42 3

两种办法 效率相同,但是 ps 就差很多了。

TOP

速度够快。

TOP

回复 21# newswan


    可以试试net静态类,这里只把读写改了就快了很多,如果把替换部分也改了应该还能再加速
  1. Get-ChildItem -path $sour *.txt -Recurse | foreach-object {
  2.     $_.fullname
  3.     $b=( [IO.File]::ReadAllLines($_.fullname) ) -match "\w+\s+\w+\s+[-]?\w+" -notmatch $exclude -replace "SZ","1" -replace "SH","0" -replace "\s+","|"
  4.     $a=$dest,$_.name -join '\'
  5.     [IO.File]::WriteAllLines($a,$b)
  6. }
复制代码

TOP

本帖最后由 newswan 于 2021-10-5 21:07 编辑

回复 39# idwma


谢谢指点
net 没学过。。。
合并效率一样了,去重,还是很慢
  1. $sour = "D:\share\tech\New folder\新建文件夹"
  2. $dest = "D:\share\tech\New folder\ccc2"
  3. $exclude = "QQ"
  4. Remove-Item $dest\*.*
  5. ( $MyInvocation.MyCommand.Name + "  1  " + (get-date -Format "HH:mm:ss.ff").tostring() ) | out-file -Encoding ascii -append time.txt
  6. Get-ChildItem -path $sour *.txt -Recurse | foreach-object {
  7.     $_.fullname
  8.     $filename = Join-Path -path $dest -ChildPath ($_.basename + ".tmp")
  9.     $a=( [IO.File]::ReadAllLines($_.fullname) )
  10.     $a = $a -match "\S+\s+\S+\s+\S+" -notmatch $exclude -replace "SZ","1" -replace "SH","0" -replace "\s+","|"
  11.     [IO.File]::AppendAllLines([string]$filename , [string[]]$a)
  12. }
  13. ( $MyInvocation.MyCommand.Name + "  2  " + (get-date -Format "HH:mm:ss.ff").tostring() ) | out-file -Encoding ascii -append time.txt
  14. Get-ChildItem -path $dest *.tmp | foreach-object {
  15.     $_.fullname
  16.     $filename = Join-Path -path $dest -ChildPath ($_.basename + ".txt")
  17.     $ht = @{}
  18.     $a = ( [IO.File]::ReadAllLines($_.fullname) )
  19.     $a = $a | foreach-object {
  20.         if ( -not ( $ht.ContainsKey($_) ) )
  21.         {
  22.             $_
  23.             $ht.add($_,"1")
  24.         }
  25.     }
  26.     $a | out-file -Encoding utf8 $filename
  27. }
  28. ( $MyInvocation.MyCommand.Name + "  3  " + (get-date -Format "HH:mm:ss.ff").tostring() ) | out-file -Encoding ascii -append time.txt
复制代码
1

评分人数

    • PCL0769: 谢谢老师出手帮助!高技术!高人品!技术 + 1

TOP

回复 31# xczxczxcz
老师好!能将这个PS发出来吗?谢谢!

TOP

本帖最后由 idwma 于 2021-10-6 16:17 编辑

回复 40# newswan

去重的部分抄前辈的试试看快不快http://www.bathome.net/thread-25194-2-1.html
  1. Get-ChildItem -path $dest *.tmp | foreach-object {
  2.     $reader = New-Object -TypeName System.IO.StreamReader -ArgumentList $_.fullname
  3.     $aa=New-Object System.Collections.Generic.HashSet[string]
  4.     $_.fullname
  5.     $filename = Join-Path -path $dest -ChildPath ($_.basename + ".txt")
  6.     while ( $read = $reader.ReadLine() ) {
  7.         out-null -InputObject $aa.add($read)
  8.     }
  9.     [IO.File]::WriteAllLines($filename,$aa)
  10. }
复制代码
2

评分人数

    • PCL0769: 谢谢老师出手帮助!高技术!高人品!技术 + 1
    • newswan: 谢谢技术 + 1

TOP

回复 42# idwma


谢谢,这个用时是 unix 工具的 6 倍,比前面的要好多了

TOP

一段时间不用,很多都不熟悉了啊

TOP

可以尝试下多线程,线程数越多越快,取决你的cpu
数据处理函数可以自行优化
  1. #&cls&cd /d "%~dp0" & @powershell -c "Get-Content '%~0' | Select-Object -Skip 1 | Out-String | Invoke-Expression" & pause&exit
  2. cls
  3. $t1 = Get-Date
  4. $src_dir = '新建文件夹'
  5. $dst_dir = 'out'
  6. [void][System.IO.Directory]::CreateDirectory($dst_dir)
  7. #线程函数 处理数据
  8. $HandleGroupJob = {
  9.     #线程参数
  10.     param($dst_dir,$groupInfo)
  11.     Write-Host $groupInfo.Name
  12.     #汇总去重并筛选
  13. $set = New-Object 'System.Collections.Generic.HashSet[string]'
  14.     & { $groupInfo.Group | foreach { [IO.File]::ReadAllLines($_.FullName)} } | foreach {
  15. if($_ -match '\S+\s+\d+\s+-?\d{2,}'){
  16. [void]$set.Add(($_ -replace 'SH','1|' -replace 'SZ','0|' -replace '\s+','|'))
  17. }
  18. }
  19.     #输出
  20.     Out-File -InputObject $set -FilePath ('{0}\{1}' -f $dst_dir,$groupInfo.Name)
  21. $set = $null
  22.     return ($groupInfo.Name + ' 已完成')
  23. }
  24. #多线程设置
  25. $pool = [runspacefactory]::CreateRunspacePool(1,10) #最多10个线程并发
  26. $pool.Open()
  27. $threads = New-Object 'System.Collections.ArrayList'
  28. $results = New-Object 'System.Collections.ArrayList'
  29. '开始创建线程...'
  30. Get-ChildItem -Recurse -Path $src_dir -Filter '*.txt' | Group-Object {$_.Name} | foreach {
  31.     $_.Name
  32.     $thread = [powershell]::Create()
  33.     $thread.RunspacePool = $pool
  34.     [void]$thread.AddScript($HandleGroupJob)
  35.     [void]$thread.AddArgument($dst_dir)
  36.     [void]$thread.AddArgument($_)
  37.     [void]$threads.Add($thread)
  38.     [void]$results.Add($thread.BeginInvoke())
  39. }
  40. '-------------------------------'
  41. '等待线程结束'
  42. while($true){
  43.     $all_done = $true
  44.     for($i = 0; $i -lt $results.Count; $i++){
  45.         if($results[$i] -ne $null){
  46.             if($results[$i].IsCompleted){
  47.                 $threads[$i].EndInvoke($results[$i])
  48. $threads[$i].Dispose()
  49. $threads[$i] = $null
  50.                 $results[$i] = $null
  51. [System.GC]::Collect()
  52.             } else {
  53.                 $all_done = $false
  54.             }
  55.         }
  56.     }
  57.     if($all_done){ break }
  58.     Start-Sleep -Milliseconds 500
  59. }
  60. #关闭线程池
  61. $pool.Close()
  62. '-------------------'
  63. '{0}  -> {1}' -f $t1,(Get-Date)
复制代码

TOP

返回列表