Board logo

标题: [文本处理] 批处理怎么快速把一个csv数据文件分割为10个等量的小文件? [打印本页]

作者: delab-1    时间: 3 天前 16:03     标题: 批处理怎么快速把一个csv数据文件分割为10个等量的小文件?

目前有一个近300万行的CSV数据文件,直接数据处理需要大量内存,有没有速度比较快的方法,将这个data.csv(300万行)利用批处理方法,将其分割成10个(data1.csv, ...., data10.csv)个小文件。
多谢帮助
作者: wanghan519    时间: 3 天前 16:54

等量是啥意思?
试了一下
  1. split -n l/10 a.txt
复制代码
它分割的行数好像不同,但每个文件的大小差不多,且不会在行内打断
作者: delab-1    时间: 3 天前 17:31

回复 2# wanghan519


    split 不是批处理命令吧,这个是Powershell?
作者: wanghan519    时间: 3 天前 18:05

回复 3# delab-1


    是下载的busybox-w32,里面有大量的linux命令
不过确实该用powershell写,是否是这个意思:
逐行写入第一个文件,一旦大小超过了总大小的十分之一,就开始逐行写入下一个文件?
作者: aloha20200628    时间: 3 天前 18:47

本帖最后由 aloha20200628 于 2025-2-19 20:05 编辑

回复 1# delab-1

号称分割大数据文本文件的一款 ‘顶级’ 工具 》从本坛第三方下载 split.exe v2.1版(http://bcn.bathome.net/s/tool/index.html?key=split)落地即用,与目标文件 *.csv 同目录运行
批处代码如下》将目标文件 D:\test\data.csv 分成n个子文件,每个子文件大小为 300000 行,文件名如 data1.csv, data2.csv,...,dataN.csv 均存至当前目录下。
  1. @echo off &set "cF=D:\test\data.csv"
  2. for %%F in ("%cF%") do set "nF=%%~nF"&set "xF=%%~xF"
  3. split.exe -300000 "%cF%" "%nF%%xF%."
  4. for /f "tokens=1* delims=:" %%a in (
  5.    'dir /b/a-d "%nF%%xF%.a?"^|findstr /n ".*" '
  6. ) do ren "%%b" "%nF%%%a%xF%"
  7. pause&exit/b
复制代码

作者: Five66    时间: 3 天前 21:42

等量具体指啥?? 大小?? 行数?? 还是其他??




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2