[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] 批处理怎么快速把一个csv数据文件分割为10个等量的小文件?

目前有一个近300万行的CSV数据文件,直接数据处理需要大量内存,有没有速度比较快的方法,将这个data.csv(300万行)利用批处理方法,将其分割成10个(data1.csv, ...., data10.csv)个小文件。
多谢帮助

等量是啥意思?
试了一下
  1. split -n l/10 a.txt
复制代码
它分割的行数好像不同,但每个文件的大小差不多,且不会在行内打断

TOP

回复 2# wanghan519


    split 不是批处理命令吧,这个是Powershell?

TOP

回复 3# delab-1


    是下载的busybox-w32,里面有大量的linux命令
不过确实该用powershell写,是否是这个意思:
逐行写入第一个文件,一旦大小超过了总大小的十分之一,就开始逐行写入下一个文件?

TOP

本帖最后由 aloha20200628 于 2025-2-19 20:05 编辑

回复 1# delab-1

号称分割大数据文本文件的一款 ‘顶级’ 工具 》从本坛第三方下载 split.exe v2.1版(http://bcn.bathome.net/s/tool/index.html?key=split)落地即用,与目标文件 *.csv 同目录运行
批处代码如下》将目标文件 D:\test\data.csv 分成n个子文件,每个子文件大小为 300000 行,文件名如 data1.csv, data2.csv,...,dataN.csv 均存至当前目录下。
  1. @echo off &set "cF=D:\test\data.csv"
  2. for %%F in ("%cF%") do set "nF=%%~nF"&set "xF=%%~xF"
  3. split.exe -300000 "%cF%" "%nF%%xF%."
  4. for /f "tokens=1* delims=:" %%a in (
  5.    'dir /b/a-d "%nF%%xF%.a?"^|findstr /n ".*" '
  6. ) do ren "%%b" "%nF%%%a%xF%"
  7. pause&exit/b
复制代码

TOP

等量具体指啥?? 大小?? 行数?? 还是其他??

TOP

返回列表