[已解决]批处理有没有办法统计出多页PDF的页数呢？

001011 · 发表于 2015-9-16 11:15:05

有很多PDF,都是多页的（也就是说一个pdf文件里面含有多张图）。有没有办法统计出N个PDF的所有页数呢？
比如：有01.PDF（含5张图）、02.PDF（含22张图）、03.PDF（含38张图）都放到 E:\统计里面
然后统计出：有三个PDF共含65张图
谢谢

pcl_test · 发表于 2015-9-16 16:04:00

利用网上所说的标识统计法
保存为批处理文件，跟pdf文件放在一起运行

@echo off 2>nul 3>nul
::需要安装.Net Framework 2.0及以上
::指定父文件夹
set "fd=E:\统计"
if not exist "%fd%" echo;路径有误&pause&exit
set "netpath=%systemroot%\Microsoft.NET\Framework"
for /f "delims=" %%a in ('dir /ad /b "%netpath%\v?.*"') do (
if exist "%netpath%\%%a\csc.exe" (
set "cscpath=%netpath%\%%a\csc.exe"
goto :0
)
)
echo;未安装.Net Framework 2.0及以上组件或相关程序丢失&pause&exit
:0
>"%tmp%\$" more +20 "%~f0"
"%cscpath%" /out:"%tmp%\$getpages.exe" "%tmp%\$"
echo;正在统计，稍后……
::输出到txt文件，下句修改为 >"文本.txt" "%tmp%\$getpages.exe" "%fd%"
"%tmp%\$getpages.exe" "%fd%"
pause&exit
using System;
using System.IO;
using System.Text.RegularExpressions;
namespace GetPages
{
class PDFPageCount
{
static void Main(string[] args)
{
int i=0,s=0;
String path = args[0].ToString();
String[] files = Directory.GetFiles(path, "*.pdf", SearchOption.AllDirectories);
foreach (string file in files)
{
FileStream fs = new FileStream(file, FileMode.Open, FileAccess.Read);
StreamReader sr = new StreamReader(fs);
string pdfText = sr.ReadToEnd();
Regex regexp = new Regex(@"/Type\s*/Page[^s]");
MatchCollection matches = regexp.Matches(pdfText);
i++;
s+=matches.Count;
Console.WriteLine(file+"\t"+matches.Count);
}
Console.WriteLine("----------------------\r\n"+i+" Files\t"+s+" Pages");
}
}
}

复制代码

001011 · 发表于 2015-9-16 16:42:40

不知道能不能加一个路径上去这样可以统计一个文件夹下的所有PDF文件谢谢

pcl_test · 发表于 2015-9-16 17:04:46

回复 3# 001011

每个文件夹单独统计？还是所有文件夹一起统计？

001011 · 发表于 2015-9-16 17:10:42

所有文件夹一起统计谢谢

CrLf · 发表于 2015-9-16 17:30:18

回复 2# pcl_test

这样都可以！！！卧槽！！！卧槽！！！！！

pcl_test · 发表于 2015-9-16 17:38:37

回复 5# 001011

已修改

CrLf · 发表于 2015-9-16 17:44:57

研究了一下，原来 pdf 是基于 postscript，那也可以用 grep、findstr 之类的工具实现

复制代码

然后将结果减一即可

不过我好奇的是，严格来讲，如果 pdf 里包含 Type/Page 会怎样呢？

001011 · 发表于 2015-9-16 18:05:12

我貌似遇到高人了啊
连巡查都卧槽！！！卧槽！！！！！
呵呵
非常感谢高人啊

001011 · 发表于 2015-9-16 18:07:58

只是执行效率有点低 257个PDF 快三分钟了还没有执行完
我准备把10多万个的PDF 全部统计一遍呢

001011 · 发表于 2015-9-16 18:19:03

貌似是识别完了没有提示

回家路上 · 发表于 2015-9-16 18:25:10

是啊，PDF没有自带个页数的属性呢，这样通过文本正则解析提取，如果pdf大的话，确实费时。
但能提取就已经是惊喜了。

001011 · 发表于 2015-9-16 18:29:44

呵呵也是啊

a6236130 · 发表于 2019-8-9 11:18:32

为什么没有文本.txt生成出来？我都找过了

		自动登录	找回密码
密码			注册

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文件操作] [已解决]批处理有没有办法统计出多页PDF的页数呢？