找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
查看: 26343|回复: 6

[文本处理] 用批处理能分析文本文件中自然词汇出现的频率吗?

[复制链接]
发表于 2011-10-3 11:18:58 | 显示全部楼层 |阅读模式
本帖最后由 conglin58 于 2011-10-4 00:36 编辑

能分析文本文件中自然词汇出现的频率,然后按自然词汇出现的频率限制字数输出,用批处理不知道有办法实现吗???

2楼的兄弟没看懂啥意思!就把我完整的想法说说,因为硬盘里下载了很多rar的文件,一直都没好好做个分类,现在想要整理,在论坛里或百度找了大半天只找到一个按文件格式自动分类的批处理,不适合!

仔细看发现硬盘里这些rar文件的文件名五花八门的,连最基本的分类完全没头绪!靠手工整理的话实在有点力不从心!去天空下载站参照他们站的分类来整理也觉得不行!不太适合自己用!

目前我把所有的rar文件都复制集中到一个文件夹内,然后希望利用批处理或vbs的强大完成以下:
1.自动读取文件夹目录并生成文件列表file.txt
2.统计出file.txt文件列表内的词汇按出现最高频率的提取关键词并创建分类文件夹,限制字数4-8个字以内
3.按创建的分类文件夹名称自动整理所有的rar文件

第二步简单点说就是像很多新版的pw或dz论坛发帖时能自动提取文章关键词的那功能,希望版主或程序高手能帮忙!
发表于 2011-10-3 13:45:07 | 显示全部楼层
本帖最后由 BAT1 于 2011-10-3 13:46 编辑

估计要先做一个词汇表,用来确定哪字放在一起时判断为词汇。
至于“限制输出” 这是什么意思?
发表于 2011-10-3 18:17:25 | 显示全部楼层
呵呵,其实我连题目都没有看懂
 楼主| 发表于 2011-10-4 00:37:52 | 显示全部楼层
重新编辑了一下帖子!现在应该不会看不懂了吧!
发表于 2011-10-4 21:21:04 | 显示全部楼层
假如有一 rar 文件名为:abc123ef.rar
你所说的词汇是指:abc123ef 还是 abc、123、ef ?
另外那个“限制字数4-8个以内”还是不明白什么意思。
总的来说你的第二条完全不懂啥意思,不懂的意思就是说看你的表达,即使手工操作都不知道如何完成。
发表于 2011-10-4 22:35:35 | 显示全部楼层
本帖最后由 cjiabing 于 2011-10-4 22:39 编辑

渴望计算机能代替人处理事务,自动整理文件,一个美丽的梦——人工智能。就像你说的词频,这个东西不好统计:
第一,需要比较合适的计算机语言;
第二编程设计方法要最佳,效率高;
第三,主机要足够强大,否则,统计词频是件吃力不讨好的事情。那些海量的数据库容易导致死机。
梦想很美,但路很远。

从个人而言,或从批处理可以做的来说,可以设计一个主程序,第一、可以自动搜索(find)并归类文件(move),这个不难。第二,但在关键词或词频方面,需要自己设计。这样,批处理处理前面这个问题并不难,很简单,至于自己设计的这个词频表,就要自己下功夫了,因为计算机没有思想,不懂得风牛马之间有什么关系,当然不懂得如何区分它们。从批处理方面来说,假如你事先制作好一个指导性的词频表,然后让计算机按照词频表来自己操作,这个就显得很简单了。当然,这个词语分类的东西你可以从网上找,但不大容易哦。
发表于 2011-10-4 22:49:41 | 显示全部楼层
这不是某个语言或者脚本是否足够强大,而是需要你去研究算法。

看看这个帖子吧:
http://bbs.bathome.net/thread-9296-1-1.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-18 03:06 , Processed in 0.017951 second(s), 8 queries , File On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表