[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[原创代码] [Perl]在线查询英汉对译 V1.66 支持中文/剪切板取词

本帖最后由 523066680 于 2015-6-14 21:34 编辑

测试环境:WIN XP or WIN7 32/64 , Perl v5.16 (ActiveState)

代码保存为UTF8编码格式,查询dict.cn网站的翻译结果
(一直想要一个终端版的翻译工具,挂着其他翻译工具或者开浏览器总感觉耗内存)

V1.3 更新内容
支持剪切板获取,同时可以在终端进行输入(在输入单个字符后自动切换到<STDIN>,节约循环开销)
按 / 或者 ESC 或者 输入exit 退出

V1.60 更新内容
添加了中文输入的判断处理(毕竟Term::ReadKey是逐字节读取,不过还好,Read两个字节后转<STDIN>小事化无)
如果Ctrl+C中文文本,需要确保系统默认输入法为中文,否则可能提取为乱码

V1.65 增加剪切板访问开关(按Tab键切换),修正部分文字、符号判断的BUG

  1. =info
  2.     Code by : 523066680@163.com
  3.        Date : 2015-06-14
  4.     Version : 1.66
  5.     按 Tab 键切换剪切板访问开关
  6.     键入 quit/exit 或者 按 ESC 退出
  7. =cut
  8. use            v5.16;    # given
  9. use             utf8;
  10. use           Encode;
  11. use       IO::Handle;
  12. use      LWP::Simple;
  13. use    Term::ReadKey;
  14. use Win32::Clipboard;
  15. use Time::HiRes 'sleep';
  16. ReadMode 4;              #Turn off controls keys
  17. system("");
  18. STDOUT->autoflush(1);
  19. binmode(STDOUT, ":encoding(gbk)");
  20. our $clip = Win32::Clipboard->new();
  21. our $main = "http:\/\/dict.cn";
  22. our $Clip_Access = 1;
  23. my $text;
  24. my $word;
  25. my $key;
  26. my $i = 0;
  27. $clip->Empty();
  28. notice();
  29. MAIN: while (1)
  30. {
  31.     clipboardEvent() if ( $Clip_Access == 1 );
  32.     keyboardEvent();
  33.     print $i == 0 ? "_\b" : " \b";
  34.     $i = 1 - $i;
  35.     sleep 0.2;
  36. }
  37. sub keyboardEvent
  38. {
  39.     my  $word;
  40.     $word = ReadKey(-1);
  41.     given ($word)
  42.     {
  43.         when ( /\r/   ) { break; }        # ReadKey状态下按 Enter = \r
  44.         when ( /\e/   ) { exit ; }        # 按 ESC 退出
  45.         when ( /\t/   ) { switch_CA(); }
  46.         when ( /.{1}/ ) { readContinue($word); }
  47.     }
  48. }
  49. sub switch_CA
  50. {
  51.     our $Clip_Access;
  52.     $Clip_Access = 1 - $Clip_Access;
  53.     notice();
  54. }
  55. sub readContinue
  56. {
  57.     my $word = shift;
  58.     my $LANG;
  59.     if ( ord($word) > 128 )                        #非ANSII即GBK
  60.     {
  61.         $word .= ReadKey(-1);                      #读入后半字节
  62.         if ( $word =~ /^[\xA1-\xA9]/ ) { break; }  #GBK 符号区域
  63.         $LANG = "CHN";
  64.     }
  65.     else
  66.     {   
  67.         if ( $word =~ /[^a-zA-Z]/    ) { break; }
  68.         $LANG = "ENG";
  69.     }
  70.     print " ", decode('gbk', $word);               #首字符输出
  71.     $word .= <STDIN>;
  72.     chomp      $word;
  73.     $word    = decode('gbk', $word);
  74.     if ( $word =~ /^(quit|exit)$/i   ) { exit;  }
  75.     trans($word, $LANG);
  76. }
  77. sub clipboardEvent
  78. {
  79.     our $clip;
  80.     my $text;
  81.     $text = $clip->GetText();
  82.     $text = decode('gbk', $text);
  83.     if ( $text =~ /\p{IsWord}/ )
  84.     {
  85.         #if ($text =~/\W/) { return; }
  86.         #最多匹配3个词
  87.         unless ( $text =~ /^( ?\p{IsWord}+ ?){1,3}$/ )
  88.         {
  89.             return;
  90.         }
  91.         print " $text {Clipboard}\n";
  92.         given ($text)
  93.         {
  94.             when (/\p{han}/) { trans($text, "CHN"); }
  95.             when (/[\w ]+/)  { trans($text, "ENG"); }
  96.         }
  97.         $clip->Empty();
  98.     }
  99. }
  100. sub trans
  101. {
  102.     our $main;
  103.     my  $word = shift;
  104.     my  $type = shift;
  105.     my  $all;
  106.     my  $chk  = 0;
  107.     $word = encode('utf8', $word);
  108.     $all  = get("$main/$word") or warn "$!";
  109.     $chk =
  110.         $type eq 'CHN' ?
  111.             Chn2Eng(\$all) : Eng2Chn(\$all);
  112.     if ($chk == 0)
  113.     {
  114.         print "找不到该单词的翻译信息。\n";
  115.     }
  116.     print "\n";
  117.     notice();
  118. }
  119. sub notice {
  120.     our $enable;
  121.     state $tip =
  122.     {
  123.         0 => "关",
  124.         1 => "开",
  125.     };
  126.     print "\b \b"x80;
  127.     print "(剪切板访问:". $tip->{ $Clip_Access };
  128.     print ") 请输入单词:";
  129. }
  130. sub Chn2Eng
  131. {
  132.     my $ref = shift;
  133.     my $start;
  134.     my $chk = 0;
  135.     for (split("\n", ${$ref}))
  136.     {
  137.         if ( /<div class="layout cn">/i ) { $start = 1; }
  138.         if ( $start == 1 )
  139.         {
  140.             if ( /<li><a href.*>(.*)<\/a><\/li>/i )
  141.             {
  142.                 print $1,"\n";
  143.                 $chk++;
  144.             }
  145.             elsif ( /<\/div>/i )
  146.             {
  147.                 last;
  148.             }
  149.         }
  150.     }
  151.     return $chk;
  152. }
  153. sub Eng2Chn
  154. {
  155.     my $ref = shift;
  156.     my $chk = 0;
  157.     for (split("\n", ${$ref}))
  158.     {
  159.         if (/<li><span>(.*)<\/span>
  160.              <strong>(.*)<\/strong>
  161.             /ix
  162.         ) {
  163.             print $1, $2,"\n";
  164.             $chk++;
  165.         }
  166.     }
  167.     return $chk;
  168. }
复制代码
1

评分人数

回复 16# aa77dd@163.com


      虽然有其他明文资源,不过本着蛋疼的心态还是把有道的离线字典拆解完了
另外下载了dict.cn的桌面版,发现整体体验不错啊!占用内存仅19MB 但是刚打开的时候不知道是什么导致的莫名的卡。

TOP

本帖最后由 aa77dd@163.com 于 2015-6-19 11:43 编辑

回复 14# 523066680

不知道这些地方能不能找到些资源

http://www.pdawiki.com/forum/thread-10267-1-1.html

http://www.lingoes.cn/zh/dictionary/dict_format.php

http://www.octopus-studio.com/download.cn.htm

http://www.pdawiki.com/forum/forum.php

TOP

下了一个旧软件的离线字典,找到了idx文件和lib文件的对照规律
然后发现做了简单的“加密”,还好不是很复杂的,仅仅是对每个字节的值做了偏移

TOP

本帖最后由 523066680 于 2015-6-18 09:40 编辑

回复 12# aa77dd@163.com


兄弟有没有明文的离线字典?前几天下了有道的和金山的离线包,
靠,看不懂=_= 不知道他们的数据封装格式。有道的英汉字典有3个字典文件,一个idx索引文件

补充1:找到一个云词的离线字典资源挺充足,图片声音都可以分开下,db3文件,待会找个数据库软件打开试试
http://www.remword.cn/portal.php?mod=topic&topicid=7

TOP

回复 12# aa77dd@163.com


       下一步是找个离线字典并想办法读出来

TOP

回复 10# 523066680

感觉翻译软件通常都会用 tooltip 的形式即时显示翻译结果, 不知 Perl 来实现这个会不会搞得太大, 太大就不好了.

TOP

回复 11# 523066680

音频和纯文本的翻译内容比起来, 相对就超大了, 文本内容出来时不用等音频到位吧, 不然可能会被音频下载速度拖得卡住吧

考虑了本地音频库, 显然音频库也会占用较庞大的磁盘空间, 而且从加载速度考虑可能需要数据索引, 更麻烦了

TOP

本帖最后由 523066680 于 2015-6-14 12:56 编辑

回复 8# aa77dd@163.com


      话说跟正宗的软件不能比,各种细节。
只是多一个选择。本来是打算做成终端调用,偶尔用一下的,比如
>trans.pl abc

音频地址也找到了 : )

TOP

本帖最后由 523066680 于 2015-6-14 10:48 编辑

回复 8# aa77dd@163.com

    看来这个lingoes工具还好啊,以前用金山词霸感觉占用好高。
后来bing好像也用的不太流畅感觉。至于浏览器就呵呵…… 分分钟上百MB
30MB左右也不小了,我这里任务管理器观察的是7MB-13MB


刚刚探索了一下匹配一到三个词汇的,
unless ($text =~ /^( ?\p{IsWord}+ ?){1,3}$/) { return; }

TOP

做了个简单的测试对比

[Perl]在线查询dict.cn英汉对译 V1.6 VS Lingoes 2.9.2 Home - 绿色便捷版

对比内容: 内存占用
以下 7 次 输出按先后顺序分别是 刚启动程序, 对剪贴板取词翻译 1次, 2次, ...6次 的内存占用
单词依次为: clip, text, decode, class, strong, print
  1. (tasklist | findstr "perl.exe") & (tasklist | findstr "Lingoes.exe")
  2. perl.exe                      4216 Console                    1     19,248 K
  3. Lingoes.exe                   7660 Console                    1     30,476 K
  4. (tasklist | findstr "perl.exe") & (tasklist | findstr "Lingoes.exe")
  5. perl.exe                      4216 Console                    1     28,948 K
  6. Lingoes.exe                   7660 Console                    1     50,268 K
  7. (tasklist | findstr "perl.exe") & (tasklist | findstr "Lingoes.exe")
  8. perl.exe                      4216 Console                    1     29,392 K
  9. Lingoes.exe                   7660 Console                    1     50,592 K
  10. (tasklist | findstr "perl.exe") & (tasklist | findstr "Lingoes.exe")
  11. perl.exe                      4216 Console                    1     29,392 K
  12. Lingoes.exe                   7660 Console                    1     50,920 K
  13. (tasklist | findstr "perl.exe") & (tasklist | findstr "Lingoes.exe")
  14. perl.exe                      4216 Console                    1     29,680 K
  15. Lingoes.exe                   7660 Console                    1     51,900 K
  16. (tasklist | findstr "perl.exe") & (tasklist | findstr "Lingoes.exe")
  17. perl.exe                      4216 Console                    1     29,668 K
  18. Lingoes.exe                   7660 Console                    1     52,056 K
  19. (tasklist | findstr "perl.exe") & (tasklist | findstr "Lingoes.exe")
  20. perl.exe                      4216 Console                    1     29,768 K
  21. Lingoes.exe                   7660 Console                    1     52,484 K
复制代码

TOP

回复 6# 523066680

ha ha  那就私人定制了

我改成了:
  1. if ($text !~ /^\s*[a-z]+\s*$|^\s*[a-z]+\s*[a-z]+\s*$|^\s*[a-z]+\s*[a-z]+\s*[a-z]+\s*$/i) { return; }
复制代码
可以最多支持包含三个单词的短语, 单词前后有空白字符都不会被拒绝翻译了

TOP

本帖最后由 523066680 于 2015-6-14 09:04 编辑

回复 5# aa77dd@163.com


    if ( $text =~ /\p{IsWord}/ )
    {
        if ($text =~/\W/) { return; }  #空格或者其他符号类字符的情况被排除掉是因为这句

\w  匹配任何“字”字符(字母数字加"_" )。
\W 匹配任何“非字”字符。
用#注释掉就可以了,也可以自己定制一下

TOP

本帖最后由 aa77dd@163.com 于 2015-6-14 08:42 编辑

回复 4# 523066680

NICE!

我在找怎么能支持 长了空白尾巴的单词, 比如 "word ",  "hello ", "perl "

我有个习惯: 在浏览器(也包括 windows 记事本)里一段英文句子里某个单词上双击, 但选词结果就经常包括了后面的空白字符, 比如有 空格, TAB 字符, 等

我想应该是修改这行的正则表达式:
  1. if ( $text =~ /\p{IsWord}/ )
复制代码

TOP

回复 2# aa77dd@163.com


      已添加剪切板读取功能,只在剪切版内容为单词、短语的时候尝试翻译
同时支持终端输入

TOP

返回列表