[问题求助] perl截取中文为何是乱码

perl截取中文为何是乱码
a.txt中是中文,我想对它进行截取,可发现截取的为奇数时乱码,该如何处理?

open var,"<a.txt";
foreach (<var>) {
	print substr($_,1);
}
复制代码

sxw

少尉

Rank: 5 Rank: 5

帖子: 339
积分: 669
技术: 25
捐助: 0
注册时间: 2009-9-20

2楼

发表于 2011-10-8 19:41 | 只看该作者

需要加载 Encode模块，不知道你的原文件是什么格式的？权当utf-8吧
仅是思路，不知道对不。

use Encode;
open var,"<a.txt";

foreach (<var>) {
       $_=encode("utf-8",$_);
        print substr(decode("gb2312",$_),1);

}
复制代码

TOP

523066680

版主

Rank: 7 Rank: 7 Rank: 7

帖子: 3151
积分: 6455
技术: 317
捐助: 70
注册时间: 2008-8-3

3楼

发表于 2015-6-3 19:26 | 只看该作者

本帖最后由 523066680 于 2015-6-3 19:32 编辑

楼主需要弄清楚文本保存的时候的各种编码格式的区别
（反正就是要跨越文字编码这道坎）

对a.txt 右键另存的时候可以看到是 ANSI 还是 UTF8 还是 UTF16LE / UTF16BE

假设终端是WINDOWS的，对应CP936编码，现在要读取并显示UTF8文本并显示，可以：

use Encode;
open READ,"<:encoding(utf8)", "a.txt";    #按utf8编码解读，变成unicode通用码
foreach (<READ>) {
    print encode('cp936', $_);            #将通用码转为CP936以对应终端编码
}
复制代码

:encoding(utf8) 这样的用法好像叫做 IO Layer，可以在perlmonks查一下

FuniCode 编程论坛

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[问题求助] perl截取中文为何是乱码

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]