- 帖子
- 826
- 积分
- 1629
- 技术
- 54
- 捐助
- 20
- 注册时间
- 2008-11-3
|
[已解决] sed处理文本后出现乱码
本帖最后由 hlzj88 于 2021-9-17 08:58 编辑
已解决,版主可以删帖。
缘由,一段网页文本,标点符号全有,就是没有<br>换行,得到的文本也是一段文字。
所以用sed -i “s/。/。<br>\n/g” file来进行强制换行和减小每行长度,出现部分乱码
特点文本如下
那根棍子粗细合适不闲小,我情不自禁的舞了起来。
他的比我的还小,你的是我们中间最大的,今天我才知道是哥哥让着我的。
不过看在小云年龄还小,又不在妈妈身边。
就是啊!你还和我们计较什么。
出现 以 小, 啊!为特点的句子,都会出现乱码,导致后文不能阅读。
文本格式 ansi win7 sed版本4.7。
求助各位大佬,如何处理,可以避免乱码情况。
在单位win xp 下依据乱码。
更换sed 为4.8 处理正常。 可惜不能删帖, |
|