Board logo

标题: [文本处理] [已解决]提取文本指定内容出现乱码如何解决? [打印本页]

作者: hlzj88    时间: 2016-3-20 08:28     标题: [已解决]提取文本指定内容出现乱码如何解决?

本帖最后由 pcl_test 于 2016-3-20 14:12 编辑

实例:新建的文本,粘贴的汉字内容,然后提取关键字,结果里有部分乱码。win7
  1. type 大秦帝国1.txt | find /i "第" | find /i "节">>a.ini
复制代码
代码如上,仅如此。百思不得其姐。
先谢谢了。
如需原文,地址在下
大秦帝国1
作者: codegay    时间: 2016-3-20 08:57

本帖最后由 codegay 于 2016-3-20 09:48 编辑

python
  1. with open("大秦帝国1黑色裂变 (1).txt",encoding="cp936") as f:
  2.     ini=[r for r in f if "第"in r and "章" in r and "节" in r]
  3. with open("result.ini","w+") as f:
  4.     f.writelines(ini)
复制代码
受楼下的启发,用了str.startswith()
  1. with open("大秦帝国1黑色裂变 (1).txt",encoding="cp936") as f:
  2.     ini=[r for r in f if r.startswith("第") and "章" in r and "节" in r]
  3. with open("result.ini","w+") as f:
  4.     f.writelines(ini)
复制代码

作者: hlzj88    时间: 2016-3-20 09:17

谢谢,有没有bat的解决办法呢
作者: happy886rr    时间: 2016-3-20 09:35

本帖最后由 pcl_test 于 2016-3-20 14:12 编辑

回复 3# hlzj88
  1. findstr "^第.*章.*第.*节.*" <大秦帝国1黑色裂变.txt>2.txt
复制代码

作者: WHY    时间: 2016-3-20 10:21

  1. findstr "第..节" 大秦帝国1黑色裂变.txt>a.ini
复制代码





欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2