Board logo

标题: [文本处理] 判断每行半角逗号左右的词有没有重复的,只保留一个,再合并行 [打印本页]

作者: ourpage    时间: 2020-12-27 14:10     标题: 判断每行半角逗号左右的词有没有重复的,只保留一个,再合并行

本帖最后由 ourpage 于 2020-12-27 14:53 编辑

一个文本文件里面有多行文本,格式是utf8。

比如:
批评,数落,批判
谴责,声讨,责备,批评,埋怨,责怪,批判,抱怨
僻静,偏僻,静谧,宁静,幽静,肃静,安静,寂静,沉寂,沉静
兴致勃勃,兴趣盎然,兴高采烈,津津有味,津津乐道,饶有兴趣
更多行...

第一行和第二行批评、批判这两个词是重复的,删除第一行的批评和批判,再把第一行的其他词合并到第二行,如果有多行,依次处理。
结果需要没有重复词,就是一个词只出现一次,最后按每行逗号前的第一个词的字数长短排序,字数多的排在前面。

结果:
兴致勃勃,兴趣盎然,兴高采烈,津津有味,津津乐道,饶有兴趣
谴责,声讨,责备,批评,埋怨,责怪,批判,抱怨,数落
僻静,偏僻,静谧,宁静,幽静,肃静,安静,寂静,沉寂,沉静
更多行...

麻烦高手帮忙看看,谢谢。
作者: Batcher    时间: 2020-12-28 09:36

此帖仅作者可见
作者: ourpage    时间: 2020-12-29 09:07

此帖仅作者可见
作者: Batcher    时间: 2020-12-29 14:18

此帖仅作者可见
作者: terse    时间: 2020-12-29 19:51

此帖仅作者可见




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2