|
|
楼主 |
发表于 2010-9-19 15:46:25
|
显示全部楼层
原帖由 batman 于 2010-9-19 09:26 发表 
虽然个人不太支持这个研究课题,但为楼主这种求真的精神而感动。。。
还是netbenton厉害,有空向他学习!~
这不过是每个人儿童时候的一个梦想而已,有朝一日机器人能与真正的走进我们的生活。学习批处理,让我们有了实现梦想的能力,像你说的,用批处理做这件事情就像用小刀宰牛一样——勉为其难了。
电子科技的飞速发展促进了机器人的研究,现在的机器人在模仿人类的动作和功能方面已经有十分大的进步了。人工智能中最大的挑战来自语言智能,因为语言和思维的密切关系,语言智能了机器人也就智能了。但目前看来,思维这种活动似乎是人类特有的,机器人实现起来非常困难。我们连自己做的梦都没搞清楚,机器人又如何能搞清楚人的思维呢?
人类文明之所以发展,一个原因就是人类对自然规律的不停探索,在语言智能方面亦如此。计算机说的话是计算机语言,我们说的话是自然语言,两种语言并不相同,计算机语言和自然语言如何翻译和转换正是当前研究的重点课题。这个课题又分为两大主题,一是计算机自然语言理解——计算机如何懂得我们人类说的话,一是自然语言的处理——理解之后的运用,如何让计算机自己思考并说出人类能够理解的话来,这叫做自然语言的生成。
本帖谈的中文分词属于计算机自然语言理解的基础,它的作用是将一个句子拆解成一个个独立的、可以理解的词语。计算机的理解就是将句子还原成词语,并弄清楚词语之间内在的关系。用我们前面谈到的聊天机器人来说,你给它输入一句话“你吃饭了吗?”,你叫机器人如何回答呢?学过批处理的你可能会想,先设定一个文本,把各种问题和答案预先保存好,然后用输入的话作为搜索词,搜索这个文本,把结果显示出来就OK。目前,许多客服系统,专家系统用的就是这种方式。
假如你输入“你吃饭了没有?”句子和上句有个别词出入,意思还是一样,那你的搜索词是什么了呢?假如你还是以句子来搜索,那你就得预先设置句子到文本中,但这样的结果就是这个文本将是无限的庞大——因为人说话的句子有时候句子词语长短都不一样,或许意思一样。
可能你会想到用关键词来搜索,这才是搜索的正道,但关键词哪里来呢?来自输入的句子,那输入的句子你如何让电脑知道句子中哪个是词语,哪个不是?这时,你就需要分词了——将句子拆解开来,逐个查字典,字典有的就是词语,没有的就不是,词语多吧但总比句子少,所以,这个是比较可行的。
英文的句子一般不用分词,原因是英文句子一般都要把单词用空格分开,但中文句子中的字和词都是粘到一起的,特别是古文,以前基本上没有标点符号的,区分词语完全靠人的语文经验判断。计算机要查找关键词首先要分词——用空格把句子中的词语隔开。这是中文在计算机自然语言处理方面遇到的一道坎,因为分词的准确率并非很高,速度也受到影响。
现在中文分词在许多领域都有使用,比如搜索引擎、文献检索、专家系统、智能研究等等。你使用百度搜索的时候,假如你输入一个不是词语的词语,或者一段长长的话,百度搜索不到结果,往往会提示你“你搜索的是不是*……*”这就是百度的中文分词在起作用了。
你可以使用论坛的搜索功能做试验,你试着同时搜索这三个关键词“我 爱 批处理”——之间用空格隔开,然后再搜索这句话“我爱批处理”。对比一下结果你就知道了,前面只能使用关键词来搜索,而后面使用了中文分词,自动把句子拆解成关键词。因为本论坛没有中文分词,所以搜索不到结果。
专家系统和聊天机器人也是建立在这种中文分词的基础上的,它能自动识别你的句子,自动获得关键词,自动搜索答案,自动组句回答问题……
由此可见,中文分词是未来人工智能发展的基础,它的重要性不言而喻。批处理中文分词的意义不过是做个尝试,如果不考虑效率问题也是可行的,只要你有足够的批处理知识和一定的语言学知识,假如再有好的词库和规则,用批处理实现你的梦想也是十分可能的事情……
多了解、多尝试,说不定你会成为第一个智能机器人的发明家呢,而且还是中国制造的!~ |
|