近年来,脑科学与类脑智能已经成为世界各国研究的热点。记者从近日在天津召开的“类脑智能创新论坛”上获悉,我国也即将启动“中国脑计划”。自然语言处理技术是各种“脑计划”的核心技术之一,未来“中国脑计划”的构建也离不开中文语言处理核心技术的突破。 自然语言处理已到中级阶段 “简单来说,‘自然语言处理’就是让计算机能够像人一样使用语言文字。”山东大学文学与新闻传播学院教授盛玉麒介绍。“自然语言处理的基本任务是解决人机交互中涉及的各种技术问题。”中国社会科学院语言研究所研究员李爱军告诉记者,自然语言处理包括对文本信息的处理以及对语音信息的处理。 盛玉麒将自然语言处理研究与应用分为三个阶段:初级阶段的自然语言处理主要解决语言文字的输入、输出、存储、传输、显示、打印、编辑、检索等功能;中级阶段的自然语言处理就是让机器具有一定的智能,能够自动识别自然语言指令,按照指令完成信息检索、数据提取、查询、不同语言的自动翻译等;高级阶段就是智能化处理,速度、容量和正确率都能够达到接近人的程度。 目前学界和业界已经实现初级阶段的任务,中级阶段也取得了一些关键性突破,诸如电子词典、快译通、机器翻译等,体现了相关技术的产品化。盛玉麒谈到,不过,整体来看这些技术应用的正确率还不理想,自然语言处理的中级阶段还处在攻关过程中,离高级阶段的真正智能化目标还有较远距离。 规则与统计相结合 破解自然语言处理难题 如何才能让计算机像人类一样使用语言文字?杭州师范大学钱江学者讲座教授冯志伟研究自然语言处理已50多年,他表示,“为了使现实的自然语言成为可以由计算机直接处理的对象,我们都需要建立语言的‘形式模型’,使之能以一定的数学形式,严密而规整地表示出来,建立自然语言的‘计算模型’,使之能够在计算机上实现。” 李爱军告诉记者,完成自然语言处理要克服一系列难题,比如单语分析任务中语言的歧义性,远距离相关性,动态性,随意性以及多语任务中的语序差异性,语义集合的差异性,表达习惯差异性等。 就汉语而言,在歧义性方面,汉语的词形变化较少,语义的确定更多地依赖上下文及场景关系;而在随意性方面,汉语的语法结构更为灵活多变。“由于汉语的语言特征,学界在中文自然语言处理中面临更多难题。”多年来从事汉语自然语言处理的盛玉麒对此深有体会,汉语的自动分词、词性标注、规则提取、规则描写、歧义消解等方面是中文自然语言处理重要瓶颈。 基于这些难题,自然语言处理的研究历经从基于规则到基于统计、进而规则与统计相结合的发展过程。“早期为了配合基于规则的方法而建设的大量知识库为自然语言处理研究打下了很好的基础。但基于规则的方法难以覆盖大量的变体和适应快速的变化,由此兴起了基于统计方法的语言建模。”李爱军告诉记者。 盛玉麒强调说,基于规则与基于统计相结合的路线,成为自然语言处理领域的共识。 亟须汉语言文字学界的参与 基于语料库的知识挖掘、数据提取已成为智能化信息处理的领跑者,理论和技术也渐趋成熟。冯志伟表示,大规模语料库的建立为自然语言处理提供了强有力手段。 近年来,我国以多种基金项目加大对自然语言处理,特别是对少数民族语言处理的投入,开展对互联网环境中文言语信息处理重大基础理论和应用研究。李爱军介绍说,这些研究主要包括互联网环境中文言语感知与表示理论研究;面向复杂环境的多言语识别方法与关键技术等。其中,中国社会科学院语音与言语科学重点实验室承担了国家973计划“互联网环境中文言语信息处理与深度计算的基础理论和方法项目”中“互联网环境中文言语行为规律和篇章结构研究”子课题,已经成功构建互联网中文言语信息的表示体系和大规模多模态口语语篇库。 针对中文自然语言处理目前存在不尽如人意的情况,盛玉麒认为,主要原因是计算机信息处理与汉语言文字学的结合不够,汉语言文字学界对于自然语言处理的关注、参与远远不够。“计算机专家需要汉语言学研究者的配合,将语言学家的知识、方法和思路转化为自然语言处理的数据库、知识库、方法库和规则库。” |
|