中文信息处理与汉语研究——现状和发展詹卫东北京大学中文系北京大学汉语语言学研究中心北京,100871zwd@pku.e du.cnhttp://ccl.pku.edu.cn/doubtfire/全国语言文字信息化工作会议·湖南·长沙· 2003.10.5-10.6提纲中文信息处理研究的格局中文信息处理的现状和发展趋势语言知识资源的建设面向中 文信息处理的汉语研究一中文信息处理研究的格局信息的两个层次:符号层——中文/汉语/汉字内容层——符 号所承载的意义中文信息处理的两个层次:字符处理(输入、存储、输出等)内容处理(词语切分,词性标注,结构分析,意义理解,推理 ,翻译……等等)(信号vs.信息)符号层的信息处理拼音文字:小字符集——比较容易非拼音文字:大字符集——难 度很大汉字是一个大字符集《说文解字》(东汉):9353字《玉篇》(南朝)收录16,917字《广韵》(宋代)收字26,194 字《字汇》(明朝)收录33,197字《康熙字典》(清朝)收录47,043字《汉语大字典》(1992年)5.6万《中华字海》 (1994年)8.6万拉丁字母只有26个符号斯拉夫字母只有33个符号阿尔明尼亚字母只有38个符号泰米尔字母只有 36个符号缅甸字母只有52个符号泰文字母只有44个符号老挝字母只有27个符号藏文字母只有35个符号韩文字母只有 24个符号日文假名只有48个符号符号层的信息处理汉字输入自动输入键盘输入字形识别声音识别手写体识别印刷体识 别在线手写脱机手写整字键盘通用键盘主辅式感应式形码音码形音结合码123456789内容层 的信息处理形态丰富的语言(inflectinglanguage):处理难形态不丰富的语言(analyticlanguage ):处理更难汉语英语老师都来了Allprofessorscamehere.张老师都来了EvenProfesso rZhangcamehere.编辑工作很难Editingisverydifficult.如何当好编辑Howt obecomeagoodeditor内容层的信息处理原文原文输入译前编辑词法分析句法分析语义分析语境分 析内部表示转换译词选择译后编辑译文输出词形变化句子生成译文123456789101112机 器翻译全过程需要语言知识!!!内容层处理对符号层处理的反作用拼音串(无声调)xuexidiannao jishu候选字串雪系点脑机树共有14×98×41×15×167×68=95.8亿种可 能性学洗电闹给述学西颠挠记书……候选词串学习电脑级 数共有2×1×7=14种可能性血洗电脑奇数血洗电脑基数……正确文字串学习电脑技术 内容层处理对符号层处理的反作用拼音串(无声调)xuexidiannaojishu候选字串雪 系点脑机树共有14×98×41×15×167×68=95.8亿种可能性学洗电闹 给述学西颠挠记书……候选词串学习电脑级数共有2×1×7=14种可能性 血洗电脑奇数血洗电脑基数……正确文字串学习电脑技术内容层处理对符号层处理的反作用 拼音串(无声调)xuexidiannaojishu候选字串雪系点脑机树 共有14×98×41×15×167×68=95.8亿种可能性学洗电闹给述学西颠挠 记书……候选词串学习电脑级数共有2×1×7=14种可能性血洗电脑奇数血洗 电脑基数……正确文字串学习电脑技术内容层处理对符号层处理的反作用拼音串(无声调)xuexi diannaojishu候选字串雪系点脑机树共有14×98×41×15×167 ×68=95.8亿种可能性学洗电闹给述学西颠挠记书……候选词串 学习电脑级数共有2×1×7=14种可能性血洗电脑奇数血洗电脑基数……正确文 字串学习电脑技术二中文信息处理的现状和发展趋势现状符号层的处理成果已经得到广泛应用;中文输入/字库/字处理软件 /排版/……www.libaiwu.com/2hao二号首长内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结 构分析和语义分析方面仍有待探索系统演示北京大学现代汉语分词/词性标注/句法分析系统(孙斌、刘群、常宝宝、詹卫东等)ht tp://www.icl.pku.edu.cn/nlp-tools/segtagtest.htm(北大计算语言所网上分 词、标注、注音系统)中文信息处理的发展趋势发展趋势信息产品的多样化网络的迅速发展积累更多基础资源,开发更多应用系 统。内容层的处理将受到越来越多的重视信息家电,内容计算,……三语言知识资源的建设现代汉语语法信息词典基于配价理论 的现代汉语语义词典现代汉语短语结构信息库2700万字现代汉语分词与词性标注语料库句子对齐的汉英双语语料库现代汉语树库现代 汉语短语结构规则库资源演示现代汉语语义词典(詹卫东、王惠等)http://ccl.pku.edu.cn汉英平行语料库( 常宝宝、柏晓静等)现代汉语树库(詹卫东、常宝宝等)四面向中文信息处理的语言学研究充分重视各个层次上的语言歧义研究拓展 语言现象的研究面www.libaiwu.com/2hao二号首长强调研究结果的可操作性,推动语言知识的形式化、系统化和规模化 加强语言知识库的工程建设,为中文信息处理(内容层的处理)积累更多基础资源歧义示例张店区大 学生不看重大城市户口张店区大学生不看重大城市 户口张店区大学生不看重大城市户口歧义示例(续)有三百多种树 vmcpqnmpnpvpnpvp有三百多种树vmcpvnvpvpnpvpvpvp 有三百多种树vmmmq/vn有三 百多种树歧义示例(续)请转告李宇明司长下午三点出发vv nnttv请转告李宇明 司长下午三点出发请转告李宇明司长下午三点出发要让 计算机“理解”一个句子,实际上要解决下面两个核心问题:(1)一个句子的结构和意义是什么?(2)如何得到一个句子的结构和意义? 第一个问题是“What”的问题,这是理论语言学关心的问题;第二个问题是“How”的问题,这是计算语言学关心的问题,也就是 面向中文信息处理的语言研究需要关心的问题。结语参考文献慈林林鲁元魁,1999,《中文信息处理新技术展望》,《计算机 世界》1999年第44期“产品与技术”版“专题报道”。刘梦松,1998,《中文信息处理软件概述》,《计算机世界》1998年第26 期“技术专题”版。许嘉璐,2002,《现状和设想——试论中文信息处理与现代汉语研究》,《中国语文》2000年第6期。俞士汶 ,朱学锋,2002,《关于汉语信息处理的认识及其研究方略》,《语言文字应用》2002年第3期。俞士汶,朱学锋,王惠,2001,《 <现代汉语语法信息词典>的新进展》,《中文信息学报》2001年第1期。詹卫东,常宝宝,俞士汶,2002,《机器翻译与语言研究》, 《语言科学》2002年第1期(创刊号)。詹卫东,2000,《80年代以来汉语信息处理研究述评》,《当代语言学》2000年第2 期。张华平,2003,《中文信息处理技术发展简史》,http://www.nlp.org.cn(中文信息处理开放平台网站) 国内外重要的语言知识资源举例WordNet,http://www.cogsci.princeton.edu/~wn/?FrameNet,http://www.icsi.berkeley.edu/~framenet/HowNet,http://www.keenage.com/台湾中研院词库、现代汉语平衡语料库http://www.sinica.edu.tw/ftms-bin/kiwi.sh谢谢请大家批评指正欢迎访问http://ccl.pku.edu.cnhttp://icl.pku.edu.cn |
|