分享

词义消歧

 求是1025 2023-05-06 发布于山东

基本原则

词义消歧的基本原则为“观其伴、知其义”。歧义词的词义可根据其上下文环境而确定。通常在考虑上下文环境时,往往仅限于歧义词所在的句子,提取歧义句中的词形、词性、句法关系等作为消歧特征,而忽略了领域知识特征。鉴于歧义词适配于当前上下文环境,所以歧义词的正确词义同样应适配于上下文所蕴含的领域环境。

步骤

词义消歧包含两个必要的步骤:①预先对每个需要标注处理的多义词的不同义项进行清晰区分,提供词义消歧所需的基础资源。②对出现在具体语境中的每个多义词确定合适的义项,提供具体实现词义消歧所需的技术手段。

方法

词义消歧方法可划分为有监督的消歧方法、无监督的消歧方法和基于知识库的方法。①有监督的消歧方法。训练数据是已知的,即每个词的语义分类是被标注过的,根据词义标注语料库,利用机器学习技术训练分类器,从而判定新实例的词义。该方法的消歧正确率高,但其效果高度依赖于标注语料库的规模和质量。②无监督的消歧方法。训练数据是未经标注的。利用聚类算法对上下文相似的实例进行聚类,其不使用任何人工知识(如词典、标注语料库等),仅能够区分词义类别,无法对词义进行明确标注,实质是一种词义辨析方法。③基于知识库的方法。根据歧义词所处的上下文,利用各种知识资源(如词典、知识本体、固定搭配等)推测其词义。基于知识库的词义消歧方法的研究可划分为两条路线:路线一是建立或完善知识库,提供更加完备的消歧知识;路线二是创建消歧模型深入挖掘已有知识库的内在结构化关联信息。

意义

词义消歧属于自然语言领域的底层研究,对机器翻译、信息检索、文本分类、自动问答等均具有直接影响。

扩展阅读

  • 俞士汶.计算语言学概论.北京:商务印书馆,2003.
  • 宗成庆.统计自然语言处理.北京:清华大学出版社,2008.
  • 鹿文鹏,黄河燕,吴昊.基于领域知识的图模型词义消歧方法.自动化学报,2014,(12):2836-2850.
  • 任海英,于立婷.一种基于维基百科的多策略词义消歧方法.现代图书情报技术,2015,(11):18-25.
  • 傅柱.语义标注研究综述.图书馆学研究,2016,(4):10-17.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多