词义消歧

求是1025 2023-05-06 发布于山东

展开全文

基本原则

词义消歧的基本原则为“观其伴、知其义”。歧义词的词义可根据其上下文环境而确定。通常在考虑上下文环境时，往往仅限于歧义词所在的句子，提取歧义句中的词形、词性、句法关系等作为消歧特征，而忽略了领域知识特征。鉴于歧义词适配于当前上下文环境，所以歧义词的正确词义同样应适配于上下文所蕴含的领域环境。

步骤

词义消歧包含两个必要的步骤：①预先对每个需要标注处理的多义词的不同义项进行清晰区分，提供词义消歧所需的基础资源。②对出现在具体语境中的每个多义词确定合适的义项，提供具体实现词义消歧所需的技术手段。

方法

词义消歧方法可划分为有监督的消歧方法、无监督的消歧方法和基于知识库的方法。①有监督的消歧方法。训练数据是已知的，即每个词的语义分类是被标注过的，根据词义标注语料库，利用机器学习技术训练分类器，从而判定新实例的词义。该方法的消歧正确率高，但其效果高度依赖于标注语料库的规模和质量。②无监督的消歧方法。训练数据是未经标注的。利用聚类算法对上下文相似的实例进行聚类，其不使用任何人工知识（如词典、标注语料库等），仅能够区分词义类别，无法对词义进行明确标注，实质是一种词义辨析方法。③基于知识库的方法。根据歧义词所处的上下文，利用各种知识资源（如词典、知识本体、固定搭配等）推测其词义。基于知识库的词义消歧方法的研究可划分为两条路线：路线一是建立或完善知识库，提供更加完备的消歧知识；路线二是创建消歧模型深入挖掘已有知识库的内在结构化关联信息。