基本原则词义消歧的基本原则为“观其伴、知其义”。歧义词的词义可根据其上下文环境而确定。通常在考虑上下文环境时,往往仅限于歧义词所在的句子,提取歧义句中的词形、词性、句法关系等作为消歧特征,而忽略了领域知识特征。鉴于歧义词适配于当前上下文环境,所以歧义词的正确词义同样应适配于上下文所蕴含的领域环境。 步骤词义消歧包含两个必要的步骤:①预先对每个需要标注处理的多义词的不同义项进行清晰区分,提供词义消歧所需的基础资源。②对出现在具体语境中的每个多义词确定合适的义项,提供具体实现词义消歧所需的技术手段。 方法词义消歧方法可划分为有监督的消歧方法、无监督的消歧方法和基于知识库的方法。①有监督的消歧方法。训练数据是已知的,即每个词的语义分类是被标注过的,根据词义标注语料库,利用机器学习技术训练分类器,从而判定新实例的词义。该方法的消歧正确率高,但其效果高度依赖于标注语料库的规模和质量。②无监督的消歧方法。训练数据是未经标注的。利用聚类算法对上下文相似的实例进行聚类,其不使用任何人工知识(如词典、标注语料库等),仅能够区分词义类别,无法对词义进行明确标注,实质是一种词义辨析方法。③基于知识库的方法。根据歧义词所处的上下文,利用各种知识资源(如词典、知识本体、固定搭配等)推测其词义。基于知识库的词义消歧方法的研究可划分为两条路线:路线一是建立或完善知识库,提供更加完备的消歧知识;路线二是创建消歧模型深入挖掘已有知识库的内在结构化关联信息。 意义词义消歧属于自然语言领域的底层研究,对机器翻译、信息检索、文本分类、自动问答等均具有直接影响。 扩展阅读
|
|