分享

仲裁处:然而,部分的词性和词法分析器的另一

 openlog 2017-08-08


仲裁处的 情报京都大学研究生院- NTT通信科学实验室的联合研究单位的项目是已通过开发一个开源的词素分析引擎。语言,词典,我们的基本政策是一个通用的设计,不依赖于语料库。随机场条件(参数的估计CRF使用),查森已相比,采用隐马尔可夫模型改进的性能。此外,平均 查森且慢KAKASI跑得比较快。顺便说仲裁处(萝卜)是最喜欢的食物的作者。

目录

特点

  • 字典,通用设计,不依赖于语料库
  • 条件随机域(CRF基于分析精度高)
  • 查森KAKASI速度比
  • 字典查找算法/数据结构,高速TRIE结构 双阵列通过。
  • 折返库
  • 各种脚本语言绑定(的Perl /红宝石/蟒/ JAVA / C#)

对照

仲裁处 查森 JUMAN KAKASI
分析模型 双克马尔可夫模型 可变长度马尔可夫模型 双克马尔可夫模型 最长匹配
成本估算 从语料库学习 从语料库学习 海星 成本没有概念
学习模式 CRF(识别模型) HMM(代车型)
字典查找算法 双阵列 双阵列 Patricia树 哈希?
解决方案的搜索算法 维特比 维特比 维特比 决定性的?
连接表的实现 2维表 自动机 2维表? 无连接的表?
层级的词性 演讲的无限多层次的部分 演讲的无限多层次的部分 两阶段固定 词性没有什么概念?
未知文字处理 字符类型(可以改变行为定义) 字符类型(不可改变) 字符类型(不可改变)
约束分析 可能 2.4.0可能 不可能 不可能
N最佳解决方案 可能 不可能 不可能 不可能

历史等形态分析器发展导致对仲裁处的是这里请参阅

邮件列表

最新消息

  • 2013年2月18日仲裁处0.996
    • 修正了无法通过配置脚本的不足之处链接到的iconv的问题
    • ,鉴于成本和用户字典CSV文件的左/右上下文ID附加功能,以产生新的CSV文件
    • 添加格:: set_result()方法来创建从分析结果的格。可用在单元测试的时间来创建等的存根
  • 2013年1月24日仲裁处0.995
  • 2012-06-03仲裁处0.994
    • 重新学习功能(使用语料库少量与现有的模型参数CRF的更新)附加
    • 添加的用户辞典的单词的成本自动估计功能(CRF模型是必需的)
  • 2012-01-27仲裁处0.993
    • 仲裁处::标注器:: formatNode()的修改不正确的移动问题
    • 为了抑制栈的消耗,在堆上节省大部分的局部变量(序列)
  • 2012-01-14仲裁处0.992
    • 在源代码中的输入错误的修改
  • 2012-01-14仲裁处0.991
    • 修正了一个问题来分析空字符串或空字符串时分析错误
    • 修正了一个问题,当出现故障创建一个用户词典
  • 2011-12-24仲裁处0.99
    • 仲裁处::型号,加上仲裁处::格类
      在多线程环境中的可用性改进。分析能够同时多线程共享相同的字典
    • 如果你想指的是相同的字典,将自动删除共享的参考字典的能力。(因为它有可能与仲裁处同样的事情::型号)
    • 更新附加功能字典中原子的分析模型::交换期间()
    • 改变的二进制文件的Windows版本为Unicode二进制
    • 网上删除学习,HMM,EM学习的每一个实验代码
    • 仲裁处::节点:(开始|完)_node_list删除成员
    • 修复小错误
  • 2009-09-27仲裁处0.98
    • UTF16支持(实验)
    • 修改为使用本机API,如MutlByteToWideChar到的Windows版本的字符编码转换
    • 更改源代码,谷歌代码风格
    • 附加EON(N-最好结束)中指定的格式(-S或--eon格式)
    • 修正了一个问题与半角片假名的在移位-JIS环境的处理
    • 在线学习支持(实验)
    • 即使不戴WNO弃用它是能够编译
    • 修复小错误
  • 2008-02-03仲裁处0.97
    • 修正了排他控制不顺利的一个错误,当你在多线程环境中打开词典
    • 我能够在安装的Windows版本时指定字典的字符代码
    • 问题被纠正后,在编译器的部分不能正确编译
    • 附加API来改变局部分析模式(标记器:: set_partial())
    • 附加API来改变晶格的生产水平(标记器:: set_lattice_level())
    • 附加API来改变温度参数(标记器:: set_theta())
    • 其他API来改变所有候选人输出模式(标注器:: set_all_morphs())
  • 2007-06-10仲裁处0.96
    • 修正了缓冲区溢出错误
    • 它始终是创建一个POS-ID(-p选项的废止)
    • 分隔符的用户词典:从,更改(CSV)(视窗措施)
    • 有一个在字符集的确定中的错误,固定用户字典和在一定条件下的系统字典不相容
    • 如果字符代码和用户词典文件的系统字典文件的字符代码是不同的,问题的修正,该词典的建设没有工作
    • 添加自卸配置选项转储命令行选项
    • 附加学习程序,诸如以支持基于EM-HMM学习(实验性的)
  • 2007-03-11仲裁处0.95
    • 修正了不能与旧的编译器编译的问题
    • 修改这个词不能有额外的问题,包括逃生的CSV的失败“”
    • 修正了UTF8字典无法成功创造了一些错误
    • 修正了的召回/高精度显示已成为相反的错误
    • 命令行解析的错误修复程序
    • 其他修复小错误
  • 2007-02-24仲裁处0.94
    • 许多错误修复
    • 通过HMM支持学习(实验)
    • 添加就可以得到API分析结果的全部信息(begin_node_list,end_node_list)
    • char.def,unk.def,更改,以便您可以创建一个字典即使matrix.def未定义
    • 它取消了用于Windows的iconv.dll的依赖
    • 清理代码
  • 2006-07-30仲裁处0.93
    • 改变从LGPL BSD,LGPL许可证,以三许可证GPL
  • 2006-07-10仲裁处0.92
    • 字典编译器等,重新实施一些代码是在Perl在C ++中。依赖性消除上实现的Perl
    • 词典编译器的速度(仲裁处快译通指数)
    • 更改rewrite.def的语法
    • -x除了选项“讲话的未知词部”的:无未知单词的估计,用户指定的输出“的语音的未知词部分”
    • 演讲ID的一部分的支持
    • 修正了一个字符类型的信息一直没能学到一些错误
    • 在学习,bug修复那些不能够通过频率削减
    • 修改其他错误薄
  • 2006-04-30仲裁处0.91
    • 修正了在Windows环境中的字符串的结尾落在了半角空格的时间错误
    • 修正了前提和连接表的结果的大小不能在不同的时间正确地分析错误
    • 添加-f选项仲裁处快译通指数,该CSV的字符代码是用户必须指定
    • 问题的API函数的那部分的修正是不出口
    • 学习的CRF是使用并行线程,以允许并行地(实验性的)
    • 问题被纠正后,用户词典无法创建
    • 添加仲裁处的应用实例的实例目录(单元测试)
    • 修改其他错误薄
  • 2006-03-26仲裁处0.90
    • 首次发布!

下载

  • 仲裁处是一个免费软件。GPL(GNU通用公共许可证),LGPL(小GNU通用公共许可证),或使用按照BSD许可证的软件,您可以重新分配。欲了解更多信息的复制,GPL,LGPL,看到BSD每个文件。
  • 仲裁处

    • 仲裁处-0.996.tar.gz:下载
    • 字典不包括在内。此操作要求单独的字典。

    二进制包用于微软视窗

    • 仲裁处-0.996.exe:下载
    • 它包含编译IPA字典的Windows版本
  • 仲裁处字典

    IPA词典

    • IPA词典的基础上,IPA语料库 CRF 是一本字典在参数估计。(推荐) 下载

    且慢词典

    • Juamn词典的基础上,京都语料库 CRF 是一本字典在参数估计。下载

    UNIDIC词典

    • UNIDIC词典的基础上,BCCWJ语料库 CRF 是被估计参数多的字典。下载
  • 的Perl /红宝石/蟒/ Java绑定

安装

UNIX

  • 这些必要的操作
    • C ++编译器(克++已经确认在3.4.3和VC7编译)
    • 的iconv(libiconv的):使用字典的代码转换
  • 安装说明

    您可以安装相同的方法,一般的免费软件。

     %焦油zxfv仲裁处,XXtar.gz
     %CD仲裁处-XX
     %的./configure 
     制作%
     %另外办理入住
     苏%
     #make install的
    
  • 词典的安装

    %焦油zxfv仲裁处,ipadic-2.7.0-XXXX.tar.gz
    %仲裁处-ipadic-2.7.0-XXXX
    %的./configure
    制作%
    苏%
    #make install的
    

视窗

如果你想安装二进制文件,请运行自解压安装(仲裁处-XXexe)字典也将在同一时间安装。

如何使用

尝试反正分析

启动仲裁处,在.MeCab请尽量从标准输入进入Namabun,我们可以分析为前提线句子。

%仲裁处
在梅都大腿大腿
梅花名词,一般来说,*,*,*,*,梅,李,梅
此外颗粒,颗粒参与,*,*,*,*,另外,模型,模型
桃名词,一般来说,*,*,*,*,桃子,桃子,桃子
此外颗粒,颗粒参与,*,*,*,*,另外,模型,模型
桃名词,一般来说,*,*,*,*,桃子,桃子,桃子
颗粒,的adnominal,*,*,*,*,的,布鲁诺,布鲁诺
其中名词,非自承,它可以副词,*,*,*,出来,我的房子,我的房子
EOS

输出格式与查森的非常不同。从左边,

表面型语音的\ t部,部分的词性细分1,语音细分2的一部分,语音细分3,利用型,词尾变化的形式,原来,阅读,发音的一部分

它已成为一个。

如果参数为文件,该文件会被分析。此外,在-o选项,还可以将结果输出到另一个文件。

%仲裁处输入-o输出

分词

具体如下:使用-o选项。

%仲裁处-O wakati
太郎通过这本书来二郎谁看见妇女。
太郎通过这本书来二郎谁看见妇女。

输出格式的变化

具体如下:使用-o选项。

%仲裁处-Oyomi(读许可)
%仲裁处-Ochasen(查森兼容)
%仲裁处-Odump(输出的所有信息)

这些输出格式在/ usr /本地/ LIB /仲裁处定义 / ipadic / dicrc。此外,可能的是,用户可以自由地定义这些格式。 在这里,请访问。

高级用法

更改字符代码

除非你指定,则使用EUC。如果,如果你想使用shift-JIS和UTF-8,更改字符集的配置选项的字典,请重建字典。现在,和shift-JIS,创建UTF8的字典。

%焦油zxfv仲裁处,ipadic-2.7.0-XXXX
%CD仲裁处-ipadic-2.7.0-XXXX
%的./configure --with-字符集= SJIS
制作%

%焦油zxfv仲裁处,ipadic-2.7.0-XXXX
%的./configure --with-字符集= UTF8
制作%

此外,你可以重建一个不同的字典,直接字符代码使用仲裁处快译通指数的-t选项。-f选项是原文字典的字符代码。

%CD仲裁处-ipadic-2.7.0-XXXX
%/ USR /本地/的libexec /仲裁处/仲裁处-字典索引-f EUC-JP -t utf-8的
#make install的

UTF-8只模式

配置如果指定--enable-UTF8,只有字符编码选项。小额薪酬索偿仲裁处理,将其固定到UTF8。如果你想支持EUC-JP和shift-JIS,拥挤填写表格转换为内部仲裁处。要通过指定抑制表嵌入--enable-UTF8只,可以减少执行二进制结果。

未知的话估计

仲裁处,在字典中的字是估计讲话的适当部分,即使它不存在。

Horiemon市
Horiemon名词,专有名词,区域,一般情况下,*,*,*
市名词,后缀,区域,*,*,*,城市,死亡,
EOS
Horiemon的
Horiemon名词,专有名词,人名,一般,*,*,*
名词先生,后缀,人的名字,*,*,*,先生,圣,圣

但是,它的准确度是不准确的。退出部分的语音估计,如果要输出未知单词始终是“未知单词” we使用-x(--unk特征)选项词性。该选项指定字符串被用作语音的一部分。

%仲裁处--unk特征“未知单词” 
Horiemon的
Horiemon生词
名词先生,后缀,人的名字,*,*,*,先生,圣,圣

的n最佳溶液输出

通过使用-N #NUM选项,然后输出从这些可能的#NUM各个分析结果。在理论上有可能输出所有可能的解析解,但是从输出缓冲器的平衡,限制-N至512的最大值。

%仲裁处-N2
我如果你今天没有。
今天名词,副词可能,*,*,*,*,今天,今天,的Kyowaad
此外颗粒,颗粒参与,*,*,*,*,另外,模型,模型
动词,自力更生,*,*,sahen苏尔,提前形式的,死亡,
没有助动词,*,*,*,特殊·奈伊,基本形式,不,不,不
的颗粒,合取粒子,*,*,*,*,和,门,门
我粒子,最终颗粒,*,*,*,*,I,根,根
。符号,标点符号,*,*,*,*,。。。
EOS
今天名词,副词可能,*,*,*,*,今天,今天,的Kyowaad
如果副词,一般情况下,*,*,*,*,如果磨石,磨石
没有形容词,自力更生,*,*,形容词,友达的阶段,基本形成,不,不,不
的颗粒,合取粒子,*,*,*,*,和,门,门
我粒子,最终颗粒,*,*,*,*,I,根,根
。符号,标点符号,*,*,*,*,。。。
EOS

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多