【ACL2018同期评测】5th中介语作文句法自动诊断CGED2018

犁杖 2018-02-24

展开全文

面向教育应用的自然语言处理工作坊（NLP Tech for Educational Application, NLPTEA）：第五届中介语作文句法自动诊断评测CGED将于2018年7月19日在ACL2018（墨尔本）会期中举行。走过路过不要错过！

给歪果仁开发自动批改作文的程序还是很重要的一件事儿，这茬儿的baseline现在还很低，一起来beat！

~~欢迎参赛~~

NLP-TEA 2016 Shared Task: Chinese Grammatical Error Diagnosis，CGED

这是个啥任务？

我们就是给你一些洋人写中文作文的语料（中介语作文），然后请你（的系统）来诊断里面的句法错误。错误共有四类：多（字）词（Redundant）、缺（字）词（Missing）、错（字）词（Selection）和词序错误（Word Order）。我们将从三个方面来评测大家的系统性能：判断句子有错没错（detection level）、判断啥类型的错（identification level）、错误出现的位置（position level，最难啦~）。来看俩例子：

Example 1:
Input: (sid=00038800464) 我真不明白。她们可能是追求一些前代的浪漫。
Output: 00038800464, correct
Example 2:
Input: (sid=00038801261) 人战胜了饥饿，才努力为了下一代作更好的、更健康的东西。
Output: 00038801261, 9, 9, M
00038801261, 16, 16, S
(Notes: '能' is missing. The word '作' should be '做'. The correct sentence is '才能努力为了下一代做更好的')

恍惚间，不敢想啊！今年已经是CGED评测的第五届啦~CGED2013@CFL、CGED2014@ICCE、CGED2015@ACL、CGED2016@COLING、CGED2017@IJCNLP

数据集

我们提供北京语言大学（曾）主办的汉语水平考试HSK作文批改数据。2018版训练集将开放1.1k个错误点。CGED2016、CGED2017版训练集和测试集共包含54.2k个错误点。2016、2017数据、历届评测报告、论文集和评测工具可在评测网站获取下载链接（www.cged.science）。

如何评测