最近做实验需要较大规模的中文语料,很自然的就想到使用维基百科的中文数据。 使用维基百科做训练语料有很多好处:
当然,缺点也有:最主要的就是数量较少,相比国内的百度百科、互动百科等,数据量要少一个数量级。 直接切入正题。 第一步,下载中文的 Wiki Dump 链接是:http://download./zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2。这个压缩包里面存的是标题、正文部分,如果需要其他数据,如页面跳转、历史编辑记录等,可以到目录下找别的下载链接。 第二步,使用 Wikipedia Extractor 抽取正文文本 Wikipedia Extractor 是意大利人用 Python 写的一个维基百科抽取器,使用非常方便。下载之后直接使用这条命令即可完成抽取,运行了大约半小时的时间。 第三步,繁简转换 维基百科的中文数据是繁简混杂的,里面包含大陆简体、台湾繁体、港澳繁体等多种不同的数据。有时候在一篇文章的不同段落间也会使用不同的繁简字。 到此为止,已经完成了大部分繁简转换工作。实际上,维基百科使用的繁简转换方法是以词表为准,外加人工修正。人工修正之后的文字是这种格式,多数是为了解决各地术语名称不同的问题:
对付这种可以简单的使用正则表达式来解决。一般简体中文的限定词是 zh-hant 或 zh-cn,在C#中用以下代码即可完成替换:
由于 Wikipedia Extractor 抽取正文时,会将有特殊标记的外文直接剔除,最后形成类似这样的正文:
虽然上面这句话是读不通的,但鉴于这种句子对我要处理的问题影响不大,就暂且忽略了。最后再将「」??『』这些符号替换成引号,顺便删除空括号,就大功告成了! 通过上述方法得到的维基百科简体中文纯文本语料约 528M。 |
|