分享

热词热语怎么选拔

 阳光妥妥 2012-07-08
热词热语怎么选拔

——“十大新词语”“十大流行语”每年发布,许多人好奇

  《2011年中国语言生活状况报告》最近发布,伤不起、虎妈、淘宝体和另外7个词,被宣布为“十大新词语”,十二五开局、乔布斯、利比亚局势等则是“十大流行语”……

  许多人好奇,这两个“十大”到底是怎么“选拔”的?该不是一帮人围一桌你一言我一语凑出来的吧?中国传媒大学教授侯敏对此回应:怎么可能?这可是历经监测、过滤、筛选、释义等一整套程序,从每年10亿字的语料中像沙里淘金那般“提炼”出来的。

  沙里淘金,几万条中挑几百个

  侯敏教授有着另一个头衔:国家语言资源监测与研究中心有声媒体语言分中心负责人。她介绍说,每年总量10亿字的语料,取自平面媒体、有声媒体和网络媒体,并且逐年积累形成三大语料库。

  语料备齐,先要人工“淘洗”一番,查找补正漏字、缺字、乱码等,而后一股脑儿送进语言信息处理技术平台,平台上装着全切分软件、自动分词软件等。在电脑上输入“我是学生”,立马会被切分成我、是、学、生4个字与我、是、学生3个词。

  把语料统统切分成词语之后,需借助软件把它们跟此前几年的词语作比对,去旧留新,剩下来的就构成了年度新词语候选集——候选的词语有多少?年均几万条。侯敏说,每年最终入围的几百个新词语,就是从这几万条候选词中遴选出来的。遴选完全由人工操作,选中的词语还要逐条释义,为此几十名专家得集体工作两个多月。

  相比新词语,流行语的“选拔”简单些。利用电脑软件,统计出每个词在365天中的生命周期长短、出现频次高低等指标,然后对比前一年数据,使用频率相仿的即刻淘汰,而一旦发现使用频率“异峰突起”的,就留下。

  “额的神啊”“吊丝”为啥没选上

  2011年度语言生活报告公布后,有人对那些热词、热语有意见:“跟我们的感觉不一样啊?”“有些用得很多的网言网语怎么没入选,'额的神啊’在哪儿?”“今年2月,我们就2011年度的热词、热语向网友征求意见时,就听到了各种建议。”侯敏教授说,网友们举出了不少新鲜的网络用词,问报告中怎么不见踪影?我跟他们解释:网络媒体语料库在采集语料时以网站的新闻栏目为主,BBS论坛、网友留言与发帖不在其列,“'额的神啊’仅在论坛里热度很高,所以'落选’了。”

  今年,“吊丝”一词的去留成了争论最激烈的一个议题。经过一应前道工序,它也进入了候选集,但专家们犯难:不选吧?确是新词,征求意见时网友呼声极高;选吧?这个词品位不高,想准确释义更难。“我们选词有标准,得是新词,得有一定使用频率,得能反映当今社会生活,还得'干净’,要有一定品位。”

 


 
 
 
 愿您天天好心情-阳光妥妥

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多