分享

如果大数据学会了多门外语,有什么用?

 方珺逸 2017-07-28

赞助



“大数据”三个字想必大家并不陌生。
 
一般来说,2013年被定义为“大数据元年”,如今4年过去,大数据逐渐从相对空洞的商业术语中脱离出来深入到各个领域。近期如火如荼俨然“红海”的共享单车市场,人们在享受出行方式的改变背后,公司之间的竞争从投放量亦慢慢走向数据的博弈。如同一门综合性学科一般,单纯的数据堆砌早已没有意义,如何挖掘、分析与应用,才可能拥有数据的价值;而此时在算法趋同的趋势下,数据的质量与规模则成为兵家必争之地。

 
上面的说法倒是也新鲜,但是大家可能忽略的一个问题是:“大数据总是站在更大数据的阴影之下。”
 
在一般理解里,大数据前面可能还缺“中文”二字。也就是说,日常所谓的大数据通常情况下指的都是中文大数据。
 
有这样一组数字:当下全球互联网用户已超过30亿,占全球总人口的40%。然而在如此庞大的用户规模中,却有接近90%以上的网民不具备母语以外的语言技能,并且其中59.4%以上的用户具有跨语言、交友、获取新闻信息等需求。
 
因此,尽管大数据产业已步入多元化、垂直化发展阶段,但目前绝大多数大数据还囿于单一语种,而那些散落在全球范围内的多语种价值尚沉睡海底。这种需求等差,使得跨语言大数据的应用价值日显关键,小到商业数据分析,大到国与国之间的互通合作,跨越了语言符号的大数据已不容小觑。
 
跨语言大数据的差异化价值

语言是一切沟通的基础,其所蕴含的信息量十分庞大,而通过对语料的收集、处理与分析,则能从数据源头抓取跨语言大数据的价值,打破单一语种的局限,以可视化、宏观化的方式满足各行各业之于数据的需求。
 


“在网络使用者正常的关键词搜索过程中,无论搜索结果是多少条,人们的阅读习惯常常是几条或者几十条,且语言单一。译见大数据要做的是不仅仅要去除掉所有语言标签,让用户能够搜到全球的相关信息,更要把搜索到的所有几十万条、几百万条数据都能够定性定量地分析。” 中译语通CEO于洋曾在采访中表示。


 
中译语通以翻译起家,“在现有的语种以及诸多垂直领域已经具备了正面PK谷歌翻译的能力”,而去年7月份发布的大数据平台“译见”,则整合了机器翻译、语义分析、智能采编、数据挖掘等十余种自然语言处理、大数据和人工智能技术,在跨语言大数据领域深耕。
 
其不仅在各大行业展会、学术交流中崭露头角,倡导跨语言大数据共融理念;更是与国际优秀企业签约合作,与顶尖人工智能专家分享在AI语言科技所取得的研发成果。

跨语言大数据与行业如何融合?7月29日,中译语通将举办“幻化·2017中译语通战略发布会”,届时将发布与跨语言大数据相关的重磅新品,同时还将举行多场高峰论坛,就人工智能、大数据、语言科技等话题与业内专家、学者进行探讨。
 
 


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多