分享

上海数据交易所章健:建设高质量语料库,推动大模型产业发展

 yliu277 2024-04-07 发布于湖北

11月26日,在2023全球数商大会上,由中国大模型语料数据联盟指导,上海数据交易所、星环科技主办,上海市数商协会协办的“数据要素市场与大模型语料库论坛暨中国大模型语料数据联盟开放日活动”成功举办,活动上200余家大模型数据、人工智能及技术企业及相关机构代表出席会议。本次会议汇聚了各行业对大模型时代的思考,将共同为大模型技术深度发展与高水平应用提供更多元的数据要素保障,联合打造国际化开放性的大模型语料数据生态。

上海数据交易所市场发展部副总经理章健在会上发表《建设高质量语料库推动大模型产业发展》主题演讲,深刻探讨了高质量语料数据的重要性以及如何建设高质量语料库来推动大模型产业发展。

上海数据交易所章健:建设高质量语料库,推动大模型产业发展

高质量语料数据是生成式人工智能的基石

上海数据交易所章健:建设高质量语料库,推动大模型产业发展

数据、算法和算力是人工智能的三要素。语料数据指的是用于训练人工智能的文本库或数据集合,通常包括书籍、报纸、杂志、电视节目、电影、广告、网页等各种形式的文本、图片、语音、视频等,具有大规模性、多样性、动态性等特点。海量优质的应用场景数据是训练算法精算性的关键基础,特别是在垂直大模型领域,垂直行业的高质量语料变得特别重要。

为促进生成式AI产业健康发展、规范应用,央地各级政府围绕算力、数据、模型、应用等不同方面逐渐完善支持政策体系。网信办、中央信息办公室等发布了两批大模型备案,包括针对语料供应的安全合规和价值观对齐等制定了相关规定,提高训练数据的质量,确保语料数据在合规可信的环境进行训练。可以看出,大模型人工智能已成为提升国家科技竞争力的重要基础推动力。

大模型时代下的语料库建设现状和方向

上海数据交易所章健:建设高质量语料库,推动大模型产业发展

目前大模型行业的语料建设在取得一定成就的同时还存在着一些挑战。首先,语料库的供应不足。目前国际主流大模型的参数数据集主要以英文为主,中文数据占比较少,特别是在一些垂直细分领域。在追求语料数量增长的同时,也要重视质量。国内语料库还存在数据不完整、标注不一致、数据重复、数据更新等问题,相对于国外数据集,国产数据集市场影响力及普及度还存在一定差距,如学术领域中文数据集受重视程度低。

此外,在某些特定的领域,多模态的项目等方面,语料缺乏多样性。国外的大模型语料库类型包括新闻、社交媒体、论坛、博客等,覆盖了产业、科技、教育、娱乐等多个领域和主题,涵盖了英语、俄语、德语、日语、 中文等多种语言。国内语料库则以中文为主,多数来源于公司公告、研究报告、新闻等,覆盖的领域和主题也较为有限。

最后,大模型语料库建设是一件长期性、专业性的工作,需要遵循相应的质量标准和规范,这就需要大家共同去推动标准规范的持续完善,把整个关于数据语料的行业能够纳入到一个更有序健康发展的轨道。如何去克服这些挑战以建设更高质量的语料库,需要从以下四点去推进:由政府引导、市场主导;统一标准、规范建设;丰富种类,提高质量;加强监管,保障安全。

国内外高质量语料数据来源概况

上海数据交易所章健:建设高质量语料库,推动大模型产业发展

语料类型通常可以分为通用类型数据和垂直行业数据两大类型,以及文本数据、音频数据、图像数据、视频数据四大模态。根据内容模型又可以进行详细划分,如教育类数据、汽车类数据、医疗类数据、城市治理类数据、金融类数据等。

海外高质量语料数据的来源主要来自开源组织、学术界、互联网巨头、政府机构、多种类型机构合作几个方面,语料数据类型也是覆盖如上提到的四大模态。每个类型都有相应的主要语料供应商,如论坛社交平台Reddit可提供社交论坛数据、社交媒体网络平台Twitter可提供媒体网络数据等。这些都为我们在中国找到高质量的语料供应和行业细分领域的语料素材提供了参考。

早期大模型训练语料很多都是开源免费的,但是从最近一年可以看到,包括推特以及国外的一些社交社区网站,已经开始对高质量的语料进行收费,并不是完全免费的模式,我们必须以市场逻辑去解决语料供应的问题。

国内语料数据供应在文本数据、音频数据、图像数据、视频数据四大模态方面均有海量的数据来源,包括国有企业、大型机构、民营企业等,数据种类丰富,来源广泛。例如,国内的顶尖高校拥有非常好的视频材料,这些视频数据可以在学术语料方面构建良好的基础,这就需要我们把这些语料更好组织推动和推动起来。数交所在这方面具有很大的优势,可以跟不同行业,不同类型的企业,包括政府机构等去连接,能够组织高质量的不同行业、不同细分领域的素材供应。

国内垂直应用类应用语料数据包括自动驾驶、气象、金融、教育等,每个细分行业都有非常大量的数据需求。上海数据交易所也在积极组织各个行业的语料数据,比如在气象方面,和国家气象局、上海气象局合作已经挂牌了一批气象的数据产品,接下来会有更大量、颗粒度更细的气象数据进场。

上海数据交易所高质量语料库建设,助推大模型技术高质量发展

上海数据交易所章健:建设高质量语料库,推动大模型产业发展

上海数据交易所语料库建设具有四大特性:

以多场景应用为导向,构建特色标签化服务体系

以应用场景为导向,数交所构建特色标签服务体系,制定适用于通用大模型和垂类大模型的差异化推荐策略,通过特色标签化服务体系助力垂直领域供需方精准匹配。

兼顾开源共享和商业化需求,引领语料数据流通模式创新

组织协调多方共建项目,建立长期可持续性的运营机制,通过数据要素价值释放为各行业企业数字化场景赋能。线上通过信息发布平台撮合交易,线下以DSM系列专题活动促进垂直领域供需方合作交流。

建设国内首个数据交易链,保障安全可信的数据流通环境

作为全国数据要素市场的核心枢纽,数交所牵头建设了国内首个数据交易链,利用区块链存证和智能合约等技术,配备相关规范指引,为大模型语料数据的流通交易和使用提供安全保障,促进数据的高效流通。

启动生态创新合作伙伴计划,提升数据质量和交易价值

交所联合生态创新合作伙伴搭建多维度生态服务体系,为语料数据供需方提供精细化标注加工和技术支撑等服务,有效提升数据质量和交易价值,构建开放创新的生态圈。

上海数交所已经招募了第一批的生态合作伙伴,都是行业内一些非常头部的企业,有语料的供方、大模型的建设方、AI的技术公司等,共同合作推动数商生态建设,目前已上线语料产品规模超17批,累计挂牌1500多个数据产品,语料数据规模超过10TB,包含文本、音频、图像、视频等多模态数据,覆盖金融、交通运输、医疗等领域。

此外,上海数交所作为“中国大模型语料数据联盟”核心成员,通过与语料数据生态企业交流合作,丰富高质量数据供给,共同助推大模型技术高质量发展。章健表示,“我们从流通交易语料库的角度做了一些努力并取得了一些成果,希望能够为中国大模型建设事业添砖加瓦”。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多