【原】Testin贾宇航：数据采集与标注的新趋势 | 甲子引力

甲子光年 2021-01-08

展开全文

Testin数据标注业务总经理贾宇航

作者 | 贾宇航

整理 | 芊乂

2019年11月9日至10日，科技智库「甲子光年」在北京举行2019「甲子引力」大会。其中，在11月9日下午举行的“数据智能”专场上，Testin数据标注业务总经理贾宇航以“数据迭代，加速人工智能企业发展”为主题展开演讲。

贾宇航谈到，人工智能的发展历程，实际上也是数据、模型和算力三大要素的持续迭代过程，产品能力的提升是三要素之间相互制约又相互促进的螺旋式上升过程。

他认为，当下对数据的使用有逐渐变“大”的趋势，或者说，整个定制化数据正在逐渐向多模态、多场景、高精度发展。

演讲要点如下：

1. 人工智能反向逻辑：节省重复劳动，新交互模式的诞生

2. 人工智能发展规律：三大流程的螺旋式上升

3. 定制化数据：多模态、多场景、高精度

4. 初衷：助力企业，让拥有数据成为企业的核心壁垒

以下为演讲实录：

非常感谢甲子光年提供这样一个机会，让我站在这个舞台上跟各位分享有关人工智能数据采集与标注的行业知识和未来趋势。

我叫贾宇航，主要负责Testin数据标注业务。

可能大家很少听说这个行业，虽然我今天能够登上舞台站在聚光灯下向大家介绍我们的业务，但更多人工智能数据服务商其实生活在聚光灯外，默默为这个行业做着自己的贡献。打个比方，消费者可能很熟悉小米、OPPO、vivo这些品牌，却很难知道这些手机品牌的厂商到底和哪些加工工厂合作，也不清楚哪些工人为他们装配。

同理，我们使用的人工智能技术，其背后涉及到成千人甚至上万人的辛勤付出，他们用自己的一份贡献为整个人工智能产业赋能。例如，人们日常使用语音交互技术，却很少有人知道这些培训素材来自于录音棚里录制的语音；又比如人们可能会在智能出行中使用自动驾驶技术，却很少有人知道有数量巨大的工作者在电脑前为这些道路数据标注。作为人工智能数据服务商，今天我将从行业的视角来分享一些内容。

Testin数据标注业务总经理贾宇航

Testin成立于2011年，是一家人工智能技术驱动的企业服务平台，为全球超过百万的企业及开发者提供云测试服务、人工智能数据标注服务、安全服务及推广服务。2017年，Testin成立数据标注业务，为人工智能提供数据采集与数据标注业务服务。

今天我主要分享关于整个数据行业的一些认识。

人工智能反向逻辑：节省重复劳动，新交互模式的诞生

首先看人工智能，我们发现自2015年始，越来越多的人工智能产品走入千家万户，人工智能让人们享受到便利的同时，也逐渐让人们对人工智能的期望越来越高。最早用户只是希望人工智能可以解决一些重复性工作，或者替代一些高危行业。随着人工智能的发展，我们发现这一技术还逐渐拉近了人与人的距离。

这其实是一个相反的概念。

移动互联网从业者主要研究如何增加用户对产品的使用时长，而人工智能从业者则希望节省人们重复劳动的时间，进而增加人与人线下的交流和互动。随着人们交流互动的逐渐增加，相信未来人与人或人与机器的交互方式，也会得到改变，最终改变人们的生活方式。

人工智能发展规律：三大流程的螺旋式上升

人工智能的发展历程，实际上也是数据、模型和算力三大要素的持续迭代过程，产品能力的提升是三要素之间相互制约又相互促进的螺旋式上升过程。

通过人工智能模型可以理解智能识别方式的演进规律：以人脸识别算法为例，这种技术本质上是一种机器对外界感知的方法，在算法迭代过程中，算力是识别过程中消耗的资源，对应着CPU占有率。数据是人工智能算法中关键的存在，通过更多被标注的数据，可以让整个人工智能被更广泛的应用，使一些与人工智能结合的行业能够大规模爆发。

举个例子说明他们之间相辅相成的互动过程：算力的增加可以让一些对低延时有要求的应用快速拓展，在这一过程中，这些产品又能收集到更多数据，反哺算法，让算法更加优秀。反推回来，某些行业的发展速度也会由于某一发展元素的缺失受到束缚，因而人工智能在这一类行业的落地速度反而并没有想象中乐观。例如，由于缺乏医疗相关的标准数据，导致人工智能在整个医疗领域的布局相对比较薄弱。

从2015年开始，越来越多的行业开始引入人工智能，我们发现深度神经网络的确是这个行业中一个很大的推手，随处可见的移动设备和PC设备，也让整个移动互联网充斥着更多让人们可以查询的数据。随着人工智能的发展，一些开源数据、数据集应运而生，企业不需要自己去采集标注数据，直接使用标准化的数据产品就能完成一些初期验证。

进入下一阶段之后，我们发现越来越多的企业为了竞争，为了找到自己合适的场景，可能会需要一些新的数据，进而一些众包平台可以通过用户在手机上注册APP完成对数据的需求。

定制化数据：多模态、多场景、高精度

通过使用定制化数据服务，企业可以将自己计算的精度以及识别效益推到一个新的高度，进而落地成为产品被用户使用，而沉淀的用户数据以及用户在分享过程中逐渐产生的更多互联网数据，则会让整个数据库演变成大数据生态。

当下对数据的使用逐渐有“大”的趋势，或者说，整个定制化数据正在逐渐向多模态、多场景、高精度的方向发展。

同时，越来越多的企业开始研发自己的定制化设备，因为已有的数据无法满足算法迭代。以自动驾驶的激光雷达为例，为了更好地推进物体测序的效果，一些企业开始根据实际落地场景去研究光照角度，以及对应的遮挡情况，例如特定的阴天、阳光照射情况，还有背光、逆光等场景......

定制化设备和场景化数据，不仅考虑到新维度数据采集硬件差异化凸显的现状，还可以规避单一维度数据对算法上升成本增加的负面影响，同时也能发挥新维度数据融合加速落地场景的优势。通过定制的方式，可以获得实际场景所需的数据，反之，如果没有这样的数据，相关企业在具体场景中会很难工作。

Testin数据标注业务总经理贾宇航

因此，越来越多的公司开始往样本定制化、多样化方向发展，要求人工智能具有普惠性。这涉及到人工智能的公平性问题，要求产品要能被所有用户使用——肤色、方言、年龄的多样性都要纳入考虑范围。以机器人听懂人说话的这一需求为例，要求产品不仅要能够识别小孩的声音，同时也要能识别老人的声音，因此需要对相应的不同样本进行数据采集标注。这样一个复杂的工作过程，对人工智能企业服务人员的协同性提出了极大挑战。

同时，与原来的众包数据服务相比，新场景中有更多复杂条件，因此场景还原的难度和对数据精度的要求都提高了，这些新变化都要求相关从业人员提升工作效率。

此外，我们发现越来越多的人工智能行业正在走向细分领域，专业化的趋势加强，因此需要数据标注人员有一些专业领域的知识积累。以自动驾驶为例，有驾驶经验的人就比没有驾驶经验的人工作效率高。因此每一个数据标注行业、数据采集行业都会需要“老司机”这样一个工作角色存在。

我们发现，企业在每一个阶段所需要的数据不一样，从产品立项到功能迭代，企业都会需要相对应的数据产品和数据服务。现在，我们的人工智能已经发展到了需要定制化数据服务的阶段，我们希望越来越多企业可以对客户提供定制化数据服务，实现产业落地，最终再通过用户数据让产品更加智能化。

初衷：助力企业，让拥有数据成为企业的核心壁垒

回到刚才所说的自定义化场景数据，我们主要做两件事情：一个是，建立场景采集实验室，根据客户的场景以及被采的需求，搭建场景，采集客户所需要的特定数据；另一个是自建数据标注基地，现在我们已有千人左右规模的团队。通过标准化的持续培训和教导，以达到每一个行业及每一个客户的标准，尤其是会为一些高要求的企业提供具有相关领域专业背景知识的数据解决方案。

Testin数据标注业务总经理贾宇航

再回到我们从事AI数据服务的初衷。

Testin数据标注业务通过自建数据场景实验室和数据标注基地，为智能驾驶、智能家居、智能安防、智慧城市、智慧金融等领域提供定制化的数据采集、数据标注服务，全方位支持文本、语音、图像、视频等各类型数据的处理。我们希望在已有的领域能够越走越深，同时拓展到更多领域，为更多人工智能企业服务，也希望更多人工智能企业的产品和项目可以更快落地、让人们在日常生活中去使用；真真正正让用户感受到理解和温暖。

如果这个愿景达到了，作为幕后提供数据标注和数据采集服务的我们也就心满意足了。谢谢大家。

END.