分享

年后不回北上广,在老家开个“AI数据标注工厂”可行否?

 罗子家教 2019-02-12

数据标注到底是个怎样的产业?在未来十年人工智能的高速发展中,普通老百姓又如何享受到它的红利呢?AI数据标注工厂又真的可行吗?

作者 | 连翘

编辑 | 杜仲

来源 | 起风财经(ID:QFCJ2018)



最近半年,“数据标注员”这一职业越来越多地出现在人们视野中。人工智能本身不会识别物体,而要依靠海量训练,数据标注员即教给人工智能认识事物的专职人员。


在媒体报道中,由于人工智能发展的需要,目前正有许多人从事着繁复又耗费眼力的数据标注工作。这些人要么是非洲贫民窟的单亲妈妈,要么是河南乡村初中学历的小青年。


高精尖的人工智能和低学历的工作者形成了强烈反差,同时也引起人们的好奇:数据标注到底是个怎样的产业?在未来十年人工智能的高速发展中,普通老百姓如何享受到它的红利?


带着这些疑问,起风财经(ID:QFCJ2018)采访了大型数据标注公司倍赛数据CEO杜霖。杜霖的回复有些出乎意外,首先他自己出身于和清华姚班齐名的上海交大ACM班,其次倍赛数据蛰伏了三年完善自身系统后,才开始大规模接业务。这些似乎都和当时的想象背道而驰。


  蛰伏三年研发系统


杜霖表示数据标注这件事已经有几十年历史了。其实所有对于信息的处理都是标注,包括纸质图书电子化、手写表格电子化、地图制作等。


数据标注的发展程度取决于机器学习的进步。多年来机器学习技术一直进展缓慢,直到2012年到2014年间,深度学习算法有了大的突破。也是从那个时候,杜霖关注到数据标注行业。


杜霖是科班出身,从初中就开始写代码,高中就对计算机视觉和模式识别产生了兴趣,并发表了第一篇计算机视觉论文。


大学毕业后不久,正赶上新算法的出现,杜霖测试了一下新技术的识别效果。他拉着交大的同学跑了一个模型:从冰箱上采集了100多种食品做检测和识别,前后用了6个月,其中5个月在搭建数据采集环境、标注数据、找人质检,一个月在训练模型。标注数据用了将近30人,训练模型只有一位AI工程师。测试结果综合识别率达到了89.9%,虽然不完美,但是已经能够商用。


但整个过程中繁重的数据处理工作让杜霖非常头痛,不过这也给了他启发,就是未来人工智能如果想大规模地商用,数据处理一定是个商机。


从2014年杜霖便开始研发自己的标注系统,2017年底系统稳定后才开始接业务,其间一直有融资支撑。2018年,倍赛数据营收超过前一年五六倍,达到了三千万。“2019年的营收目标是七千万,”杜霖说,“行业太多了,我们每天都会收到大量的需求。”


  “人工智障”大大提高了人们的效率


许多人都认为现在的人工智能是“人工智障”,功能非常不完善。但实际上,业内一直持续在追求更高的智能化,而且即使目前“人工智障”水平的人工智能,已经能解决大量问题。


杜霖举了个例子,银行有大量后台人员,每天要审很多单据,许多单据之前都是手写的,审的时候要一个个地人工比对。银行的这类工作人员足有几千人,后来基于人工智能将手写数字和名字有效识别后,有的银行一下子减少了几千个岗位。


他把目前的人工智能比作一次工业革命,它目前虽然只有认知能力没有决策能力,但是取代了很多重复性劳动。另外虽然人工智能减少了工作岗位,但可以使更多人腾出精力做创造性更高的事。


许多人认为标注行业会由于机器的更智能而没落,但杜霖表示十年之内基本不用担心业务,最主要的原因就是深度学习的原理始终是基于统计学的。计算机所谓的学习是基于统计学构造的,和人的学习本质不一样,输入再多的程序,也不会接近人类的思维,它只是能认知,能分类。


因为数据永远在产生,系统终究有没见过的数据,所以数据识别的需求将一直存在。


非洲贫民窟和河南乡村作坊的“标注民工”不是主流


目前各行各业都已经通过人工智能提升了效率,除了现在应用最多的安防和驾驶外,杜霖的团队已经在为医学、工业、遥感等较复杂的行业做标注。


“专业的领域只要把规则说清楚也能打标,通过培训,我们已经在为一些医学影像中脑瘤的判断和识别做标注,另外还为企业做工业生产设备的标识。因为跟专业设备相关,所以一点都不简单,光培训标注员就要一个月时间。”杜霖说。


现在许多媒体都打出“标注民工”的旗号,称目前非洲贫民窟的单亲妈妈和河南农村的辍学小青年都在标注工厂工作。对于这些说法杜霖很是反感,他表示其实目前数据标注的重要从业者还是技术人员,“标注民工”只能做最简单的事,而且正确率很低。


数据是要求一点都不能出错的,比如银行表单的审核,这些必须通过技术和管理流程来满足。


从技术上来说,杜霖在北京望京的公司有四十多名员工,绝大部分是技术人员。在复杂技术的处理上,三年多来杜霖一直带领团队想办法,比如AI的数据预处理,作业流的串联、并联等方式,如多人拟合、投票等。


还有其它技术手段,比如机器辅助质检,有些通用的结果机器是可以判断出来的,先预处理这些结果,再跟人处理的结果比对,如果差异过大就可能是人错了。埋雷也是一个办法,比如一万条数据中,其中一百条已经知道答案了,把这些数据散布在这一万条里头,如果处理员工把这些标准答案都做错了,就说明质量有问题了。


“我们其实是一家技术公司。”杜霖说。


从管理上来说,同样能提升效率,比如有效的人工分配,有效的任务拆分与分配机制,整体的任务管理监控。用监控的手段进行管理,因为每一步都能质检到,所以可以看到每个数据处理人员的效率和正确率。


目前倍赛数据拥有一个名叫BISIC HIVE的私有化数据标注平台,集成了三年来各种数据标注管理技巧,以及倍赛数据在技术上对于数据质量控制的算法。目前倍赛数据已经把平台私有化输出给了招商银行等客户。“农村的数据工厂只能提供简单的人力服务,和系统化管理差的还很远。”杜霖说。


  数据隐私和重复标注能否解决?


数据隐私是人们都关注的话题。杜霖表示自己不会去碰隐私性数据,目前的业务量已经足够多,没必要再去触碰红线的边缘赚钱。


杜霖称倍赛数据不做数据交易,而且对于身份证这种数据的处理并不会通过倍赛公司自己的服务器。


公司将BasicHive系统部署在客户的服务器上,连接后,公司远程通过VPN和数据加密的方式传输,再来处理数据,处理完数据还是存在客户的服务器上。倍赛公司只是提供了人力服务和技术支持。


另外还有个重复标注的问题。目前国内每个行业都有多家公司,为何同一行业的不能使用同样的数据?比如每家自动驾驶公司都去标注数据,岂不是重复又浪费吗?


对于这个问题,杜霖称每家公司的数据都存在差异,大家都在各自跑马圈地造数据。而且不同公司之间的硬件解决方案,以及整体的系统方案是不一样的,比如摄像头的不同等导致数据多少会有差异,这些差异导致数据集不一样,也无法通用。


他认为解决方法是需要一个独立的第三方机构,来倡导成立一个数据联盟,但目前除了国家提出,指望企业是很难,因为大家都在拼命地攒数据,数据都是各自的核心资产。这种数据冗余的情况一时半会还难以解决。


  人工智能下一步创业机会在垂直行业


虽然近半年数据标注行业才出现在人们眼中,但其实行业已经经历了一轮洗牌,2017年,许多三四线城市的网吧作坊都变成了数据公司,当时靠低价获得订单,由于不可控的质量和工期,最终失去了客户。目前很多这样的公司已经被淘汰。


杜霖认为未来可能需要的标注人员越来越多,但是做标注的公司靠压榨人力、倒卖人力是不会长久的。如果在技术上没有优势,数据标注行业的创业机会已经不多,因为目前价格已经相对透明。


从AI行业来看,创业机会则指向更垂直的行业,在具体的应用场景中懂得如何用AI来解决问题。而现在情况是,做数据标注模型的公司不懂产业是如何提升效率的,做产业的公司不懂采集数据、标注数据、构建模型。


杜霖透露这个断层已经在无人超市、自动驾驶等前沿行业有大量公司的涌入,但是对于细分垂直行业依然有机会。比如倍赛数据通过处理遥感的图像帮助东北的森林检测病虫害。同理,还帮助西北地区监测野生动物的分布等。


目前,倍赛数据的竞品包括百度众测、京东众智、京东微工等平台,以及海天瑞声、数据堂等几家大型公司。不过这几家侧重点不太一样,有的做语音标注,有的数据交易,而倍赛数据则偏技术型。作为一个独立第三方平台,杜霖认为自己比京东阿里之类的更中立。


目前有一些三线城市的政府联系到倍赛数据,希望为当地的学校解决就业岗位。杜霖正和山东的高校联系,并且正在河北等地选址。


2018年,倍赛数据收购了数据公司“丁火智能”,年底还并购了合作多年的一个大型数据运营中心。目前正准备新一轮融资,将用在海外业务的开拓和持续的技术投入上。



推荐·阅读


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多