分享

机器学习、图像识别,无所不能的深度学习正进入我们的生活

 天道酬勤YXJ1 2016-10-10

随着人工智能技术的进步,越来越多的领域开始从中受益。

机器学习、图像识别,无所不能的深度学习正进入我们的生活近几年图像识别取得较大的进展:谷歌、微软、Facebook和百度均拥有能够让你搜索或者制动整理没有识别标签的照片的技术。例如,你可以要求呈现所有有狗、雪甚至像拥有这样的抽象事物的照片。这些公司都在研发能够在很短的时间内为照片生成一句长的描述的原型产品。

机器学习、图像识别,无所不能的深度学习正进入我们的生活

试想一下,要收集狗的照片,应用必须要辨别诸如吉娃娃和德国牧羊犬的品种,在小狗颠倒过来或者有些模糊的情况下要鉴别出来,要辨别它处在照片的左侧还是右侧,还要识别各种天气状况下的小狗,如雾、大雪、晴天和阴天。与此同时,它需要排除掉与狗有点相似的狼和猫,南京轻搜科技基于多年对市场的研究和理解,通过计算机视觉与深度学习技术,针对用户在某些场景中语言文字表述不便的困扰,推出一系列针对场景深度优化的图像识别算法,帮助用户更准确的利用图像搜索结果。

机器学习、图像识别,无所不能的深度学习正进入我们的生活

图像识别技术的进步远不局限于很酷的社交类应用。

川大网红老师的“看脸色神器”

“看脸色神器”——即通过捕捉视频中学生们的面部表情变化,可以分析上课效果到底好不好——发明者魏骁勇称呼它为“基于深度学习的课堂行为分析模型”。

机器学习、图像识别,无所不能的深度学习正进入我们的生活

根据这些学生的“脸色”,魏骁勇可以统计出,在什么时间学生们的积极性最高,什么时间学生们普遍“缺乏互动”。“上课效果好不好、怎么讲更好、更容易被理解和接受,可以说,看他们的‘脸色’就知道。’’

机器学习、图像识别,无所不能的深度学习正进入我们的生活

2002年美国科幻电影《少数派报告》曾展开想象:基于面部识别系统,通过表情、行为分析和大数据统计,对犯罪证据进行解析、跟踪,在罪犯犯罪前就对其进行干预,以达到预测、防止犯罪的目的。对此,魏骁勇说,“那是一个终极结果。”

机器学习、图像识别,无所不能的深度学习正进入我们的生活

利用图像识别技术,实现自动拍照结账

去超市购物,最让人头疼的莫过于排队结账了。排队等待结账不仅会让消费者失去耐心,降低消费的满意度,对超市和商家来说,聘请收银员也是一笔不小的人力开支。随着PepperPay视觉识别技术的问世,未来超市收银台前的长龙或许就不会再出现了。

机器学习、图像识别,无所不能的深度学习正进入我们的生活

使用PepperPay图像识别技术,消费者只需把想要购买的商品放置在配备了PepperPay 技术的设备前,设备会对商品进行拍照,然后自动识别购买商品的信息,无需借助任何人为帮助或条形码。采用拍照结账的方式,可以提高结账的效率和速度,而且也无需配合使用其他专门的软件。消费者结完账之后就可以离开,再也不用排队等候结账了。

机器学习、图像识别,无所不能的深度学习正进入我们的生活

阿里巴巴欲借“图像识别”逼假货现形

围绕阿里巴巴的电商业务,假货、虚假推广一直是绕不过去的话题,这也是上市后的阿里巴巴形象受损、饱受诟病的原因,而现在马云试图借助一项人工智能技术来扭转阿里巴巴卖“假货”的形象:OCR(图中文字识别)技术成为阿里巴巴辨识虚假推广的照妖镜。

机器学习、图像识别,无所不能的深度学习正进入我们的生活

前不久,阿里巴巴旗下广告交易平台阿里妈妈图像团队的OCR(图中文字识别)技术刷新了ICDAR Robust Reading竞赛数据集的全球最好成绩,借助这样一项领先的OCR技术,阿里妈妈图像团队能够以95%的超高准确率识别图中违规文字信息,有效过滤商家恶意推广。

机器学习、图像识别,无所不能的深度学习正进入我们的生活

在技术路线上,相比于传统方法,抛弃了图像预处理、字符分割等流程,采用了多个深度神经网络和语言模型相结合的方法来组成完整的OCR系统。针对复杂的场景信息,将LSTM(长短时记忆)技术成功应用到建模中去,大大提高识别的准确率。

德国研发出可识别脸部模糊照片的系统

德国马克斯-普朗克研究所的研究人员发现,即使照片上的人脸模糊,人物身份依然可以识别。

机器学习、图像识别,无所不能的深度学习正进入我们的生活

研究人员开发了一个神经网络系统,在利用清晰照片进行训练之后,这一神经网络即可识别出被模糊的的人物。由于许多人都在社交网络中上传过自己的多张照片,因此几乎任何被模糊的人脸都可以被识别出来。

机器学习、图像识别,无所不能的深度学习正进入我们的生活研究人员表示,在使用10张清晰照片进行训练后,模糊照片的识别准确率就能达到91.5%,而即使只分析过一张清晰照片,识别的准确率也能达到56.8%。

电装开发图像识别技术:56毫秒推断出行人的朝向和距离

电装集团开发出了利用单眼摄像头,快速实时识别行人的身体朝向、身高以及与汽车的距离等多种信息的技术。已通过实验确认,在模拟车载设备的演示环境下,处理时间只需56毫秒。电装打算将该技术应用于汽车的ADAS(高级驾驶辅助系统)。

机器学习、图像识别,无所不能的深度学习正进入我们的生活

识别多种特征时,处理的数据量庞大,因此采用原来的方法难以进行实时处理。电装此次通过调整图像数据的处理方法缩短了计算时间。同时,计算量也降至原来的1/10左右,在计算能力有限的车载半导体上也可使用。

机器学习、图像识别,无所不能的深度学习正进入我们的生活

调整DNN,满足ADAS的要求

该技术由电装的子公司Denso IT Laboratory开发。图像识别算法采用了深度学习的一种——DNN(Deep Neural Network,深度神经网络)。

机器学习、图像识别,无所不能的深度学习正进入我们的生活

以前进行图像处理时采用的是方向梯度直方图(HOG)和线性支持向量机(SVM)相组合的算法,但只能做出图像中有没有人这种简单判断。不能并行求出多个特征量,因此无法确定行人朝向、与车辆的距离等行人的状态和属性。

新开发的图像识别方法利用DNN并行处理图像中的多种不同信息。改进了名为“图像金字塔”的方法,提高了处理速度。原来的图像识别通过反复进行20~30次左右的“缩小分辨率-识别”过程,确保识别精度。此次,通过将循环次数减少到2~3次,减少了计算量。

该公司研究开发部研究员佐藤育郎介绍说,“能够以16~17帧/秒的速度(帧率)处理影像”。应用于汽车ADAS时,通常要求影像的帧率达到“10~15帧/秒左右”,此次的技术满足了这一要求。

行人检测以及基于携带手机等图像特征的处理通过图像识别进行分类。行人与汽车之间的距离可通过确定行人站立位置,根据函数求出。身体朝向可根据角度的数值信息进行判断。电装在2016年8月25日召开的记者说明会上进行了演示,表明通过采用该技术,可实时判断行人朝向、身高及与汽车的距离。

佐藤说,采用该技术,“甚至可以推测出年龄段及是否携带手机”。不过,做任何判断都必须要有用于深度学习的“正确数据”。电装集团尚未建立起年龄段及有无手机等状态的正确数据,今后将建立这些数据。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多