【原】一层一层剥开Adobe的黑科技，原来你是这样玩AI的！

刺猬公社 2020-09-03

展开全文

导读

Adobe在人工智能领域的探索，或许能够让我们看到人工智能与产业融合的新方向。

by 张星钰

提到Adobe，你的第一反应是什么？

如果你对Adobe的认知还局限在能修图的Photoshop、能剪视频的After Effect，那么可以说你落后了！

Adobe是世界上最为知名的数字媒体编辑供应商，其旗下产品涉及了图像图形、影音网页的制作与编辑、浏览等多种领域。

Adobe旗下的产品合集

但是Adobe的心似乎却不止于此，美国时间11月2日，在美国圣地亚哥举行的AdobeMAX 2016全球创意用户大会上，Adobe推出一系列黑科技，宣告其正式进军人工智能领域，而其中要数Adobe Sensei和Project VoCo最为夺人眼球，

AdobeSensei：有事没事就找老师

“ Sensei”在日语中是“老师”的意思，在大会上所发布的Adobe Sensei则是Adobe推出的人工智能平台。

Adobe Sensei并不只是一个产品，更类似于一个插件，能够应用于Adobe旗下的软件中，能够自动执行一些难度较小、但是需要重复、固定操作的工作，从而使其变得智能化、自动化，为用户节省了时间成本，以便将精力用于更有难度的设计上。

正如Adobe的CEO Shantanu Narayen 在Adobe MAX 2016大会上所说的︰“Adobe Sensei 是专为解决当下在设计、文件及营销领域上复杂的体验问题而设立的，这些都是 Adobe 过去数十年来最精通而且处于市场领导地位的领域。利用机器学习、人工智能以及数以兆计的各种内容及数据资产，Adobe Sensei 将成为本公司最大的策略性投资之一。”

Adobe Sensei融合于设计、文件、营销的云端服务中

的确，人工智能、机器学习和数据资产，也就是Adobe通过长期积淀所积累的各类素材，使Adobe Sensei能依靠算法对用户的输入进行归纳与综合分析。

以元老级图片编辑软件Adobe Photoshop为例，Adobe Sensei为其新增了Visual Search的功能。当你想以图找图的时候，Visual Search可以自动标记原图，进行特征分析，智能推荐具有相似特征的图片，同时按分类标签。

Visual Search能够进行智能推荐

这听上去虽然有点像国内的搜狗、百度、360等搜素引擎所提供的“识图功能”，但是Visual Search并不需要你先保存图片到电脑上，再打开浏览器，上传图片进行搜索，整个过程在Photoshop的界面中就能完成。

搜狗搜索引擎提供的“识图功能”

同时，VisualSearch甚至能够方便用户的区域选择。在Photoshop里进行选区的常用方法便是使用选框工具、套索工具等进行像素选择，若效果不理想还需要用户进行手动选取，这样无疑浪费了许多时间。而Visual Search可以将图片中的不同区域分类标记，以供用户按需选择，不仅方便快捷，而且在精准度上有了明显的提高。

Morph Cut是Adobe Premier中引入的新功能。这项功能可以对视频内容进行分析理解，按照一定的标准进行归类，并推荐不同的特效。相对于之前在进行视频后期调色时的手动一一调整参数，新功能显然让用户轻松很多。

Adobe Lightroom里新增的功能Face-Aware Liquify则能够对脸部进行感知，即通过捕捉人脸上的眼睛、鼻子、嘴部等特征，来识别其位置和形状，方便户一键调整表情，大可而不必担心可能产生的偏差或者是表情怪异等问题。

Face-AwareLiquify能对面部表情进行识别和调整

这么说来，是不是觉得MorphCut与Face-Aware Liquify形似我国的国民照片神器美图秀秀的“一键特效”、“一键美颜”的功能？

除了以上对影像进行操作的例子外，Adobe Sensei 也为文档提供了强大的处理技术，比如将纸质文件转换为可编辑的电子文档，同时自动地匹配正确字体、创建表单字段、清除签名等，减少了很多繁琐零碎的工作。

Project VoCo：声音界里的PS神器

与Adobe Sensei类似，Project VoCo同样不是一个单独的产品，而是在音频编辑软件Adobe Audition基础上新加入的功能。这项黑科技的使用只需用户提供一段20分钟以上的声音，Project VoCo就能自动进行分析，将语音转换为文字。在这个过程中几乎不需要人的参与，由机器算法便能完成，用户只需修改转换后的文字，便可自动生成一段与原声近乎一致的新音频。

以Adobe公司代表在大会上的演示为例，嘉宾首先在现有的录音基础上（以保证至少20分钟时长的素材）说了一句话。

通过Project VoCo的算法处理，声音转换为了文字“And ur I kissed my dogs and my wife.”

Project VoCo将声音转换为文字

随即Adobe公司代表进行了文字复制和顺序交换，再引入新词“Jordan”“Three times”，最后生成的语音与嘉宾的原声可以说达到了以假乱真的程度，在声线、音色上几乎一模一样。

用户对文字进行复制、顺序、增删的调整仍能输出原声新片段

这样听上去是不是就像音频编辑领域的“Photoshop”？

毫无疑问，Project VoCo的出现会是一场新革命，无论是在音频的初期剪辑、后期调音还是在节省编辑时间、提高编辑效率等方面，都会为用户带去极大的便利。

但是，由于Project VoCo还处于开发阶段，技术上还存在瑕疵，比如在Adobe MAX 2016大会上的演示中，若仔细听在加入新词汇“Jordan”后合成的新片段，便会发现依旧有声音混杂、模糊不清的情况。

Project VoCo的工作原理是将声音拆分为最小单位的语素，通过对单个语素的模仿和复制来实现声音的合成。Adobe MAX 2016大会上的演示是基于英文而进行的，因而另外一个值得考虑的问题便是Project VoCo若想进入中国或者其他非英文母语国家，首先迎来的困难就是同时并存着的普通话、方言和民族语言等，其中方言和民族语言又因为地域和民族的不同又细分出成千上万的种类，形成了一个庞大的语言体系，如何进行有效地分析、拆分和模拟亦值得斟酌。

Project VoCo在对声音合成领域造成的颠覆、在人工智能领域带来的惊喜的同时，亦不能忽视其可能潜在的道德风险：

无论是媒体还是法律领域，录音都是证据中的一个重要形态。而Project VoCo对于音频强大到逆天的编辑功能，可能会促使伪证泛滥——记者无需通过暗访等各种手段获取关键性的录音片段，只需搜集足够长的日常语音即可按照自己的报道方向和角度自行合成所需要的声音素材；而法庭上的被告或者是原告也可随时调整证据，使案件朝有利于己方的方向发展。以上的种种行为都对法官、声音鉴定师带来不小的麻烦。

若媒体的客观真实不再，法律的公平公正公开崩塌，后果是难以想象的。

当然，这是最坏的结果。

而这也有可能会使电话诈骗分子的心更加蠢蠢欲动，行骗伎俩与高科技的结合，让电话这头的人分不清电话那头到底是真的遭遇意外的好友还是行骗之徒。估计等Project VoCo正式商业化后，人们就不能简单地通过声音识人辨人了，毕竟，谁知道你有没有使用Project VoCo进行变声呢？

虽然Adobe公司代表在大会上表示会有音频水印来确保声音没有被修改，但是谁又能保证这就能完全地抑制声音合成被有心之人在不同领域地滥用呢？

科技到底是不是一把双刃剑？

刺猬君在这儿说再多也没用，Adobe公司贴心地推出了套餐价，趁着双十一的到来还能再剁一次手来体验Adobe公司的黑科技。

人工智能是盘小心翼翼的棋

通过Adobe这次大张旗鼓地推出这几项黑科技，我们不免能窥出它正在布一盘人工智能的大局——目的是使用户体验更智能、更自动、更轻松。

人工智能早已不是什么新鲜事儿了，伴随着人工智能，我们经常可以看见的还有认知计算、机器学习和深度学习等词。

若人工智能是一种理念，后三者则是实现这种理念的方法。

认知计算是大数据时代的产物。计算机技术的快速发展产生大量数据，体量之庞大使人脑处理数据的短板显现——已知的范围、有限的数量、可能的差错。因而，机器产生的数据只能通过机器去分析，认知计算的要义是类脑计算，也就是让机器来分担需要人脑完成的数据分析工作。

机器学习则在认知计算的基础上更深入一步。在经过对大数据的分析后，找到数据之间存在的人们所想不到的联系，建立某种“模式”，从而来完成对事物的预测。比如最近因美国大选而爆红的“MogIA”人工智能系统，便是基于谷歌、Facebook、Twitter、YouTube等平台上所收集到的2000多万个社交数据，分析指标、建立模型，连续四届成功预测了美国总统大选结果。

深度学习实际上是机器学习的一个分支，近年来呈现出越来越流行的趋势。它的本质就是模仿人脑的多元神经网络的反应机制，在数据分析的基础上解释数据，做出判断和反应。反复这个过程，能使结果更加准确，也就做到了自我学习。

如果说越来越繁荣的人工智能是一盘棋局，那么欲在这盘棋局上落子的互联网巨头们可不少。

Facebook的的创始人扎克伯格在今年3月的F8开发者大会上便宣告了未来的十年发展计划——即实现全球互联、人工智能和虚拟现实/增强现实三大发展目标。

谷歌CEOSundarPichai在2016年新品发布会上宣布谷歌战略从Mobile First（移动先行）转向 AI First （人工智能先行）。

微软CEO SatyaNadella亦在9月的Ignite 2016大会中指明了AI将是微软的下一件大事。

而在国内，以百度、阿里巴巴、腾讯三巨头为首的互联网公司也纷纷进军人工智能领域。

有攻城略地之心是好事，但是如何下对子、找准自己的位置，至关重要。

反观此次Adobe推出的Adobe Sensei和Project VoCo两个黑科技，若我们一层一层地剥掉人工智能、机器学习的外壳，就会发现这两个黑科技的最终瞄准点还是在基本的图像、影音编辑上，而这恰恰是Adobe的立足之本。

DNA携带了一个人的基本特征和遗传信息，所以DNA才能够区分世界上的每一个人。

同样，一个企业也拥有能够将它和同类公司有所区分的特征，这就是企业的核心领域，也是企业的着力处。

当“人工智能战略＋核心优势”的组合出现了，企业方能在这盘大棋局里安心落子、登峰造极。

Facebook团队的理念是让人工智能变得可携带，而Facebook的核心优势是信息流，因而现在Facebook已经能够通过深度学习技术实现为信息流中的图片自动添加标题。

犹然记得在2016年的上半年，谷歌围棋机器人Alpha Go以总分4:1的明显优势战胜了世界围棋冠军李世石，这被视为机器战胜人类的里程碑事件。Alpha Go的原理即通过深度学习，建立可感知图片的多元神经网络，在比赛时能够识别正在对弈的棋局，并上传至谷歌的棋谱库里自动搜索，分析出策略后再落子。这恰恰是谷歌的核心技术搜索与人工智能的融合。

这样，我们也可观测到其他互联网巨头在人工智能的发力方向，微软主攻系统，苹果则集中火力于通讯……

而下一个入局落子的，又会是谁呢？

我们，拭目以待。

参考资料：

《Adobe再次放出黑科技大招》

http://mp.weixin.qq.com/s?src=3&timestamp=1478688547&ver=1&signature=UadVbFqIDl3ZIivJEqB2E0GBL3PWwZ9n0ZQu0h2ssr2YXTHlJoSSXAw7f7MX2r7vJ1vnVfBUGwAKOQUJR37e1n6BZR78wT9wuhLLrWRKK5hrQy27sm-GvOP09duF7Q2iDef9p7RAxoBq99nTsZC0fHby8hjmVusDV0Fsh7qIW8k=

《AlphaGo只是开头：深度解析谷歌人工智能计划》

http://tech.163.com/16/0402/09/BJKSNC2B000915BF.html

完

新锐观点前沿情报

内容产业报道第一媒体

原创出品授权转载