分享

微信读书工具箱

 紫色秋风书屋 2024-02-21 发布于江苏

封面

版权信息

代序 AIGC和智能数字化新时代——媲美新石器时代的文明范式转型

内容生成的四个阶段如图0-1所示。
图0-1 内容生成的四个阶段
图0-9 AIGC产业规模生态分布资料来源:陈李,张良卫(2023),“ChatGPT:又一个“人形机器人”,东吴证券,https://www./report/view_5185573.html
图0-8 AIGC产业生态资料来源:腾讯《AIGC发展趋势报告》,2023年1月31日发布
图0-6 GPT-4的参数规模
它不是像手机这种小的奇异点,而是可以和人类诞生对等的超大奇异点,甚至大到可以改变整个地球所有生命的运作模式。”
2005年,雷·库茨维尔(Ray Kurzweil,1948— )的巨著《奇点临近:当计算机智能超越人类》
第十三,AIGC正在引领人类加速逼近“科技奇点”。现在,人工智能已经接管世界;世界正在经历一波人工智能驱动的全球思想、文化、经济、社会和政治的转型浪潮。AIGC呈现指数级的发展增速,开始重塑各个行业乃至全球的“数字化转型”。
第十二,AIGC的法律影响和监管。虽然AIGC这样的新技术提供了很多希望,但也会给法律、社会和监管带来挑战。
在这样的新兴产业构造和商业模式下,就业市场会发生根本性改变:其一,专业职场重组,相当多的职业可能衰落和消亡;其二,原本支持IT和AI产业的码农队伍面临严重萎缩。
根据有关机构预测,2030年的AIGC市场规模将超过万亿人民币,其产业规模生态如图0-9所示。
在产业生态方面,AIGC领域正在加速形成三层产业生态并持续创新发展,正走向模型即服务(MaaS)的未来(图0-8)。
第十一,AIGC催生出全新的产业体系和商业化特征。
元宇宙的本质是社会系统、信息系统、物理环境形态通过数字构成了一个动态耦合的大系统,需要大量的数字内容来支撑,人工来设计和开发根本无法满足需求,AIGC可以最终完善元宇宙生态的底层基础设施
第十,AIGC将为区块链、NFT、Web3.0和元宇宙带来深层改变。AIGC不可枯竭的创造资源和能力,将从根本上改变目前的NFT概念生态。Web3.0结合区块链、智能合约、加密货币等技术,实现去中心化理念,而AIGC是满足这个目标的最佳工具和模式。
第九,AIGC和硬技术相辅相成。从广义上讲,AIGC的硬技术是AI芯片,而且是经过特殊设计和定制的AI芯片。AI芯片需要实现CPU、GPU、FPGA和DSP共存。
第八,AIGC的算力需求呈现显著增长。
根据学界经验,深度神经网络的学习能力和模型的参数规模呈正相关。人类的大脑皮层有140多亿个神经细胞,每个神经细胞又有3万多个突触。所以,大脑皮层的突触总数超过100万亿个。所谓的神经细胞就是通过这些突触相互建立联系。假设GPT-4实现100万亿参数规模,堪比人的大脑,意味着它达到与人类大脑神经触点规模的同等水平。
GPT-2大约有15亿个参数,而GPT-3最大的模型有1 750亿个参数,上升了两个数量级。
第七,AIGC的进化是参数以几何级数扩展为基础。
从技术的角度来看,扩散模型是一个潜在变量(Latent Variable)模型,通过马尔可夫链(Markov chain)映射到潜在空间。
一般来说,AIGC因为吸纳和依赖扩散模型,而拥有开放性创造力。
第六,AIGC开放性创造力的重要来源是扩散(Diffusion)模型。
这意味着传统人类内容创作互动模式转换为AIGC模型互动模式。2022年是重要的历史拐点(图0-3)。
2022年,在集群式和聚变式的科技革命中,人工智能生成内容(AIGC,AI Generated Content)后来居上,以超出人们预期的速度成为科技革命历史上的重大事件,迅速催生了全新的科技革命系统、格局和生态,进而深刻改变了思想、经济、政治和社会的演进模式。
第一,AIGC的意义是实现人工智能“内容”生成。

前言 从机器学习到智能创造

随着深度学习的发展和大模型的广泛应用,生成型人工智能已经走向成熟,人们沿着机器学习的路,探索出了如今的智能创造。在智能创作时代,机器能够写诗,能够作画,能够谱曲,甚至能够与人类自然流畅地对话。人工智能生成内容(AIGC)将带来一场深刻的生产力变革,而这场变革也会影响人们工作与生活的方方面面。
如同人类通过学习获得智能一样,自20世纪80年代起,机器学习成为人工智能发展的重要力量
数十年前,图灵抛出的时代之问“机器能思考吗?”将人工智能从科幻拉至现实,奠定了后续人工智能发展的基础。

第一章 AIGC:内容生产力的大变革

第一节 从PGC、UGC到AIGC

第二节 人工智能赋能内容创作的四大模态

第三节 AIGC助力元宇宙和Web3.0

第三节 AIGC助力元宇宙和Web3.0
第二节 人工智能赋能内容创作的四大模态
第一节 从PGC、UGC到AIGC
3.结合AIGC的GameFiGameFi是一种结合区块链技术的游戏形式,通常会对游戏内的资产NFT化,并设计有一定的经济体系维持游戏的运转。在开发GameFi游戏过程中,人物、场景、动画甚至逻辑代码等都可以由AIGC创作,通过这种方式可以大大缩短游戏的创作周期,也能产生一些意想不到的创新应用。
通过“NFT+AIGC”的方式,就可以实现这种绘画风格的确权。艺术家可以将自己的绘画风格制作成NFT进行交易,而购买了绘画风格NFT的客户就可以利用AIGC批量生成该风格下的各种类型的插画,这就是AIGC在绘画风格确权方面的应用。
2.绘画风格确权
1.AIGC生成制作NFT
这里的Web3.0主要指基于区块链技术所构建的价值互联网。在Web3.0中,用户可以借助NFT(Non-Fungible Token,非同质化代币)将自己的创作物添加至代币上链,来确认自己对于创作物的创作权益。
二 AIGC在Web3.0方向的应用
Meta在2022年初就公布了AIGC生成元宇宙场景的概念系统“Builder Bot”,用户在元宇宙中只要通过语音说出自己想要的环境,周围的虚拟空间就会自动生成相应的场景。
3.虚拟场景
如果未来能将这些模型大规模落地推广并应用于元宇宙中,可以大大提高虚拟物品的生成效率。
2022年9月底,谷歌就发布了文本生成3D模型的工具DreamFusion,而在此之后不久,英伟达也推出了类似工具Magic3D
而在2022年12月,OpenAI也推出了自己的文本生成3D模型的工具Point·E。
文本输入自动渲染3D模型
用户使用Loom.ai的组件,可以直接利用单张图片生成3D写实风格或卡通风格的虚拟化身形象。
2.虚拟物品
1.虚拟形象
这样一个“世界级”的工程项目,单靠人力创作可能难以做到尽善尽美,而AIGC的介入将可能大大提升元宇宙的构建效率。
元宇宙
一 AIGC在元宇宙方向的应用
除此之外,像AI视频换脸这种视频部分编辑的形式从广义上来说也属于AIGC的范畴。
从广义上讲,AI主播也可以看作一种AIGC生成视频的应用,只不过是将生成的音频内容去对应到虚拟人的口型与动作进行综合剪辑。
视频属性编辑包括删除特定主体、生成特效、跟踪剪辑等,能够高效节省人力和时间。AI能够通过对画面人物的动态追踪,自动搜索人物,定位关键时间节点,极大提升剪辑效率。此外,AI还能够去除视频的拍摄抖动,修复视频画质。
除了刚提到的这些新兴的视频AIGC技术,AIGC在视频生成方面的常见传统应用场景还包括视频属性编辑、视频自动剪辑及视频部分编辑。
谷歌推出的另一款AI视频生成工具Phenaki则可以根据200个词左右的提示语生成2分钟以上的长镜头,讲述一个完整的故事,并能根据提示语自由切换风格场景,让人人都能够成为导演。
2022年9月,Meta推出的Make-A-Video工具就具有根据文本描述生成相应短视频的能力。Make-A-Video推出不久,谷歌就推出了主打高清生成的Imagen Video和主打更长视频内容生成的Phenaki。
目前,AI技术不仅可以生成图片,也能够生成序列帧,组成一个完整的视频。2022年10月,AI重置版《幻觉东京》发布。
四 AI视频生成
针对AI与人类的辩题,Midjourney的创始人大卫·霍尔兹(David Holz)这样评价:“AI是水,而非老虎。水固然危险,但你可以学着游泳,可以造舟,可以造堤坝,还能借此发电;水固然危险,却是文明的驱动力,人类之所以进步,正是因为我们知道如何与水相处并利用好它。水给予更多的是机会。”
除了可能提高封面插图类的设计效率外,AI绘画目前也被用于游戏开发环节
伴随着AI绘画技术的逐渐成熟,AI插画也被用作一些具有功能性的场景中。例如,2022年6月11日,著名杂志《经济学人》首次采用了AI插画作为封面,作品名为《AI的新边界》(AI's new frontier)。
AI降低了普通人参与艺术创作的门槛,让没有绘画基础的人也能通过文字描述表达自己的创作灵感,满足自己的创作欲望。
AI绘画大致可以分为三类:借助文字描述生成图像、借助已有图像生成新图像,以及两者的结合版。
AIGC在图像生成方面有两种最成熟的落地使用场景:图像编辑工具与图像自主生成。图像编辑工具的功能包括去除水印、提高分辨率、特定滤镜等。图像自主生成其实就是近期兴起的AI绘画,包括创意图像生成(随机或按照特定属性生成画作)与功能性图像生成(生成logo、模特图、营销海报等)。
三 AI图像生成
网易伏羲利用自主研发的“有灵智能创作平台”,让AI学会人类语言组织的基本逻辑。借助大规模的语料训练,用户可以仅凭借输入预设风格、标签、情绪和韵脚便可以得到一首极富韵律美和意境感的歌词
在OpenAI发布的最新项目MuseNet中,用户可以使用AI生成多达10种乐器演奏的歌曲,甚至还可以制作多达15种风格的音乐,模仿莫扎特和肖邦等古典作曲家、Lady Gaga等当代艺术家,也可以模仿电子游戏音乐等类型。
AI音频生成主要分为两种类型:语音合成与歌曲生成
程序员、研究员、产品经理等涉及重复性工作的脑力劳动者可能都将被AI取代,这些职业可能都演变成了新的职业——提示词(Prompt)工程师,目的就是帮助人类更好地与AI互动。
同样,用户也可以通过不断的提问引导ChatGPT,层层递进完成从研究框架到研究报告的输出。先让ChatGPT生成报告大纲,再通过类似专家访谈一样一步步提问让ChatGPT补充报告内容,并在这个过程中根据其答案进行衍生提问,不断完善它的逻辑。
人类在想方设法地释放AI的力量。例如,产品经理试图引导ChatGPT生成产品需求文档,训练ChatGPT根据自己之前写的周报自主修改周报。
最令人印象深刻的交互式文本内容生成应用要属ChatGPT。与前文所展示的例子不同,ChatGPT可以同时作为问答、聊天及创作AI存在,它的使用场景日常且多样,融合了文案生成、小说续写、代码生成、代码漏洞修复、在线问诊等场景,甚至展现出了超越搜索引擎的潜力。
2021年,开发者尼克·沃尔顿(Nick Walton)就曾推出过这样一款游戏《AI地下城 2》(AI Dungeon 2)。这是一款能够无限生成的文字冒险游戏,玩家可以从生成的几个设定和角色中进行选择,然后用动词开头的祈使句来输入行动,游戏AI会自动根据输入的行动生成相应的故事。
2021年10月初,美国热门流媒体平台网飞(Netflix)与知名喜剧人基顿·帕蒂(Keaton Patti)在YouTube上合作发布了一部AI剧本创作的电影《谜题先生希望你少活一点》(Mr.Puzzles Wants You to Be Less Alive)。AI被基顿·帕蒂强迫着“观看”了超过40万个小时的恐怖电影剧本之后,创作出了这部电影作品,并收获了用户的广泛关注。
在2016年的伦敦科幻电影节上诞生了人类史上第一部由AI撰写剧本的电影《阳春》(Sunspring)。这部影片的机器人编剧“本杰明”由纽约大学研究人员开发,虽然影片只有9分钟,但本杰明在写作前经过了上千部科幻电影的训练学习
2017年微软推出的人工智能虚拟机器人“小冰”出版了人类史上第一部AI编写的诗集《阳光失了玻璃窗》,其中包含139首现代诗。
AI文本生成的方式大体分为两类:非交互式文本生成与交互式文本生成。非交互式文本生成的主要应用方向包括结构化写作(如标题生成与新闻播报)、非结构化写作(如剧情续写与营销文本)、辅助性写作。其中,辅助性写作主要包括相关内容推荐及润色帮助,通常不被认为是严格意义上的AIGC。交互式文本生成则多用于虚拟男/女友、心理咨询、文本交互游戏等涉及互动的场景。
二 AI音频生成
一 AI文本生成
也有不少人对此表示担忧,担心作家、画家、程序员等职业在未来都将被人工智能所取代。虽然存在这些担忧,但人类的创造物终究会帮助人类自身的发展,AIGC无疑是一种生产力的变革,将世界送入智能创作时代。在智能创作时代,创作者生产力的提升主要表现为三个方面:
·代替创作中的重复环节,提升创作效率。·将创意与创作相分离,内容创作者可以从人工智能的生成作品中找寻灵感与思路。·综合海量预训练的数据和模型中引入的随机性,有利于拓展创新的边界,创作者可以生产出过去无法想出的杰出创意。
2022年下半年,两个重要事件激发了人们对AIGC的关注。2022年8月,美国科罗拉多州博览会上,数字艺术类冠军颁发给了由AI自动生成并经由Photoshop润色的画作《太空歌剧院》,该消息一经发布就引起了轩然大波。
2014年诞生的GAN(Generative Adversarial Networks,生成对抗网络)是AIGC早期转向大模型的重要尝试,它利用生成器和判别器的相互对抗并结合其他技术模块,可以实现各种模态内容的生成。而到了2017年,Transformer(变换器)架构的提出,使得深度学习模型参数在后续的发展中得以突破1亿大关,这种基于超大参数规模的大模型,为AIGC领域带来了前所未有的机遇。此后,各种类型的AIGC应用开始涌现,但并未获得全社会的广泛关注。
继PGC、UGC之后形成的、完全由人工智能生成内容的创作形式被称为AIGC。
三 AIGC:智能创作时代
与PGC类似,UGC突出的内容优势也必然伴随着不可避免的痛点,极其丰富的内容背后存在着内容质量参差不齐的问题,平台方需要投入大量精力和成本去进行创作者教育、内容审核、版权把控等方面的工作
所谓UGC,指的是由所有普通用户生产内容,这些内容具有多样化的特征,并借由推荐系统等平台工具触达与内容匹配、具有相应个性化需求的用户。
二 UGC:用户创作时代
PGC虽然具有高质量、易变现、针对性强等优势,但也存在着明显的不足。因为专业的质量要求往往导致这类内容创作门槛高、制作周期长,由此带来了产量不足、多样性有限的问题
后来诸多内容平台、互联网媒体机构、知识付费公司的创立与发展,才真正促使现在普遍意义上PGC概念的形成。现在的PGC主要是指由专家与专业机构负责生产内容,因为他们具备专业的内容生产能力,能够保证内容的专业性。
通过专业方式聚合、筛选并呈现出来的内容大多具有专业性,是由专业人士生产的高质量内容,这种内容生产方式被称为PGC。雅虎的综合指南网站以及亚马逊的互联网电影资料库(IMDb)就是典型的产品代表
一 PGC:专家创作时代
自第三次科技革命之后,互联网成为连接人类社会的主要媒介,内容则是人们生产和消费的主要产品。互联网经历了Web1.0、Web2.0、Web3.0与元宇宙时代,不同互联网形态下也孕育了相辅相成的内容生产方式,并一直沿用至今。表1-1呈现了内容生产方式从PGC(Professional-Generated Content,专业生成内容)到UGC(User-Generated Content,用户生成内容),再到AIGC的发展历程。
生产力是推进社会变革的根本动力,而生产工具则是衡量生产力发展水平的客观尺度,也是划分经济时代的物质标志
自工业革命以来,“是否具备创造力”就被视为人类和机器最本质的区别之一。然而,今天的人工智能却打破了持续数百年的铁律。人工智能可以表现出与人类一样的智慧与创意,例如撰写诗歌、创作绘画、谱写乐曲,而人类创造出的智能又将反哺人类自身的智能。AIGC(Artificial Intelligence Generated Content,人工智能生成内容)的兴起极大地解放了人类的内容生产力,将数字文明送入智能创作时代。我们有幸处于时代浪潮之巅,见证由技术进步带来的全新变革。
AIGC如何从生产力角度促进当今数字经济的发展?
现在流行的国外AI绘画工具Stable Diffusion、DALL·E 2、Midjourney等,以及国内AI绘画工具文心一格、意间AI绘画、AI Creator等
2022年11月30日,OpenAI发布了名为ChatGPT的超级AI对话模型,再次引爆了人们对于AIGC的讨论热潮。
最初的AIGC通常基于小模型展开,这类模型一般需要特殊的标注数据训练,以解决特定的场景任务,通用性较差,很难被迁移,而且高度依赖人工调参。后来,这种形式的AIGC逐渐被基于大数据量、大参数量、强算法的大模型(Foundation Model)取代,这种形式的AIGC无须经过调整或只经过少量微调(Fine-tuning)就可以迁移到多种生成任务。

第二章 AIGC的技术思想

第一节 前AIGC时代的技术奠基

第二节 早期AIGC的尝试:GAN

第三节 AI绘画的推动者:Diffusion模型

第四节 大模型的重要基建:Transformer

图2-15 ChatGPT的训练过程示意图
图2-14 Transformer结构简化图
图2-8 图片增加噪声的演变示意图
步骤一和步骤二交替反复进行,GAN最终就可能生成让人满意的作品
图2-7 生成对抗过程示意图
图2-5 强化学习构成元素及其关系
图2-4 简化的人工神经网络结构示意图
图2-3 简化版感知器结构示意图
第一节 前AIGC时代的技术奠基
BERT(Bidirectional Encoder Representations from Transformers,变换器的双向编码器表示)模型由谷歌在2018年提出,其基本思想是既然编码器能够将语义很好地抽离出来,那直接将编码器独立出来也许可以很好地对语言做出表示
模型会从问题库里抽取问题,由工作人员撰写问题的答案,这些标记了答案的问题会被用于调优GPT-3.5模型(GPT-3的改进版)。
资料来源:https:///blog/chatgpt/
GPT-3基本上沿用了GPT-2的结构,但在参数量和训练数据集上进行了大幅增加,参数量增加了百倍以上,预训练数据增加了千倍以上。
因此,当模型的容量非常大且数据量足够丰富时,一个无监督学习的语言模型就可以覆盖所有监督学习的任务。
GPT-2的核心出发点是:在语言模型领域,所有监督学习都可以看作无监督学习的子集。
GPT(Generative Pre-trained Transformer,生成型预训练变换器)是由OpenAI研发的大型文本生成类深度学习模型,可以用于对话AI、机器翻译、摘要生成、代码生成等复杂的自然语言处理任务。GPT系列模型使用了不断堆叠Transformer的思想,通过不断提升训练语料的规模与质量,以及不断增加网络参数来实现GPT的升级迭代
四 GPT系列模型与ChatGPT
此外,在两个模块中间,还有一个多头注意力机制模块,刚刚提到的来自编码器的向量集就会输入这里,让解码器在解码过程中能够充分关注到上下文的信息。
解码器内部的结构也和编码器类似,最开始包含一个多头注意力机制模块,最后包含一个前馈神经网络模块。需要注意的是,解码器中的多头注意力机制模块使用了掩码(Mask)机制,其核心思想是:因为解码器的生成物是一个个产生的,所以生成时只让参考已经生成的部分,而不允许参考未生成的部分。
多头注意力机制主要通过多种变换进行加权计算,然后将计算结果综合起来,增强自注意力机制的效果。这种注意力机制在后文介绍的Transformer中会涉及。
虽然Seq2Seq模型可以实现将一种语言翻译为另一种语言,但随着句子长度的增加,翻译的性能将急剧恶化,这主要是因为很难用固定长度的向量去概括长句子里的所有细节,实现这一点需要足够大的深度神经网络和漫长的训练时间。为了解决这一问题,学者们引入了注意力机制。
Stable Diffusion对于生成当代艺术图像具有较强的理解力,善于刻画图像的细节,但为了还原这些细节,它在图像描述上需要进行非常复杂细致的说明,比较适合生成涉及较多创意细节的复杂图像,在创作普通图像时可能会略显乏力。DALL·E 2由其前身DALL·E发展而来,其训练量无比庞大,更适合用于企业所需的图像生成场景,视觉效果也更接近于真实的照片。而Midjourney则使用Discord机器人来收发对服务器的请求,所有的环节基本上都发生在Discord上,并以其独特的艺术风格而闻名,生成的图像比较具有油画感。
Disco Diffusion就是早期结合CLIP模型和Diffusion模型变体开展AI绘画业务的知名案例。
这本质上是一个文本和图像匹配的问题。
CLIP模型是OpenAI在2021年初发布的用于匹配图像和文本的预训练神经网络模型。
iffusion模型尝试使用一种更加简单的方法生成图像。大家是否记得老式电视机信号不好时屏幕上闪烁的雪花?这些雪花是随机、无序、混乱的,因而被称为噪声。当电视机信号不好的时候,屏幕上就会出现这些噪声点,信号越差就会出现越多的噪声点,直到最后屏幕完全被随机的噪声覆盖,图2-8就展示了这样一个在图像上增加噪声的演变过程。那么换一个角度去思考,既然任何一张图像都可以在不断添加噪声后,变成一张完全随机的噪声图像,那我们能不能将这个过程翻转,让神经网络学习这个噪声扩散的过程之后逆向扩散,把随机生成的噪声图像,逐渐转化为清晰的生成图像呢?Diffusion模型就是基于这个思想实现的。
四 GAN的AIGC应用
判别器训练好之后,保持内部参数不变,生成器需要调整内部参数进行训练,以学会如何在判别器那里取得高分。
首先,生成器抽取一些包含一系列随机数的向量,输入生成器之中,生成器会生成一系列图片。这时,在生成器内部参数不变的情况下,判别器需要从生成器训练的数据集中抽取一部分图片,将它们和生成器生成的图片一起做学习训练。判别器需要调整内部参数,学习给真实的图片打高分,给生成器生成的假图片打低分。
以图像生成的过程为例,生成器就好像一个学习画画的学生,而判别器就是评价学生画作的老师。
我们可以向生成器(Generator)输入包含一串随机数的向量,生成器会根据这一串随机数生成并输出图像或句子。向量里的每一个数字都会与生成的图像或句子的特征相关联。
第二节 早期AIGC的尝试:GAN
·深度神经网络具有更多的神经元。·深度神经网络层次更多、连接方式更复杂。·深度神经网络需要更庞大的计算能力加以支持。·深度神经网络能够自动提取特征。
2.深度神经网络与一般神经网络的区别
1.深度学习的概念
五 深度学习
·观测环境,获取环境的状态并确定可以做出的行动:马里奥目前在一个悬崖边上,系统读取了所有元素的状态,马里奥可以左右移动或者跳起。·根据策略准则,选择行动:策略里面显示,这种状态下左右移动和跳起的价值差不多,在差不多的情况下,马里奥应该向右走。·执行行动:马里奥在人工智能的指挥下向右走。·获得奖励或惩罚:马里奥掉下了悬崖,游戏失败,被扣除一定的奖励。·学习过去的经验,更新策略:在这个悬崖边向右走的价值较低,获得奖励的概率更低,人工智能知道后应该倾向于操作马里奥跳起或左走。·重复上述过程直到找到一个满意的最优策略。
3.强化学习的训练过程
强化学习系统的逻辑如图2-5所示,我们可以用一场《超级马里奥》游戏来分析图中的每个元素。
·智能体(Agent):人工智能操作的马里奥,它是这个游戏的主要玩家。·环境(Environment):马里奥的游戏世界,马里奥在游戏里做出的任何选择都会得到游戏环境的反馈。·状态(State):游戏环境内所有元素所处的状态,可能包括马里奥的位置、敌人的位置、障碍物的位置、金币数、马里奥的变身状态等,玩家的每次选择可能都会观测到状态的改变。·行动(Action):马里奥可以做出的选择,可选的行动可能会随着状态的变化而变化,比如在平地的位置上可以选择左右移动或跳起,遇到右侧有障碍物时就无法选择向右的行动,获得火焰花道具变身后就可以选择发射火焰弹的行动等。·奖励(Reward):马里奥在选择特定的行动后获得即时的反馈,通常与目标相关联。如果反馈是负向的,也可以被描述为惩罚。马里奥的游戏目标是到达终点通关,因而每次通过都可以获得奖励分数,而每次失败都会被扣除奖励分数。如果目标是获得尽量多的金币,奖励也可以与金币数量挂钩,这样训练出的马里奥AI不会去尝试通过终点,而是拼命在关卡里搜集金币。·目标(Goal):在合理设置奖励后,目标应该可以被表示为最大化奖励之和,例如马里奥的通关次数最多。
2.强化学习的构成元素
谷歌旗下DeepMind公司研发出了围棋人工智能AlphaGo,它的训练过程就结合了强化学习的技术
表2-1 监督学习、无监督学习和强化学习对比
区别于监督学习和无监督学习,强化学习并不是要对数据本身进行学习,而是在给定的数据环境下,让智能体学习如何选择一系列行动,来达成长期累计收益最大化的目标。强化学习本质上学习的是一套决策系统而非数据本身。
除此之外,在网络的结构下,激励函数也可以被替换成其他形式,以解决更加复杂的问题。与感知器一样,人工神经网络也需要在训练数据的过程中反复调整各神经元连接的权重,以完成模型的学习过程。而调整的依据是对比数据和模型的结果来查看神经网络有没有犯错误。如果在数据上存在误差,就相当于造成了损失,输出每个样本数据损失的函数叫作损失函数(Loss Function)。而所有的损失综合在一起的平均情况,会反应在代价函数(Cost Function)里,描述训练这一个模型产生的错误代价。
在反复调整的过程中,评价标准的公式会找到一组相对合适的系数,将学长、学姐是否挂科划分准确,此时,小明就可以输入自己的成绩来看看自己是合格还是挂科。如果我们让程序来执行上面小明的工作流程,一个简易的感知器也就形成了(图2-3)。学长、学姐两次作业和考试的成绩就是三个输入节点,好比接收外界刺激信息的神经元。最终判断是否挂科的输出节点,也可以看作一个神经元,而根据分数情况算出合格与挂科的函数叫作激励函数(Activation Function)。输入节点和输出节点之间神经信号的通信就是由评价标准公式的计算来传递的,而传递信号的强弱就是作业和考试分数所对应系数的大小。通过将传递信号的强弱反复调整到一个合适的值,也就完成了模型的学习,可以用于分类等任务。
场景:小明在大学里选修了一门课程,这门课程并没有公布详细的合格评价标准,只知道平时的两次作业和一次考试会影响这门课程的通过与否,于是小明希望从往届的学长、学姐那里搜集他们的作业、考试及最终是否通过的相关数据,来帮助判断自己是否会在这门课程中挂科。在搜集完学长、学姐的数据后,小明决定先假设一个老师的评价标准:·第一次作业×0.3+第二次作业×0.3+考试×0.4=课程评分。·如果课程评分>=60,则课程及格;否则课程挂科。
首先,让我们想象一个具体的分类任务场景。
前文提到的感知器算法就是典型的监督学习的案例,它是人工神经网络的基础
2.感知器与神经网络
而无监督学习则好比老师把大量题目直接丢给小明,让小明在题海中自己发现题目规律,当题量足够大的时候,小明虽然不能完全理解每道题,但也会发现一些知识点的固定的选项表述。聚类是最经典的无监督学习场景,机器获得数据后并不知道每种特征的数据分别属于什么类别,而是根据数据特征之间的相似或相异等关系,自动把数据划分为几个类别。
根据训练的方式,机器学习可以简单划分为监督学习和无监督学习。监督学习就好比小明每次做完题之后,老师都会对题目进行批改,让小明知道每道题是否答对。分类就是最经典的监督学习场景
综上所述,机器学习模型的训练过程可以分为以下四步。·数据获取:为机器提供用于学习的数据。·特征工程:提取出数据中的有效特征,并进行必要的转换。·模型训练:学习数据,并根据算法生成模型。·评估与应用:将训练好的模型应用在需要执行的任务上并评估其表现,如果取得了令人满意的效果就可以投入应用。
根据卡耐基梅隆大学计算机学院教授汤姆·米切尔(Tom Michell)的定义,机器学习是指“计算机程序能从经验E中学习,以解决某一任务T,并通过性能度量P,能够测定在解决T时机器在学习经验E后的表现提升”。
1950年,图灵在他的论文《计算机器与智能》中提出了“学习机器”的概念,强调与其去编程模拟成人的大脑,还不如选择更简单的儿童大脑,通过辅之以惩罚和奖励的教学过程,让机器在学习后具备智能。
1.机器学习的概念
三 机器学习
除了符号主义与联结主义,一种倡导“感知+行动”的行为主义流派也得到了较好的发展。行为主义起源于控制论,强调模拟人在控制过程中的智能行为和动作,虽然它的起源也可以追溯到人工智能诞生时期,但一直未成为主流。在模拟人类智能方面,如果说符号主义是知其然且知其所以然,联结主义是知其然但不知其所以然,那么行为主义就是既不知其然也不知其所以然,因而行为主义在智能控制与智能机器人兴起的21世纪末才引起人们的广泛关注。
至此,符号主义、联结主义和行为主义便成为人工智能的三大经典流派,共同影响着后来人工智能的发展。
符号主义学者在20世纪70年代充分认识到了“知识”对于人工智能的重要性,不再过分追求当时难以实现的通用人工智能,而是将视野聚焦在较小的专业领域上,很大程度上缓解了计算能力受限和认知信息匮乏的问题,也让人工智能的程序变得实用起来。学者们试图利用“知识库+推理机”的结构,建设出可以解决专业领域问题的专家系统(图2-2)。
而几乎在同一时期,联结主义也迎来了复兴。新型的神经网络结构及相关算法的普及为科研界注入了新的生机,适用于多层感知器的BP算法(误差反向传播算法),解决了非线性情况下的分类学习问题。至此,人工神经网络掀起了第二波发展热潮。
可以说,不论是符号主义还是联结主义,在人工智能诞生的前十余年,都取得了一个又一个令人震惊的成果,但好景不长,20世纪60年代末,人工智能的发展陷入瓶颈,人工智能的研究者遇到了很多难以克服的难题,其中包括两个最典型的难题:·受限的计算能力:当时计算机有限的内存和处理速度不足以支持AI算法的实际应用。·认知信息的匮乏:许多人工智能领域的应用需要大量认知信息,当时的数据库条件无法让程序获得如此丰富的信息源。
而联结主义则认为,让机器模拟人类智能的关键不是去想办法实现跟思考有关的功能,而是应该模仿人脑的结构。联结主义把智能归结为人脑中神经元彼此联结成网络共同处理信息的结果,希望能够运用计算机模拟出神经网络的工作模式来打造人工智能,并在“人工智能”领域正式形成之前就开始了各种尝试。1943年,神经科学家沃伦·麦卡洛克(Warren McCulloch)和数学家沃尔特·皮茨(Walter Pitts)按照神经元的结构和工作原理搭建了数学模型,奠定了人工神经网络的雏形。1958年,美国神经学家弗兰克·罗森布拉特(Frank Rosenblatt)发表了模拟人类学习过程的“感知器”算法,机器利用它就可以自主完成像分类这样的简单任务,后续算法杰出的实践效果掀起了第一次人工神经网络的热潮。
符号主义认为人的智能来自逻辑推理,世界上所有信息都可以抽象为各种符号,而人类的认知过程可以看作运用逻辑规则操作这些符号的过程。在这样的前提假设下,如果计算机能够自动化地执行和人脑一样的各种规则,说不定就可以实现完全的智能化。
在人工智能诞生早期,就出现了“符号主义”和“联结主义”两种不同的发展流派,并都取得了一系列阶段性的成果。
二 符号主义、联结主义和行为主义
而图灵就在论文中提出,在用机器替换人类的情况下,根据小明这类角色回答错误概率有没有显著增加,可以评估这个替换的机器是否具备智能,这也就是著名的“图灵测试”(图2-1)。
下面我们依照图灵的设计来模拟这样的游戏场景。场景:小明、小红和小刚三个人决定一起来玩这个模仿游戏,小明被关在密闭的屋子里,只能使用两台远程打印机分别与小红、小刚进行交流,但他并不知道每台打印机的背后是谁在回答他的问题。在游戏结束时,三个人的胜利目标是不同的。·小明:在游戏结束后,需要根据提问和回答的记录,猜出每台远程打印机背后对应的是小红还是小刚。·小红:尽可能地帮助小明猜对自己是小红。·小刚:尽可能地干扰小明,让他以为自己才是小红。
1950年,艾伦·图灵发表了一篇划时代的论文《计算机器与智能》(Computing Machinery and Intelligence),探讨了让机器具备人类一样智能的可能性。论文在开篇就抛出了一个有趣的问题:“机器能思考吗?”
一 图灵测试与人工智能的诞生
人工智能技术历经了漫长的演进过程,见证了基于规则、机器学习、深度学习、强化学习等领域的兴起。目前,人工智能技术在多模态和跨模态生成领域取得了傲人成绩。本章将回顾前AIGC时代各种奠基技术的相关思想,并在刨除复杂数学原理的基础上,用通俗易懂的语言对目前推动AIGC进行商业落地的重要技术和理念进行介绍。
哪些技术思想对AIGC的演进做出了重要贡献?
五 BERT模型
步骤三:使用强化学习算法优化针对奖励模型的策略。
步骤二:收集对比数据并训练一个奖励模型。
步骤一:收集示范数据并训练一个监督学习的策略
ChatGPT是由其前身InstructGPT改进而来,InstructGPT是一个经过微调的新版本GPT-3,可以尽量避免一些具有攻击性的、不真实的语言输出。InstructGPT的主要优化方式是从人类反馈中进行强化学习(Reinforcement Learning from Human Feedback,简称RLHF)。而ChatGPT采用了和 InstructGPT一样的方法,只是调整了数据收集方式。
GPT-1的核心思想是将无监督学习作用于监督学习模型的预训练目标,先通过在无标签的数据上学习一个通用的语言模型,然后再根据问答和常识推理、语义相似度判断、文本分类、自然语言推理等特定语言处理任务对模型进行微调,来实现大规模通用语言模型的构建,这可以理解成一种半监督学习的形式
三 Transformer的基本结构Transformer与Seq2Seq模型类似,也采用了编码器-解码器结构,通常会包含多个编码器和多个解码器。在编码器内有两个模块:一个多头注意力机制模块和一个前馈神经网络模块,这里的前馈神经网络是一种最简单的人工神经网络形式。
从数学的角度来说,可以将“注意力”理解为一种“权重”,在理解图片或文本时,大脑会赋予对于认知有重要意义的内容高权重,赋予不重要的内容低权重,在不同的上下文中专注不同的信息,这样可以帮助人们更好地理解信息,同时还能降低信息处理的难度。这就是注意力机制,这种机制被应用在人工智能领域,帮助机器更好地解决图像处理和文本处理方面的一些问题。
二 注意力机制
Seq2Seq模型最早在2014年提出,主要是为了解决机器翻译的问题。Seq2Seq模型的结构包括一个编码器和一个解码器,编码器会先对输入的序列进行处理,然后将处理后的结果发送给解码器,转化成我们想要的向量输出。
一 Seq2Seq模型
第四节 大模型的重要基建:Transformer
三 知名AI绘画工具许多公司在CLIP模型和Diffusion模型的基础上开发了模型变体的相关应用工具,其中,Stable Diffusion、DALL·E 2、Midjourney是最知名的工具
OpenAI在互联网上收集到了4亿对质量过关的图像文本对,分别将文本和图像进行编码,让CLIP模型学会计算文本和图像的关联程度。在此基础上,结合Diffusion模型对图像的生成能力,就可以打造一款AI绘画应用了。
AI绘画的成功还归功于CLIP(Contrastive Language-Image Pre-Training,文本-图像预训练)模型。
二 CLIP模型与AI绘画
一 Diffusion模型的基本原理Diffusion模型是一类应用于细粒度图像生成的模型,尤其是在跨模态图像的生成任务中,已逐渐替代GAN成为主流
第三节 AI绘画的推动者:Diffusion模型
步骤二:固定判别器,更新生成器。
步骤一:固定生成器,更新判别器。
GAN的训练过程分为两个步骤。
三 生成对抗过程
一 生成器
二 判别器判别器(Discriminator)用于评价生成器生成的图像或句子到底看起来有多么真实。判别是否真实的方式也很简单,就是看这个图像或句子像不像来自生成器训练用的数据集,因为数据集是最真实的。
GAN综合了深度学习和强化学习的思想,通过一个生成器和一个判别器的相互对抗,来实现图像或文字等元素的生成过程。
而所谓的深度学习,简单理解就是采用像深度神经网络这样有深度的层次结构进行机器学习的方法,是机器学习的一个子领域。
强化学习其实可以看作一个从试错到反馈的过程,通过不断地试错,来找到一个合适的策略
强化学习就是让人工智能通过不断的学习试错,找到合适的策略去选择一系列行动,来达成目标
四 强化学习
1.强化学习的概念

第三章 AIGC的职能应用

第一节 AIGC与产品研发

第二节 AIGC与市场营销

第三节 AIGC与管理协作

AIGC算法可以用来自动安排面试、发送合同,甚至处理新员工的入职和入职培训。这有助于简化人力资源流程,并确保有效率和有效力地完成这些流程。
AIGC工具可以根据每个员工的个人优势、弱点和目标来生成更具体、更有针对性的绩效反馈。
通过分析大量的数据,包括线上申请材料、简历和社交媒体档案,AIGC算法可以快速而准确地识别具有特定职位所需技能和经验的个人。人力资源经理不再需要手工审查和评估每个申请者,从而节省大量的时间和精力去关注头部人才的审核和筛选。
四 智能人力资源管理
此外,AIGC也可以通过创建和维护跨团队项目协作计划来改善团队协作。通过AIGC可以自动生成特定项目的项目方案,包括工作流和任务分配计划。这在流程复杂、人员数目庞大的项目中特别有用,减少了项目经理的烦琐工作。
位于加利福尼亚州的Mem公司便在开发这样的自我管理的协作空间,通过AI帮助更多团队管理文件、流程和分工,从而提高团队协作的效率。
通过AIGC工具,公司可以训练一个模型来自动地将这些数据组织成相关的类别,例如按部门、项目或主题分类。这将使员工更容易找到他们需要的信息,减少搜索所需的时间和精力,也减少跨部门协作时获得信息的阻力。
由于存在不同的知识技能、人员配置、工作习惯等,同一个公司的不同部门或团队间的协作效率也可以进一步得到提升,而AIGC可以被用来改善团队间协作的现状。
三 智能团队协作
字节跳动旗下的飞书妙记,其群聊消息和文档可以支持113种源语言、17种目标语言的翻译。
字节跳动旗下的飞书妙记,它可以自动在线生成会议纪要,通过智能语音识别转化成文字,把会议交流沉淀为要点文档,从而让会议成员更专注,工作更高效。
谷歌就将AI辅助回复功能添加到了其邮箱系统Gmail当中,帮助用户更好地提高工作效率。
AIGC通过自动化邮件回复、总结会议和文件重点、跨语言和专业自动翻译等方式,可以显著提高企业内部沟通的效率,进而提高协作效率和企业生产力。
二 智能内部沟通
AIGC工具可以分析来自不同来源的数据,比如销售数据、客户反馈和财务报告,使用这些信息自动生成详细和信息丰富的报告。这些报告可根据不同利益方的具体需要和偏好进行调整,并可在获得新数据时实时更新。这可以帮助企业根据最新的信息做出更好、更明智的决策,还可以通过自动化报告创建过程来节省时间和资源。
通过自动化处理行政任务,比如安排会议、创建报告、管理电子邮件等,AIGC可以帮助企业节省时间和资源,提高内部流程的效率和准确性。
一 智能行政助理
AIGC有很多可以帮助企业提高管理效率的应用场景,本节将对智能行政助理、智能内部沟通、智能团队协作、智能人力资源管理四个场景进行重点介绍。
销售科技巨头Salesforce,其旗下爱因斯坦AI可以自动生成众多内容并推荐给客户服务工作人员作为回答话术,它甚至可以提前预测正在咨询的客户的需求。
三 智能客户服务
AIGC也可以生成电子邮件和社交媒体信息,通过智能呼叫的方式帮助企业进一步提高客户触达的效率和效果,极大程度提高了售前销售团队的生产效率。
以Oliv.ai为代表的工具可以通过学习大量的企业销售视频、录音以及文字稿,分析销售话术中的优缺点,进而不断帮助企业优化和完善销售话术,提高转化率。
AIGC工具还可以通过定制化生成客户解决方案,以及建立和优化销售话术等方式提高客户转化率,帮助企业提高销售额。
云蝠智能(Telrobot)便是一个被很多企业使用的AI智能外呼系统,帮助企业打通更高效的销售流程。
Seamless.ai便为众多企业提供了这样的服务,通过简单描述客户的特征,例如行业、体量、收入规模、地区等信息,它便可以建立一个销售名单。
,AIGC工具可以通过分析现有的客户人口统计数据、购买习惯等,和线上的企业数据库进行对比,从而快速而低成本地建立一个更适合企业的潜在类似客户名单。
,企业经常花费大量时间在互联网上搜寻潜在客户,并且建立希望接触联系的客户名单,这个过程就叫作销售的线索发现。
整体而言,对外销售大概分为三个部分:线索发现、客户触达、客户转化。
二 智能销售流程
除了图片领域,创意营销文本的撰写也是AIGC工具的重要应用之一
以鲁班为代表的AIGC创作工具还有另外一个优点:能够分析大量的数据,从而生成与目标受众更相关、更吸引人的内容。AIGC系统可以分析产品目标的兴趣、偏好和行为,并利用这些信息创建符合他们特定需求和兴趣的营销材料。
以鲁班为例,使用AIGC创建营销材料的关键优势之一是它能够节省时间和资源。
早在2015年淘宝“双十一”促销活动后,阿里巴巴团队就在探索基于算法和大数据,为用户做大规模的、个性化的商品推荐,也被称为“千人千面”,并且开发出了一款叫作“鲁班”的产品,这算是广义上早期AIGC在创意营销方面的尝试
最后,因为市场动向、用户偏好等信息都是不断变化的,使用AIGC工具生成营销内容的另一大优势是帮助营销人员迅速适应不断变化的消费趋势和偏好,从而保持领先地位。
。海外营销工具Copy.ai就帮助了大量市场人员创作不同场景下的推广文字内容。当然,除了上述介绍的两种创意营销形式,AIGC还可以生成其他各种模态的营销材料,例如产品的3D模型和广告视频等。
一 智能创意营销
人工智能不仅可以帮助营销人员创建更有效的营销材料,还能更好地了解客户行为,提供更个性化的销售体验,并改善客户成功和售后服务。这些特性最终都可以提高客户满意度和忠诚度,并推动企业销售额和收入的增长。
第二节 AIGC与市场营销
在Visual Studio上就曾有人发布了一款基于ChatGPT的自动测试和纠错插件
AIGC可以根据一组规则自动生成大量的测试用例,去检验在每种情况下开发人员写出的代码是否都能正确工作,这使得识别代码中的潜在问题并予以纠正变得更加容易。
四 智能测试纠正
网民曾将这种现象戏称为“程序员最讨厌的四件事”。·给自己的程序写文档。·给自己的代码写注释。·看别人没有写清文档的程序。·看别人没有写清注释的代码。
以Mintlify为代表的基于AIGC的工具则可以自动编写和更新每段代码的详细描述,大大减少文档创建和维护的成本。有了AIGC工具,开发人员只需提供必要的输入数据,如代码本身和示例数据等,人工智能系统就能生成这段代码详细又准确的描述。
三 智能文档注释
产品设计师也能借助AIGC工具获得效率提升。
AIGC有可能被用来自动化处理一些这样的工作,使设计者能够快速地根据特定的输入或需求生成大量的设计选项,包括不同的设计元素、布局、配色方案和其他常用元素。Components.ai便是这样一个工具,而且在此基础之上它还可以帮助设计师生成所对应的前端代码,让设计师更好地与前端工程师进行沟通互动。
而对于具有AIGC能力的应用而言,这一过程将会变得更加简单。你只需要学会用直白的语言描述你所要创作的应用功能,人工智能就可以帮你完成创作,这样就节省了学习一个全新的逻辑表达工具和经历烦琐开发流程的时间。位于美国硅谷的Debuild就是这个新兴领域的代表,用户可以简单描述产品后根据提示选择要包含的功能和对应的应用场景,软件就可以自动生成网页端代码。
同代码自动完成一样,人们很早就在探索如何更低成本地创作应用,近年来被更多人所关注和使用的低代码与无代码开发工具Bubble就是很好的案例。
二 智能应用生成
可以在不同设备上使用,仅仅移动端中需要考虑的环境就包括移动网页端、安卓、苹果、小程序等。与手动编写和迁移代码相比,人工智能的应用可以为开发人员节省大量的时间和精力。
除了优化现有代码之外,人工智能根据不同种类的用户设备生成新的代码也是一个潜在的应用场景。
人工智能的另一大潜在应用是对现有代码的优化,它可以通过分析代码提出可以优化效率的修改建议。
2021年夏天,GitHub和OpenAI联合研发并发布了知名的人工智能辅助编程工具GitHub Copilot,其命名来自许多头部科技公司研发团队的“结对编程”方法:两个程序员共同完成包括需求分析、代码创作和审查测试在内的某项功能的研发,以此提高生产效率和减少代码缺陷。
一 智能辅助编程
AIGC在产品研发方面主要有四种应用方式:
AIGC如何帮助企业各职能部门降本增效?
第三节 AIGC与管理协作
·通过辅助编程提高代码生产效率。·生成应用直接将需求变成产品。·创建和维护文档注释,提高沟通效率。·测试代码,纠正错误。
第一节 AIGC与产品研发
AIGC能通过自动化处理任务、产生新想法、生成有价值的决策建议,有效赋能企业各个职能部门。本章将从产品研发、市场营销和管理协作三个角度对AIGC的职能应用进行介绍。

第四章 AIGC的行业应用

第一节 AIGC资讯行业应用

第二节 AIGC影视行业应用

第三节 AIGC电商行业应用

第四节 AIGC教育行业应用

第五节 AIGC金融行业应用

第六节 AIGC医疗行业应用

第三节 AIGC电商行业应用
第六节 AIGC医疗行业应用
第五节 AIGC金融行业应用
第四节 AIGC教育行业应用
第二节 AIGC影视行业应用
第一节 AIGC资讯行业应用
AIGC也可以帮助医生更好地完成医疗科普工作
AIGC在对听障、语障人士的支持领域也发挥着重要作用。获得科大讯飞战略投资的音书科技就是这样一家公司。音书科技不仅为听障、语障群体提供各种场景下的翻译字幕系统和手语系统,以支持他们的日常交流和信息获取,还提供了AI言语康复系统。
对于部分心理疾病,具备对话生成能力的人工智能本身就可以参与到治疗过程之中。
除了AI预问诊之外,患者在用药咨询、用药提醒等方面也可以得到人工智能的帮助。
AIGC技术的发展和推广,无论是对医生还是对患者而言,都是一种福音。AI预问诊就是一个最典型的应用场景。在医生问诊较为繁忙的时间段,人工智能可以进行预问诊,与患者进行语音或文字的互动,模拟医生的问诊思路,收集患者既往病史、过敏史、用药史、手术史等重要信息,并与患者进行自然的语言互动。而等到患者开始诊疗时,人工智能会根据预先收集的信息生成诊疗报告,使医生可以更快地处理患者的病症。
此外,AI系统也能够快速高效地完成一部分当前人工客服难以完成的工作。例如,AI系统可以记住客户的喜好,侧写多维客户画像,构建预测式服务体系,进一步提升客户服务体验。AI系统通过对客户标签、交易属性等多类数据进行分析和研究,借助算法建模等金融科技手段,主动迎合广大金融消费者的需求,对目标客群开展不同层次、不同手段的服务触点,提供“千人千面”专属特色顾问服务。
AIGC在金融行业的应用主要聚焦于智慧客服与智慧顾问服务两个方面。在智慧客服方面,客户可以通过自然语言处理技术,使用语音或文本与AI系统进行交互,轻松获取有关金融产品和服务的信息,并进行相应的操作。
在金融行业中,最常见的应用人工智能的场景是通过AI模式识别和机器学习的方式捕捉市场的实时变化,并利用大量的实时数据进行分析,以此提高金融公司的财务分析效率和能力。
除了帮助教育者完成重复性工作,AI还可以延伸教育者的感知,充当他们的眼睛、耳朵,更加全方位地关注学习者的情况。
首先,AI能够帮助教育者减轻日常重复烦琐的劳动负担,节省教育者的精力来进行更富有创造力和挑战性的工作
二 AIGC赋能教育者,实现减负提效
比如愿景唯新实验室就打造了一个虚拟仿真试验平台,让学习者随时随地、身临其境般地展开实践学习,从而打破物理世界的限制,并通过“亲眼所见”“亲手所为”的方式强化学习效果,提升学习乐趣。
第四,在学习的场域上,“有限”的物理空间正向“无限”的虚拟空间演进,以打造更加具有沉浸感、体验感的学习环境,充分启发学习者的兴趣,助力深度学习。
微软亚洲研究院和华东师范大学合作研发的中文写作智能辅导系统“小花狮”,能够借助自然语言处理等技术,实时为学生作文结果评分,并能够分析其背后原因,从而帮助学生找到属于自己的发力点,实现进步。
在“AI教师”的时刻护航下,学习者得以不断形成习得-评测-反馈的闭环,有效提升学习效果。
由于时间、场地、人力的限制,学习者很难及时在传统的人类教师那里获得反馈。而反馈却是学习者真正取得进步的核心环节。
第三,随着学习媒介逐渐数字化,学习行为本身也逐渐变得灵活甚至碎片化
智能学习平台能够充分收集学习者在学习过程中的各类数据,并根据其行为模式、各知识点掌握程度为学习者提供精准的画像,帮助学习者了解学习状态和挑战,并根据画像为学习者自动生成后续的个性化学习计划,以提高学习效率。
第二,学习者对自身学习情况和学习策略的认知是“有限”的。
AI辅助甚至主导的学习资料整理、制作将会极大降低成本,提高效率,将资源的丰富度和易得性提高到新的层次。
第一,学习资源本身是“有限”的,不同的学习者对包括课件、讲解在内的学习资源有着不同的需求。
教育行业的参与者众多,时间跨度大,个体的差异性也极大,这种种要素罗织成了一张张复杂的多维网络,让擅长解决边界清晰、定义明确问题的AI一度迷失方向。同时,教育行业十分强调人与人的互动和联结,并没有统一的理论模型,这都为AI的开发、训练和最终落地增加了难度。
随着元宇宙概念的推广与发展,虚拟主播开始成为许多电商直播间的选择。相较于真人直播,虚拟主播不仅能为用户带来新奇的体验,而且可以突破时间和空间的限制,24小时无间断直播带货。
商家只需要在ZMO平台上传产品图和模特图,就可以得到模特身穿产品的展示图。
成立于2020年的ZMO公司就运用了AIGC技术来解决这个问题
AIGC可以为企业营销提供大量的创意素材,而电商广告是对这些创意营销素材有海量需求的领域
除了家居领域之外,许多品牌企业也开始探索类似的虚拟试用服务,例如优衣库虚拟试衣、阿迪达斯虚拟试鞋、保时捷虚拟试驾,等等。
阿里巴巴的每平每屋业务,将AIGC的功能植入手机淘宝和每平每屋的App之中,用户可以通过拍摄扫描家居环境,以及家里与商品进行搭配布局的家居,让AI生成线上的3D模型,并与想要购买的商品3D模型进行组合,让用户在线预览整体的组合效果。AIGC的线上试用功能无疑极大地提升了用户电商家居的购物体验。
可以让商品在不同角度下拍摄的图像通过视觉算法生成商品的三维模型,提供虚拟产品多方位视觉感知的独特体验,大幅压缩沟通的时间成本,同时改善用户的购物体验等,提升用户转化。
将想法转化为影视作品进行表达,也面临第二重“不可能”,即想象中的场景难以在现实中进行呈现和拍摄。
影片具体制作中的第一重“不可能”指的是当前较为粗放、劳动密集型的生产方式难以满足观众对内容质量不断提高的要求。
2020年GPT-3发布后,查普曼大学的学生也用GPT-3创作了一个短剧,其剧情在结尾处的突然反转令人印象深刻,再度引发了广泛关注。
在2016年的美国,一款由纽约大学研发的AI就在学习了几十部科幻电影剧本的基础上,成功写出了电影剧本《阳春》以及一段配乐歌词。
结合对大量优质案例的学习,以及对受众心理的洞察,AI能够根据影视工作者的要求快速生成不同风格、架构的剧本。AI在极大地提高影视工作者工作效率的同时,也在进一步激发他们的创意,帮助他们打磨出更加优质的作品。
在资讯内容的分发环节,AI除了助力个性化内容推荐外,也开拓了全新的应用场景,即驱动虚拟人主播,以视频或直播的形式进行内容发放,打造沉浸式体验
以美联社、雅虎等媒体的合作伙伴 Automted Insights公司为例,其撰稿工具Wordsmith能够在1秒内产出2 000条新闻,单条质量能够比拟人类记者30分钟内完成的作品。
。但在高性能的AIGC工具出现之后,人们就可以用日常向好友提问一样的方式向ChatGPT这样的对话类AIGC工具提问,直接获得精确的答案,甚至都不需要在检索出的结果中搜寻,非常方便。
在以往以传统方式利用搜索引擎的过程中,如果想要实现一些边缘话题的精确检索,需要对检索词的组合进行深思熟虑或反复尝试,才能通过搜索引擎找到想要的答案。
一 AIGC携手学习者,从“有限”走向“无限”
三 AIGC活化虚拟主播,提升直播带货效能
二 AIGC赋能服饰电商,产品拍摄降本增效
一 AIGC构建三维商品,改善用户购物体验
二 AIGC推动创意落地,破除表达桎梏
一 AIGC协助剧本写作,释放无限创意
三 AIGC助力内容分发,“智媒”赋能人类工作者
二 AIGC支持资讯生成,实现便捷高效产出
一 AIGC辅助信息搜集,打造坚实内容地基
2014年起,大规模数据检索处理、结构化文本写作、摘要生成等多项AIGC相关应用已经在新闻资讯行业落地
深入各个行业前沿,仔细观察,智能创造时代已非乌托邦式的幻想,而是呼啸而来的未来。目前,AIGC的身影已经在多个垂直领域中活跃,贯穿资讯、影视、电商、教育等多个行业。了解这些行业的应用现状,也就能够更好地了解各个行业的未来。
AIGC如何在各行各业的实践中加以应用?

第五章 AIGC的产业地图

第一节 产业上游:数据服务

第二节 产业中游:算法模型

第三节 产业下游:应用拓展

图5-3 中游算法模型层产业地图
第一节 产业上游:数据服务
简单来说,帝视科技为电视台等企业客户提供超高清视频解决方案,并为其他客户提供定制化软硬件解决方案。2021年8月,帝视科技完成近亿元B轮融资,由海松资本领投。
帝视科技成立于2016年,主要业务面向超高清视频制作与修复,融合了超分辨率、画质修复、HDR/色彩增强、智能区域增强、高帧率重制、黑白上色、智能编码等一系列核心AI视频画质技术。
影谱科技成立于2009年,将生成式AI作为通用技术组件支撑通用业务需求,将整个功能堆栈整合在一起,提供端到端解决方案。
2018年,影谱科技完成D轮13.6亿元的融资,创AI影像生产领域最高融资纪录,投资方包括商汤科技、软银中国等十余家投资机构及战略伙伴,并与商汤科技签订独家战略合作协议。
解决方案型视频处理应用可以综合上述多种视频处理应用的功能,但会根据不同企业客户的需求定制产品与解决方案,这也是现在许多国内AI公司的商业模式。两个典型的解决方案型视频处理公司是影谱科技和帝视科技。
4.解决方案型视频处理
虚拟人型视频处理是视频处理中一个特殊的细分赛道,主打为视频生成虚拟形象。这个赛道有两家典型公司:Hour One和Synthesia。
3.虚拟人型视频处理
InVideo为出版商、媒体公司和品牌提供了一个视频创作平台,用户不需要任何技术背景就可以从头开始创建视频。在用户输入静态文本之后,AI可以根据输入的内容按照预先设定好的主题将文本转换为视频,并添加母语的自动配音。
另一家典型的编辑型视频处理公司是InVideo
Descript就是一家典型的编辑型视频处理公司,这家于2017年成立的美国公司在种子轮就获得了a16z的投资,并在2022年10月C轮融资中又获得了5 000万美元的投资,由OpenAI领投,a16z等跟投,融资后估值达到5.5亿美元。
Descript产品的主要功能包括视频编辑、录屏、播客、转译四个板块。在目前的新版本中,Descript产品还融入了AI语音替身、AI绿屏功能以及帮助用户编写脚本的作家模式等AIGC相关功能。
2.编辑型视频处理
。Runway的图像处理功能与Jasper产品有一定的重合性,包括文字生成图片、图片生成图片等,它的独特竞争优势在于它同时具备图像处理、视频处理、音频处理的能力。Runway在视频处理中依靠Magic Tools这一AI工具插件,能够实现视频编辑(Video Editing)、绿幕抠图(Green Screen)、视频修复(Inpainting)、动作捕捉(Motion Tracking),效率远超传统视频软件AE。同时Runway也具备文字生成视频这一跨模态能力,但实际效果远不及文字生成图像。
与图像处理类似,生成型视频处理也是视频处理领域里对于AI技术、“创造力”要求最高,同时也最受资本看好的赛道之一。生成型视频处理赛道中最典型的公司是Runway
1.生成型视频处理
随着5G时代的到来,人们花在视频上的时间已经逐渐超过图文,视频也正在成为移动互联网时代最主流的内容消费形态。
四 视频处理
编辑型图像处理应用以PhotoRoom(一款手机App)为代表。PhotoRoom的核心功能是,用户只需轻轻一按,即可删除背景并合成一张展示产品或模型的图像。
4.编辑型图像处理
公司的主要产品是智能设计平台——图宇宙,主打的卖点是“懒爽”,即相比于Adobe、Figma、Canva等中高门槛设计平台,任何人只要会打字就可以使用,AI在其中可以根据用户需求和喜好提供推荐素材、调整设计。
国内公司Nolibox计算美学也是一家专注于AI智能设计的公司
Magician的主要功能是使用AI实现文本生成图标、文本生成图片、生成与转写文案等设计效果。
设计型图像处理的主要客户群体是设计师这类小众用户群体
3.设计型图像处理
AdCreative.ai是一家广告型图像处理公司,其产品能够通过AI高效地生成创意、横幅、标语等,还能够在连接谷歌广告和Facebook广告账户后实时监测广告效果
除了专业的生成型图像处理应用之外,与文字生成应用类似,图像处理应用也包含了许多专注于细分赛道的产品
2.广告型图像处理
诗云科技的主要产品是内容生成引擎Surreal Engine,核心技术是深度学习和图形学,比如自然语言理解、3D建模、神经辐射场、GAN、神经渲染等。诗云科技的典型业务是通过内容生成技术帮助客户生成图片和视频。
国内也有类似的创业公司,并且能够提供更全面的解决方案。
Midjourney的商业化非常成熟,依靠会员订阅制进行收费,并提出了明确的分润模式(商业变现达到两万美元后需要20%分润),目前不需要任何融资就能进行正常运转和盈利。
Stable Diffusion是Stability AI公司旗下的产品,具备强大的图像生成能力和开源属性,这使它成为众多广告从业者生成图片的生产力工具。相比订阅制的Midjourney、付费也未必能用得上的DALL·E 2,Stable Diffusion凭借极为罕见的开源特征,积累了相当规模的用户群体和开源社区资源。
图像处理的第一类典型赛道也是对AI创造性要求最高的一类——生成型图像处理。Stable Diffusion和Midjourney就是典型的生成型图像处理应用。
1.生成型图像处理
三 图像处理
目前已推出包括通用场景的语音合成、语音识别、高音色TTS定制、声音复刻、情感合成和声音转换等在内的语音技术产品,其解决方案覆盖智能驾驶、智能客服、娱乐媒体、多人会议、多语种识别等多个领域,同时还研发了可以应用于博物馆等场馆讲解的虚拟数字人。
标贝科技是一家典型的解决方案型公司
3.解决方案型音频处理
Resemble.ai使用专有的深度学习模型创建自定义声音,可以产生真实的语音合成,并实现包括给声音增加感情、把一个声音转化为另一个声音、把声音翻译成其他语言、用某个特定声音给视频配音等多种语音合成功能。
与音乐型公司主打音乐创作赛道不同,讲话型公司具有更强的泛用性与更多元的应用场景,典型的应用场景就是声音克隆。
2.讲话型音频处理
灵动音科技运用AI技术提供作词、作曲、编曲、演唱、混音等服务,旨在降低音乐创作门槛。目前,灵动音科技的AIGC产品包括支持非音乐专业人员创作的口袋音乐、为视频生成配乐的配乐猫、可AI生成歌词的LYRICA、AI作曲软件LAZYCOMPOSER等。
国内公司灵动音科技(DeepMusic)也是这个赛道的玩家
Boomy使用由AI驱动的音乐自动化技术,让用户在几秒钟内免费创建和保存原创歌曲,创建的歌曲可以在Spotify、Apple Music、TikTok和YouTube等主要流媒体服务中传播,创作者可以获得版税分成,而Boomy拥有版权。
音频处理的一大特色是音乐的生成与编辑。Boomy就是一家典型的音乐型公司。
1.音乐型音频处理
目前,音频处理主要分为三类:音乐型音频处理、讲话型音频处理、解决方案型音频处理
二 音频处理
Debuild利用AI生成技术大幅降低软件开发门槛。即使没有接受过编程教育的用户,只需用简单的英语描述希望App实现的功能,然后在几秒钟内Debuild就可以生成简单的App供用户使用。
(3)代码开发型公司
2021年创立,利用自然语言处理等技术,可以实现根据用户所书写的代码,智能地对代码进行分析。生成对应代码的注释。它不仅可以生成英文注解,还可以生成中文、法语、韩语、俄语、西班牙语、土耳其语等多种其他语言的注释。
Mintlify
(2)代码文档型公司
Repl.it是可以支持50多种编程语言的在线编程语言环境平台,一直致力于为代码工程师解决编程操作问题,使操作更简便、快捷,可以将它简单理解为编程界的“腾讯文档”
(1)代码生成型公司
根据AIGC对代码处理环节的渗透程度,可以将代码型文本处理公司分为三类:代码生成型公司(辅助代码撰写)、代码文档型公司(代码转化成文档)、代码开发型公司(直接参与代码开发)。
8.代码型文本处理
基于OpenAI刚刚发布的GPT-2模型做一个文字冒险游戏AI Dungeon,灵感来源于经典游戏《龙与地下城》,并用与AI文字对话的形式来完成游戏和故事生成。
交互型文本处理应用是形式上与上述应用最不同的一个,因为它的产品形态本身存在叙事,交互的过程本身产生意义
7.交互型文本处理
国内公司秘塔科技也推出了AI写作助手“秘塔写作猫”。
Wordtune就是一款非常典型的辅助型文本处理应用,它的功能是帮助用户“重写”句子,对句子进行缩写或扩写,使句子在原句意的基础上更随意或更正式。
它的主要功能是基于素材爬取来实现,在很大程度上对写作者起到了“助手”的作用,比如可以根据需求定向采集素材、文本素材预处理、自动化降重、重新表述润色等,帮助创作者减轻许多程序性的工作,提升生产力。
与前述需要AI“脑洞大开”进行创意文本处理的应用不同,辅助型文本
6.辅助型文本处理
其产品体系基于自主研发的“孟子”轻量化的预训练模型,可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务,能快速满足不同领域、不同应用场景的需求。孟子模型基于Transformer架构,包含10亿参数量,基于数百G级别涵盖互联网网页、社区、新闻、电子商务、金融等领域的高质量语料训练而成。“孟子”预训练模型性能比肩甚至超越千亿大模型,在文本分类、阅读理解等各类任务上表现惊艳。
国内的澜舟科技也是一家针对商业场景数字化转型、以自然语言处理为基础提供通用型文本处理服务的公司
通用型文本处理不局限于某个特定场景
5.通用型文本处理
Mem产品的优势是“轻量级”,主打快速记录与内容搜索,允许用户附加主题标签,标记其他用户。
Mem就是一家这个赛道上的典型公司
知识型文本处理应用则更注重信息的“输入”,帮助用户更好地进行信息的归纳、接收和整理,就好比一个小学生在写作业之前,要用思维导图等工具把上课学到的知识点整理好
4.知识型文本处理
其中常见的一个应用是由国内公司彩云科技开发的彩云小梦。用户只需要在长文本输入框中先写个开头或者输入世界设定和故事背景,然后就可以交给AI小梦来帮忙续写。
目前,国内各类视频博主乐此不疲地使用续写型文本处理应用
3.续写型文本处理
销售型文本处理应用正是为这些努力工作的销售人员准备的,它可以通过AI自动生成电子邮件,并根据属性筛选和抓取潜在客户邮箱、发送邮件进行验证,最典型的应用包括Lavender和Smartwriter.ai。
销售型文本处理与营销型文本处理有一定的相似性。对于市场营销人员而言,营销型文本处理通常面向广大的公众和消费者,文案更多发布于博客、社交媒体、广告等大众传播的应用场景,比如普通老百姓都能在电视上、网上、大街上看到的广告词和标语,等等;销售型文本处理则面向更私人、非公开的场合,比如电子邮箱。
2.销售型文本处理
Jasper是一家典型的营销型文本处理公司,旗下产品的功能和Copy.ai非常类似,底层也是采用GPT-3的相关模型,但团队在此基础上做了改进,特别是在广告和营销的内容生成上,Jasper的产品更擅长生产长篇的内容。
Copy.ai是典型的营销型文本处理应用。它基于GPT-3大模型,能在几秒钟内生成高质量的广告和营销文案,包含70多个AI模板,覆盖的场景包括博客、社交媒体推广、产品上线等,还可以翻译25种不同的语言。你只需输入标题、文案大意,Copy.ai就可以生成一段可读性较高的文案。
1.营销型文本处理
任何优秀的算法模型最终都需要落地于具体的应用场景去实现其商业价值。在AIGC产业的下游,可以将AIGC相关应用拓展到四个主要场景:文本处理、音频处理、图像处理、视频处理(图5-4)。
Hugging Face是专注于机器学习领域的垂直版GitHub。
Papers with Code是一个总结了机器学习论文及其代码实现的网站。
除了像Github这样大而全的开源社区外,还有一些针对垂直领域的小而精的网站和社区在开源领域发光发热,比如Papers with Code和Hugging Face。
2.垂直型开源社区
代码开源不仅可以减少重复性工作,还可以推动技术研究的快速突破,降低应用门槛,加速技术产业化推广使用,以及有效促进学界与产业界的有效交流,促进产学研融合。
GitHub是世界上最大的开源代码托管平台
1.综合型开源社区
根据开源社区所覆盖领域的宽度和深度,可以将开源社区分为两类:综合型开源社区和垂直型开源社区。
开源社区对AIGC的发展十分重要,因为它提供了一个平台,让开发人员能够共享他们的代码,分享他们最新的研究成果,并与其他人一起协作,共同推动AIGC相关技术的发展进步。
微软亚洲研究院成立于1998年,是微软公司在海外开设的第二家基础科研机构,由李开复博士出任第一任院长,至今已经发展成为世界一流的计算机基础及应用研究机构。
阿里巴巴达摩院和微软亚洲研究院就是人工智能领域典型的集团科技研究院。阿里巴巴达摩院成立于2017年10月11日,致力于探索科技未知,以人类愿景为驱动力,开展基础科学和创新性技术研究。截至2022年年底,达摩院旗下主要包括五个方向的实验室:机器智能、数据计算、机器人、金融科技、X实验室。X实验室指的是除了前四个领域,在未来可能会有裂变价值的科技领域,当前主要涵盖量子计算、下一代移动通信和虚拟现实三个方向。
二 集团科技研究院
FAIR则是Meta旗下的人工智能算法模型研究团队,全称为Facebook AI Research
2018年,DeepMind开发的AlphaFold在结构预测关键评估(CASP)竞赛中展现出了超出人类的能力,AlphaFold在蛋白质结构预测领域取得了突破性成果,也使得人工智能的触角伸向了生物科技与医疗领域。2022年,DeepMind又发布了基于Transformer的新模型AlphaCode,甚至在国际自然科学领域顶级期刊《科学》(Science)上发表了新论文,该研究登上了《科学》封面。
谷歌旗下的DeepMind被认为是OpenAI最大的竞争对手,比OpenAI早成立了5年。DeepMind最知名的人工智能模型是AlphaGo
2.附属型人工智能实验室
2022年引爆AIGC热潮的“ChatGPT聊天机器人软件”也正是OpenAI的杰作,OpenAI推出的大模型GPT-3可以达到千亿级参数,而其即将推出的GPT-4模型被许多人认为有望真正通过图灵测试。除了GPT之外,OpenAI在2022年同样发布了知名AI绘画工具DALL·E 2,以及逼近人类水平、支持多种语言的语音识别预训练模型Whisper。这些智能算法模型无疑都代表着当前人类在人工智能领域的一些顶级成果。
独立型人工智能实验室中最具有代表性的公司是OpenAI。OpenAI于2015年在美国硅谷成立
1.独立型人工智能实验室
产业中游的算法模型是AIGC最核心的环节,是机器完成教育训练过程的关键环节。中游算法模型包括三类重要的参与者:人工智能实验室、集团科技研究院和开源社区。
定制型公司主要的业务特点是为客户提供个性化的解决方案。光点科技和亿信华辰就是两家典型的定制型公司。
2.定制型公司
工具型公司是将数据治理与合规服务产品化,需要相关服务的客户可以直接购买标准化的产品或基于已有的产品进行部分自定义。OneTrust和Collibra就是两家典型的工具型公司。
1.工具型公司
市场研究公司ReporterLinker的数据显示,2020年全球数据治理市场规模约为18亿美元,预计到2027年将达到72亿美元,在此期间以22%的复合年增长率增长。
根据服务交付的模式,可以将涉及这个环节的公司分为两类:工具型公司和定制型公司。
数字经济时代,数据是和土地、人力、资本一样举足轻重的生产资料,因此,既需要保证数据资产在管理时符合预先设置的数据质量规范,也需要在访问和调取数据时做到合法合规,这也使得数据治理和合规服务逐渐成为各个企业的必需品。
四 数据治理与合规
另一家典型的扩张型公司Labelbox也是从数据标注起家,逐渐拓展了数据管理、AI辅助标记、模型训练和诊断服务等相关业务,进而成为一个综合性的AI数据引擎平台。
Scale之所以可以从最初看似技术含量不高的数据标注环节向更具附加价值的中下游环节扩张,主要受益于规模经济、客户黏性和资源垄断。
Scale是从数据标注环节向其他环节扩张的典型公司。
2.扩张型公司
根据《互联网周刊》发布的“2022数据标注公司排行”,云测数据排在国内数据标注行业第一位。
Appen在全球拥有100多万名众包人员,支持235种语言,业务遍布全球170个国家和7万个地区。
基础型公司通常专注于数据标注与管理领域,并没有过多将业务延伸至算法模型等其他领域,虽然聚焦的环节附加值不高,但由于充分的专注度,基础型公司在该垂直领域形成了独特的竞争优势,Appen和云测数据就是这一类公司的典型代表。
1.基础型公司
根据公司业务拓展程度的差异,可以将涉及这个环节的公司分为两类:基础型公司和扩张型公司。
如果说人工智能是把机器当作学生进行教学的过程,那么数据标注与管理环节则是备课环节,把原始数据进行结构化处理后,接下来就是组织整理知识点,然后教给机器。
三 数据标注与管理
dbt Labs聚焦在ELT中的Transform部分,帮助数据团队“像软件工程师一样工作”,它的核心功能是帮助用户书写数据转换的代码。
Fivetran最初意识到传统ETL/ELT工具的性能可能难以匹配云原生的工作场景,因此基于云原生场景开发了相较于本地部署场景下的ETL/ELT工具更适配的数据整合平台。通过提供SaaS(Software-as-a-Service,软件即服务)服务,Fivetran可以连接到业务关键数据源,提取并处理所有数据,然后将数据转储到仓库中,以进行查询访问和必要的进一步转换。
Fivetran是硅谷知名孵化器Y Combinator成功孵化的公司
云原生型公司主要指以云服务的形式提供旗下产品数据转换与编排功能的公司。截至2022年12月初,云原生型公司中也有两家公司值得关注:一是Fivetran,当时最新估值是56亿美元;二是dbt Labs,当时最新估值是42亿美元。
2.云原生型公司
帆软成立于2006年,是一家总部位于中国无锡的大数据商业智能和分析平台专业提供商,它专注于商业智能和数据分析领域,致力于提供一站式商业智能解决方案。仅2021年,帆软销售额就已超11.4亿。
根据国际数据公司IDC 2021年的数据,帆软的主业商业智能的市场份额连续五年在中国排名第一。
Kettle最早是一个开源的ETL工具,采用java编写,可以在各种类型的操作系统上运行,数据抽取高效、稳定。
本地部署型公司主要指核心软件产品部署在本地电脑环境中使用的公司。在这个领域有两家公司值得关注:一是帆软,二是Pentaho(主要关注其产品Kettle)。
1.本地部署型公司
根据数据处理的方式是在本地还是在云端,可以将涉及这个环节的公司分为两类:本地部署型公司和云原生型公司。
这三个模块的含义如下所示:·提取:从各种来源获取数据。·加载:将数据移动至目标位置。·转换:处理和组织数据,使其具备业务可用性。
这个环节对数据的处理主要包括提取(Extract,简称E)、加载(Load,简称L)和转换(Transform,简称T)三个模块,因此产业界通常将该环节称为ELT或ETL
目前,Imply为许多需要利用动态数据进行实时处理分析的场景提供技术支撑,也为不少更高级别的AI技术提供大规模数值计算的能力。
Imply是一家基于Apache Druid提供数据查询与实时处理服务的公司。Apache Druid是一个实时分析型数据库
ClickHouse强调处理速度,可以实现实时数据访问与处理,并且围绕它形成了一个开发者社区,有助于持续开发和技术改进。ClickHouse的主要产品是一个开源的列式数据库,在列式数据库中,数据按列进行物理分组和存储,从而最大限度地减少了磁盘访问次数并提高了性能,因为处理特定查询时每次只需要读取一小部分数据。此外,由于每一列都包含相同类型的数据,因此也可以使用有效的压缩机制降低存储成本。而正是这些独特的技术特性让ClickHouse受到了资本市场的充分关注。
二 数据转换与编排
与异步处理型公司类似,实时处理型公司指的是主要针对实时处理需求的公司提供数据服务。截至2022年12月初,数据查询与实时处理型公司中有两家公司值得关注:一是ClickHouse,当时的最新估值是20亿美元;二是Imply,当时的最新估值是11亿美元。
2.实时处理型公司
2013年,通用计算引擎Apache Spark的创始团队出于对Spark商业化的考虑成立了Databricks公司。自此,Databricks就像架在数据湖之间的桥梁,通过支持行业特定的文件格式、数据共享和流处理等方式,让数据的访问和预处理变得更加便捷
Starburst是一家缘起于Facebook开源项目的数据分析公司。它提供了一种解决方案,可以让用户随时随地快速轻松地访问数据。
截至2022年12月初,数据查询与异步处理型公司中有两家公司发展势头迅猛,值得关注:一是Databricks,当时的最新估值是380亿美元;二是Starburst,当时的最新估值是33.5亿美元。
1.异步处理型公司
根据数据查询与处理的时效,可以将涉及这个环节的公司分为两类:异步处理型公司和实时处理型公司。
根据市场研究公司IMARC测算,全球数据湖市场规模在2021年达到了74亿美元,并预计2022—2027年复合年增长率为26.4%,预计2027年全球数据湖市场规模达300亿美元,
可见增长潜力之大。
·降本:湖仓一体模式可以降低数据流动的成本,相当于把天然农场变成了粮仓。·省时:湖仓一体模式可以降低时延,类似于省掉了农作物从农田搬运到仓库的环节,这样可以节省搬运时间。·省力:对企业而言,湖仓一体模式可以避免在数据架构层面不必要的重复建设。
近几年,在技术进步和商业发展的推动下,“湖仓一体”(Data Lakehouse)的数据存储模式开始出现。湖仓一体模式将数据湖的灵活性和数据仓库的易用性、规范性、高性能等特点融合起来,能够为企业带来降本、省时、省力等多种好处。
通常,数据需要存储在一个合适的地方,等待着人类输入指令去提取符合要求的数据进行处理。一方面,这种存储可以像现实世界中的淡水湖一样,直接把来自四面八方的水源汇聚在一起,不作区分,这种存储架构被称为数据湖(Data Lake)。另一方面,这种存储也可以像农场里的仓库一样,将数据像瓜果一样收集后清洗好,然后在仓库里一个个摆放整齐,这种存储架构被称为数据仓库(Data Warehouse)。
一 数据查询与处理
AIGC产业链上游的全景,最右列是上游主要的公司,右侧第二列是公司类型,这些不同类型的公司可以被归类到数据服务的四个主要环节中。
真正决定不同机器之间能力差异的就是数据的质量。AIGC的产业链上游是一系列围绕数据服务诞生的生产环节,我们可以用农作物加工过程作一个虽不严谨但易于理解的类比。·首先是数据查询与处理,这个环节相当于把刚从农田里收割的农作物分类打包;·其次是数据转换与编排,这个环节相当于把分类打包的农作物运送到食品工厂后制作成包装精美的成品;·再次是数据标注与管理,这个环节相当于给来自工厂的成品商品打上条码和标价;·最后是数据治理与合规,这个环节相当于库房的安保人员要确保商品按照相应的规则合理存放。
图5-1 AIGC产业地图
·数据服务:作为智能机器的“食物”和数字经济世界的生产要素,数据在被“喂”给机器之前,常常会涉及查询与处理、转换与编排、标注与管理等前置步骤,而在整个数据的使用过程中也离不开治理与合规方面的管理工作。作为AIGC的源头,相关数据服务产业孕育了很大的商业机会。·算法模型:人工智能之所以能判断、分析、创作,主要是因为存在支撑这些功能的算法模型。因此,训练算法模型也就成为整个产业链中最“烧脑”、最具技术含量和最具商业潜力的环节。在数字世界,围绕着如何让算法模型更聪明的命题,诞生了包括人工智能实验室、集团科技研究院、开源社区等主要玩家,构成了整个产业链的中游环节。·应用拓展:经过数据训练后的算法模型最终会在下游应用拓展层完成“学以致用”的使命,根据应用场景的模态和功能差异诞生出文本处理、音频处理、图像处理、视频处理的各个细分赛道。每个细分赛道里都有许多创新企业在相互较量,这也是当前风险投资机构最热衷投资的环节。
总体来看,整个AIGC的产业地图可以分为三类:上游数据服务产业、中游算法模型产业、下游应用拓展产业(图5-1)。
阅读至此,各位读者对AIGC的缘起、技术、应用都有了系统性的理解,但落脚到投资、创业究竟会有哪些商业机会?产业链各个环节的价值体现在何处?都有哪些典型的玩家和商业模式?
AIGC的产业链上有哪些创业、投资的商业机会?
一 文本处理
第三节 产业下游:应用拓展
三 开源社区
一 人工智能实验室
第二节 产业中游:算法模型

第六章 AIGC的未来

第一节 AIGC的技术趋势

第二节 AIGC时代的参与主体

第三节 AIGC的风险与监管

第三节 AIGC的风险与监管
第二节 AIGC时代的参与主体
第一节 AIGC的技术趋势
此外,《规定》中也明确了“深度合成”服务提供者和技术支持者的数据和技术方面的管理规范,主要包括加强训练数据管理和加强技术管理两个方面。
《规定》中对“深度合成”服务提供者的主体责任进行了明确规定,具体包括:
·不得利用深度合成服务制作、复制、发布、传播法律、行政法规禁止的信息,或从事法律、行政法规禁止的活动。·建立健全用户注册、算法机制机理审核、科技伦理审查、信息发布审核、数据安全、个人信息保护、反电信网络诈骗、应急处置等管理制度,具有安全可控的技术保障措施。·制定和公开管理规则、平台公约,完善服务协议,落实真实身份信息认证制度。·加强深度合成内容管理,采取技术或者人工方式对输入数据和合成结果进行审核,建立健全用于识别违法和不良信息的特征库,记录并留存相关网络日志。·建立健全辟谣机制,发现利用深度合成服务制作、复制、发布、传播虚假信息的,应当及时采取辟谣措施,保存有关记录,并向网信部门和有关主管部门报告。
对于AIGC可能存在的欺诈问题和违禁问题,中国已有相关的法规颁布。2022年11月3日,国家互联网信息办公室、工业和信息化部、公安部联合发布了《互联网信息服务深度合成管理规定》(以下简称《规定》)
法律法规对于AIGC生成作品的知识产权相关问题的界定并不清晰,但目前已经有业内人士尝试根据已有的法律法规框架,探索将创作者的“创意”进行量化与定价。
·建立公众对人工智能的信任。·鼓励公众参与并提高公众对人工智能标准和技术的认识。·将高标准的科学完整性和信息质量应用于AI和AI决策。·以跨学科的方式使用透明的风险评估和风险管理方法。·在考虑人工智能的开发和部署时评估全部社会成本、收益和其他外部因素。·追求基于性能的灵活方法,以适应人工智能快速变化的性质。·评估人工智能应用中的公平和非歧视问题。·确定适当的透明度和披露水平以增加公众信任。·保持控制以确保AI数据的机密性、完整性和可用性,从而使开发的AI安全可靠。·鼓励机构间协调,以帮助确保人工智能政策的一致性和可预测性。
许多监管法律框架通过交叉应用监管传统学科的规则和条例去实现对AIGC产品的监管,包括产品责任、数据隐私、知识产权、歧视和工作场所权利等。并且,白宫科技政策办公室颁布了10条关于人工智能法律法规的原则,为制定AIGC开发和使用的监管和非监管方法提供参考:
虽然美国在AIGC技术领域起步较早,且技术布局一直处于全球领先地位,但迄今为止美国还没有关于AIGC的全面联邦立法
2.美国对AIGC的监管
在版权领域,相关可参考的法律法规主要关注三个领域:谁拥有AI创作的著作权?AIGC创作的作品是具备独创性的智力成果吗?如何对AI的创作物进行定价?
1.中国对AIGC的监管
制定法律法规的目的是推进行业的发展,以及保护公民和企业的权利和利益,维护社会秩序和公共利益。对于AIGC来说也不例外。随着全球范围内的相关法律法规的不断完善,无论是赋能产业升级还是自主释放价值,AIGC都将在健康有序的发展中得到推进。标准规范为AIGC生态构建了一个技术、内容、应用、服务和监管的全过程一体化标准体系,促进AIGC在合理、合规和合法的框架下进行良性发展。
二 AIGC的监管
从上述这些风险点就可以看出,AIGC作为内容生产的新范式,在推动数字经济快速发展的同时也对相关法律法规及监管治理能力提出了更高的要求。各个国家的监管机构都需要不断地跟进AIGC的发展趋势,在不打压创新的同时不断完善法律法规,避免可能出现的潜在风险。
经常会有使用者故意引导AI输出一些违禁内容,例如暴力、极端仇恨言论、色情图片等。
AI生成的内容完全取决于使用者的引导,在安全措施并不完善的前提下,AI针对恶意的诱导行为无法独立思考和判断,
3.AI生成违禁内容
这项技术滥用后很可能使造假内容以高度可信的方式通过互联网即时触达公众,削弱公众对于虚假信息的判断力,使公众难以甄别真实和虚假信息。
近年来,随着AIGC技术的不断成熟,人工智能已经能够通过分析事先收集的大量语音训练数据,制造出以假乱真的音视频。
2.AIGC导致的欺诈问题
另一类观点认为AIGC产生内容的过程是一个完全随机且创新的过程,不存在版权问题,版权属于AIGC的用户或者平台,具体规定由平台制定。而在目前的实践过程中,各平台的版权条例也偏向于后者
一类观点认为内容由素材库训练生成,本身来自素材库,需要对相关的素材作者提供版权付费。
AIGC本质上是机器学习的应用,而在模型的学习阶段,无法避免使用大量的数据集执行训练,但目前行业对于训练后生成物的版权归属问题尚无定论。
1.AIGC的版权问题
目前,AIGC所产生的风险主要集中在版权问题、欺诈问题和违禁内容三个方面。
一 AIGC的风险
优术强调优化当前对于AIGC产业的鼓励政策,从资金、人才、生态等各个角度支持AIGC的发展。在资金方面,可以打造头部示范性企业或者通过政策吸引头部企业招商,通过积累发展势能吸引投资机构和产业资本入场;将AIGC产业作为投资重点领域,鼓励地方引进、设立相关专项基金,支持产业发展;对人工智能研究进行长期投资,建设综合性的人工智能研究院,开展基础研究、应用基础研究、技术创新和应用示范。在人才方面,可以将AIGC高端人才纳入新时代各类人才计划,认真落实科学中心等现有人才政策,鼓励校企合作,支持高等学校加强人工智能相关学科专业建设,引导职业学校培养产业发展急需的技能型人才,鼓励企业、行业服务机构等培养高水平的人工智能人才队伍。在生态方面,可以加快产业集聚发展政策的制定,实施国家AIGC产业战略性新兴产业集群建设方案,加快引进培育AIGC领域领军企业和重大项目,打造特色产业集群;依托国家创新政策,鼓励开展AIGC领域创新创业和解决方案大赛,营造人工智能创新发展的良好生态;鼓励产业链办公室、产业联盟或重点企业开展AIGC及相关领域的学术研究、专题培训、行业研究和合作推广,承办各类会展、论坛等活动,依托产业链办公室、产业联盟建设AIGC产业信息中心,输出月度产业发展综述、季度比较竞争态势、年度产业发展白皮书等相关行业文件。
因此,政府需要建立一个强大的政策框架以支持AIGC的长期发展和应用,这些政策可能包括:·在了解并解决人工智能的道德、法律和社会影响基础上制定相关政策法规,确保AIGC技术使用的安全性和伦理性。·对于可能造成社会危害性的AIGC领域设定“底线”和“红线”,制定相关法律法规,加强治理和监管。·为AIGC的使用培训和测试开发提供安全合规的公共数据集和环境,制定政府公共数据资源开放清单,合理引导数据资源有序开放,建立人工智能计算资源共享名录。
守道强调的是顺应地方的禀赋,规范地方AIGC产业朝着健康的方向发展,为当地AIGC产业的发展提供积极生长的土壤。具体来说,就是要充分发挥政府在AIGC产业的“守门人”作用,并辅之以必要的法律监管。OpenAI就曾针对当前人工智能产业提出过“守门人”概念,OpenAI指出必须存在一个守门人来保护社会免受人工智能的潜在不良影响,这些措施对于防止人工智能被滥用非常重要。不过,这种规范性的措施绝对不是全方位的限制,
地方政府入局AIGC的关键在于能否将AIGC的应用场景和产业地图与自身发展规划相适应,借助地方多年的产业优势与区位因素,让AIGC从提高生产力的出发点赋能经济增长。地方政府可以从营造浓厚的产业氛围出发,为人工智能产业创新发展提供强大的知识储备和技术支撑,同时从长远角度布局发展战略。
审时审的是地方产业发展阶段之时,度地方发展之势,结合当前地方产业发展阶段,制定合理的入局方式
面对AIGC时代的发展,政府也应该从产业发展的角度制定各类配套政策,并辅之以合理的监管,躬身入局新一轮的科技浪潮。对于政府而言,入局AIGC的基本思想可以用三个词概括:审时——守道——优术。
当然,无论出于何种投资逻辑,寻找AIGC投资机会都需要充分了解AIGC产业地图的每一个环节,寻找自己通过借助历史经验可以真正看得懂的领域或环节。大浪淘沙方显英雄本色,每一位投资人都身处浪潮之巅与时代风口,机遇与未知并存,难以预测未来但正在创造未来,难以拨开风口的重重云雾窥探时代的风向标,但可以从差异中寻找共性、从历史中汲取经验,在变化中守得云开见月明。
历史的发展已经证明了人工智能技术突破的长周期性,而考虑到人民币基金5~7年和美元基金10年左右的存续期,选择现有需求成熟度高但技术成熟度还差1~2年的领域或许是风险更低、更加稳妥的投资选择。目前,我国尚未真正进入AIGC全面爆发性增长的阶段,即便细分赛道出现一些个别优秀的公司和研究机构,但还未进入大规模验证和体系化发展的阶段。所以,能否抓住细分赛道的机会就显得尤为重要。对于投资人来说,如果希望从技术角度进行投资,与其说是押注公司,不如说是押注细分赛道,这种投资逻辑会更考验投资人对于细分赛道研究的基本功。
传统业务发展顺利的公司如何引入新兴的AIGC工具同样值得投资人关注。例如,知名知识管理领域的独角兽Notion推出的AI写作助手就非常值得投资人的关注。
切实提升业务生产效率或者降低业务成本的公司将具备难以想象的成长潜能,借助“合作伙伴+生态+赋能行业”的传统打法,这类公司很容易就在这个新兴赛道杀出一片天地。而对于这类具有潜力的公司的投资判断,会更加考验投资人对于B端业务本身的熟悉程度,这样才能对AIGC工具的业务价值理解得更加通透。
如何让用户有动力持续使用产品才是制胜的关键。而从B端来看,AIGC产品的“生产力工具”属性将更加浓厚
从C端来看,
在GPT-3模型发布的两年多以来,风投资本对AIGC的投资就增长了400%以上。
不过,对于当前的AIGC领域,投资人依然需要避免陷入“拿着锤子找钉子”的误区。一个好的投资标的未必是运用先进技术的公司,而是可以确定实际的终端用户需求到底是什么、技术如何更好地制作产品并满足用户需求的公司。即便市场的普遍认知更加看好大模型的未来发展,但商业化最终的理想出路究竟是“更大”还是“更专”尚未有定数,一些技术并不亮眼但能更好地解决用户痛点的公司同样值得关注。
这一次AIGC投资爆发的浪潮主要源于大模型的民主化革命,
伴随着即将来临的智能创作时代,AIGC确实孕育了丰富的投资机会。
三 AIGC时代的政府
二 AIGC时代的投资人
比如海外初创公司Jasper就提供了生成Instagram标题、编写TikTok视频脚本、编写广告营销文本等针对B端媒体场景的定制化服务。
对于创业者来说,找到一个可以落地的商业场景,并且锁定一个细分场景对AIGC进行训练,做出产品在特定领域的差异化,这是商业化落地的最好方式。
目前来看,相较于针对C端用户,AIGC在B端服务方面的变现模式反而更具有可行性。传统产业迫切需要AIGC技术来实现降本增效,许多公司对于能够提升业务效率或显著降低业务成本的技术具备极高的付费意愿。
此外,另一个不适合初创公司模仿的原因在于,Stability AI和Midjourney的大部分用户都聚集在C端,这些用户使用AIGC的产品更多是为了娱乐,尝试新鲜好玩的东西,但是付费意愿较低,难以转化成真正的付费用户。对于Stability AI和Midjourney来说,作为行业的龙头公司,它们已经融资了数亿美元,在现金流方面不会有很大压力
除了竞争方面,商业模式的设计也是困扰很多AIGC创业者的核心难题。除了传统工具产品的付费模式外,目前尚无让人耳目一新的盈利方式。
打造产品在细分赛道的差异化及寻找合适的商业化场景落地,将成为这些创业公司竞争的关键。
目前,AIGC初创公司的产品大多是基于市面上现有的开源模型进行二次开发。虽然这种方式可以帮助创业公司快速开发出一个可用的AIGC产品,但也会让开发出的产品从技术角度失去韧性的技术壁垒,令短周期内的竞争达到非常激烈的水平。
随着AIGC相关内容的爆火和出圈,互联网巨头闻风而动,国外的微软、谷歌、Meta,以及国内的百度、腾讯、字节跳动等大厂都在AIGC领域有所投入。不少创业者也在其中看到了商机,并想从中“掘金”。不过,相比于大厂拥有雄厚的研发资金、成熟的研发团队,创业公司的路走得似乎会更艰难。
一 AIGC时代的创业者
例如,将AIGC用于考试作弊、发布大量骚扰信息、伪造他人虚假的裸体照片、生成枪支构造图及3D打印代码等行为都是应该被避免且监管的。当然,这些潜在的风险不仅需要技术层面的预防,还需要相关法律法规的颁布。AIGC技术伦理问题的解决需要学界、业界、社会、政府的共同努力。
除了从训练角度对AIGC潜在技术伦理问题进行预防外,在使用上及时告警停用的技术措施更显必要。
以ChatGPT为例,在一位工程师的诱导下,它写出了步骤详细的毁灭人类计划书,详细到入侵各国计算机系统、控制武器、破坏通讯和交通系统,等等。
借鉴强化学习思想的RLHF方法就是减少人工智能生成危害性内容的典型措施,前面反复提及的ChatGPT就是采用这种方式训练的。在RLHF的框架下,开发人员会在人工智能做出符合人类预期回答时给予奖励,而在做出有害内容的回答时施加惩罚,这种根据人类反馈信号直接优化语言模型的方法可以给予AI积极的引导。
科学家正尝试运用一些技术手段避免这些具有潜在风险的事件发生。通过改善数据集,增加更多的限制性条件,以及对模型进行微调,可以使得人工智能减少对于有害内容的学习,从而减少人工智能本身的危险性。
一个典型的AIGC技术伦理问题是AI所生成内容的危险性。OpenAI的最早联合发起人以及DeepMind的早期投资人埃隆·马斯克曾表示:“如果不加以控制,AI或许很有可能会摧毁整个人类。”
。许多AIGC从学术研究转投产业研究的第一步,就是探索如何从技术角度解决潜在的技术伦理问题。
三 技术伦理成为发展的重要关注点
基于人类通过学习而获得智能,诞生了机器学习;基于人类在学习过程中会有激励和惩罚,这些激励和惩罚会不断强化人类的能力,出现了强化学习;基于人类在接受信息时往往会将注意力集中在重要的信息上,产生了当代主流大模型的根基——Transformer;基于人类在学习认图时并非学习照片细节的纹路,而是直接被不断告知关于图片中物体的描述,诞生了AI绘画的奠基性模型——CLIP模型。总之,从领域开拓到细分应用,从模仿人类的学习过程到模仿人类的认知方式,人工智能逐渐从更宏观、更抽象的维度从人类身上汲取营养。伴随着人类对于自身智能产生根源的通晓,我们相信人工智能相关技术又会迎来一次前所未有的飞跃,为未来的AIGC带来更多的可能性。
二 全新的人工智能“仿人模式”
大模型之“大”除了体现在参数规模上,同样也体现在数据量上
主打“通用化”的大模型在时代的浪潮下孕育而生。通过“预训练大模型+下游任务微调”的方式,人们可以让模型从大量标记和未标记的数据中捕获知识,并在微调后将模型的能力迁移到各类任务场景中,极大地扩展了模型的通用能力。如果说这种“预训练+微调”的模型训练方式使大模型的广泛使用成为可能,那模型规模的增长则让这些大模型变得强大无比。
人工智能的发展经历过多次春天与寒冬,每一次春天与寒冬的交织都与“通用化”和“专用化”的分歧息息相关
有三大因素促使了这类大模型的产生:
·计算机硬件的改进,以及GPU等处理器算力的增加令如此规模的大模型训练成为可能。·Transformer等重要模型架构的出现让人们可以利用硬件的并行性去训练比以前更具表现力的模型。·互联网与大数据的高速发展提供了丰富的数据,可以支撑大模型的规模化训练。
一 大模型的广泛应用
AIGC起源于技术,也因为技术的高速演进得到了迅猛的发展,迎来了全面商业化落地的今天。
如何从技术、创业、投资、监管等方面看待AIGC的未来?

附录一 AIGC产业地图标的公司列表(部分)

附录二 AIGC术语及解释

附录三 AIGC大事记

后记

如今又获得了人类独有的创造力。
人工智能的发展无疑是迅速的,从学科诞生起至今不过百年
这既是对未来的憧憬,也是对未来的警示。而最终未来的船帆驶向何方,选择权从来都在人类自己手中。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多