AI Native的兴起，揭秘AI原生工作流

天承办公室 2024-02-15 发布于江苏

展开全文

文｜AI Pioneer

封面来源｜IC photo

在这个变幻莫测的数字时代，我们每个人都像是水手，驾驶着自己的小船在无垠的信息海洋中探索。然而，这艘由传统软件构建的船只，似乎已被岁月的风霜侵蚀，略显陈旧。

生成式人工智能的崛起，宛如晨曦中的一线光芒，为寻求变革的创业者们指引了一条全新的道路。这些新生的公司不再是简单地在旧世界的基础上添加一层人工智能的色彩，而是从根本上，以AI为本质、为灵魂，重新定义了产品和服务。

从表面上看，人工智能似乎仅仅是提高了我们完成日常工作的效率。然而，AI原生平台实则在革新我们与软件的互动方式，它使得用户能够将那些琐碎且技术含量不高的任务委托给机器，而自己则能够将宝贵的时间和精力，投入到更高层次的思考和创造中。

在a16z的这篇文章中，将深入探索当下及未来最成功的Gen AI原生工作流程的精髓，并展望这些产品将如何继续引领时代潮流。（转自AI Pioneer，内容稍有调整）

探索GenAI时代：揭秘未来消费者产品的革命性面貌。

在Gen AI原生的工作流程之心，蕴藏着一项关键革新：将尖端技术模型化身为用户友好、高效能的界面。在这个以用户为中心的新纪元中，工作流程工具的使用者并不纠结于技术细节的迷宫，他们的目光聚焦于这些产品如何成为他们成功的助力。

尽管生成式人工智能的技术跃进令人赞叹不已，但真正成功的产品始终植根于深刻理解用户及其需求的土壤。AI如何巧妙地抽丝剥茧，精确捕捉决策的关键节点和最有效的杠杆点？

我们预见，这类产品将展现以下几个核心功能：

解决“空白页”困境（从0到1）

消费者AI的最早和最直观的应用体现在将自然语言提示转换成媒体产出——比如图像、视频和文本生成器。这些工具旨在化解实际的“空白页”挑战，面对眼前让人好毫无头绪的一片白纸，完成无论是将幻灯片的文字提示酝酿成故事，还是把简单的草图或大纲升华为更丰富的创作。

有些企业将通过自研的专有模型实现这一点，而其他企业则可能巧妙结合多种模型（开源、专有或通过API），创造出独一无二的产品体验。以Vizcom的渲染工具为例，用户只需输入文本提示、草图或3D模型，便可迅速得到逼真的渲染效果，从而为创作提供更丰富的迭代空间。

另一个引人注目的例子是Durable的网站构建器，这款产品已经成功帮助创建了超过六百万个网站，成为一个显著的成就。用户仅需输入他们的公司名称、部门和地点，Durable就能提供一个可供个性化定制的网站模板。

随着LLM（大语言模型）技术日益增强，未来的产品——比如Durable能够从互联网和社交媒体等渠道智能地提取和整合有关您业务的实时信息，如公司历史、团队构成、客户评价、品牌标识等。

想象一下，通过这样一个高度集成的产品，您可以获得更为丰富和复杂的输出，极大地简化并加速您的网站建设过程。这不仅仅是自动化的升级，而是一种智能化的革命。它在理解您的业务需求和呈现您的品牌故事方面，将展现前所未有的洞察力和创造力。

多模式和多媒体组合为创意项目带来更多可能

许多项目需结合图像、文本、音乐、视频等多种内容类型，而目前尚无单一模型能生成所有类型的资产。这为创新的工作流产品提供了机遇，允许用户在一个平台上生成、细化和组合不同类型的内容。

例如，HeyGen的头像产品就是这类工具的代表。该公司将其化身和配音模型与ElevenLabs的文本转语音API结合，创造出逼真的数字人视频化身（如Justine的视频化身）。

此外，HeyGen产品还包含模板和类似Canva的编辑器，用户可以轻松地将头像整合到幻灯片或视频中，添加文本或其他元素，无需转至Powerpoint或Google Slides。这样的整合为用户提供了一站式的创意解决方案。

支持更多迭代的智能编辑器

几乎没有任何工作产品是“一次性”的——尤其是人工智能，因为每一代都存在固有的随机性。您很少能在第一次运行时就得到您想要的结果。点击重新生成按钮和/或修改提示是该过程的关键部分，但既耗时又令人沮丧。第一波人工智能生成产品不允许任何迭代：你创建了一个图像（或视频或音乐），仅此而已。如果您重新运行相同的提示，您会得到完全不同的结果。

我们现在开始看到一些功能，使用户能够获取现有的输出并对其进行改进，而无需完全从头开始。Midjourney 的变化和缩放工具就是一个很好的例子。

另外在AI视频生成工具中，Pika提供了类似的功能。用户可以获取他们已经创建的剪辑并修改特定区域。例如，更改角色的性别或头发颜色或添加或删除对象。用户还可以通过修复现有视频周围的空白区域来扩展画布。

平台内细化

智能编辑的另一个关键（且相关）要素是精炼。最后10%的打磨工作往往决定着创造出好的东西还是伟大的东西。但这可能是一个挑战：

1、找出需要改进的内容；
2、无需转移到其他产品即可进行这些改进。

AI工作流程产品可以帮助用户识别哪些方面可以改进，然后自动进行这些改进。可以将其想象为 Apple 在照片上的“自动修饰”功能，但也可以将其视为任何内容的“自动修饰”！最字面的解释是升级，这是Krea等平台提供的。在一个界面中，用户可以生成图像或设计，然后对其进行增强 - 让他们更接近最终产品。

ElevenLabs的有声读物工作流程是另一个很好的例子。您可以使用该工具为特定角色生成声音来叙述书籍的各个部分，然后通过调整句子或短语的停顿、稳定性或清晰度来完善输出。

可重新混合和转置的输出

人工智能使内容具有独特的灵活性——每一段内容都是下一次迭代的潜在“起点”。如果您曾经在Midjourney 或 ChatGPT 中复制并调整过其他人一代的提示，那么您就参与了这一过程。

发挥这种灵活性的平台可能会打造出更强大、更具粘性的产品。对于最初的创作者来说，能够跨媒体转换您的作品具有巨大的价值，例如，将视频转变为博客文章，或将文本解释转变为操作动画视频。这是Gamma发布平台的核心功能。用户可以根据提示或上传的文件生成幻灯片、文档或网页，并根据需要切换格式。

从面向外部的角度来看，这些产品可以允许用户公开他们的工作流程以供其他人迭代。这可能是一系列提示或模型组合，或者只是一个“复制”按钮，供技术水平较低的用户模仿输出或美学。

Imagen AI是一个面向专业摄影师的编辑平台，该公司根据每位摄影师的个人风格训练一个模型，使他们能够更轻松地进行批量编辑。

此外，用户也可以选择以行业领先的摄影师的风格进行编辑，这些摄影师已在平台上公开了他们的个人资料。

产消合一产品将如何发展？

对于下一代专业消费者工具来说，现在还处于早期阶段。虽然现有工具生成核心资产的能力最终足以添加有意义的工作流程，但大多数产品仍然只专注于一种类型的内容-并且在功能方面相当有限。以下是我们希望在未来几个月看到的一些事情：

1、结合内容模式的编辑工具

视频可能是最好的例子。如今，使用人工智能制作短片需要在 Pika 或 Runway 等产品中生成多个剪辑，然后将它们移动到 Capcut 或 Kapwing 等另一个平台进行编辑或混音（或添加在其他地方生成的声音！）。

如果您可以在一个平台上完成此过程的每一步怎么办？我们预计一些新兴的产品将能够添加更多的工作流程功能，并扩展到其他类型的内容生成——这可以通过训练自己的模型、利用开源模型或与其他参与者合作来完成。我们还可能会看到一个新的独立的人工智能原生编辑器的出现，使用户能够“插入”不同的模型。

2、利用不同交互模式的产品

文本提示并不总是与人工智能产品沟通的最有效方式。我们相信，您应该能够像与人类头脑风暴伙伴合作一样使用生成工具 - 无论是通过演讲、草图还是分享灵感照片。

我们对语音作为一种交互感到特别兴奋，它允许用户分享更复杂的想法（或者只是以文本不可能的方式闲聊）。此类产品已经开始出现，Oasis、TalkNotes和AudioPen都能够将语音笔记转换为电子邮件、博客文章或推文。我们期望音频甚至视频作为输入源出现在更多的工作流程产品中，从而改变用户完成工作的方式和时间。

3、人类和人工智能生成内容共存的产品

我们希望看到能够让您同时处理人工智能和人类内容的工具。如今大多数产品都专注于其中之一。例如，它们非常擅长增强真实照片，但对人工智能图像却无能为力。或者他们可以生成新视频，但无法增强或重新设计 iPhone 中的剪辑。

未来，我们预计大多数专业内容制作者将混合使用人工智能和人类生成的内容。他们使用的产品应该欢迎这两种类型的内容，甚至更容易将它们结合起来。

Runway的编辑工具就体现了这一点。您可以从公司的生成模型中提取剪辑和图像，并上传真实视频以在同一时间轴中使用。然后，您可以在这两种类型的内容上使用该公司的“神奇工具”，例如修复和绿屏。