用大模型，火山引擎要把数据飞轮「转」起来

天承办公室 2023-09-20

展开全文

机器之心报道

作者：姜菁玲

在大模型对千行百业的改造进程中，火山引擎率先交出了一份数据行业的个性化答案。

9 月 19 日，在上海举办的 “数据飞轮・V-Tech 数据驱动科技峰会” 上，火山引擎宣布数智平台 VeDI 应用大模型（Large Language Models）能力。

产品升级后，能够实现用自然语言 “找数”、辅助数仓模型研发、优化代码，同时还能完成可视化图表的生成，对话时实现归因分析等功能。即使没有代码能力的普通运营人员也能快速找数和分析。目前，VeDI 相关数据产品已启动邀测。

升级后的数据产品大大拉低了使用数据的门槛。以往，一个普通运营希望找数，往往需要求助研发人员，由研发人员编写代码帮助取数，分析一个数据需要结合众多专业知识。而现在，借助升级后的数据产品，运营人员可以随时用自然语言输入自己的需求，实时拿到自己想要的数据。

这将进一步激发数据的价值。在企业内部，更低的使用门槛能够数据消费链条上的更多人能够开始接触数据、使用数据，以往被现实门槛压抑的数据需求将会被满足，业务基于数据的洞察将会更加及时、决策将更加科学、更多基于数据的业务想象将被释放。

对于正在数字化进程中的企业来说，数据价值将在更高频率的流转中被释放，数据飞轮将被进一步加速。

大模型融入数据全链路，进一步降低数据生产、使用门槛

相比于小模型，大模型拥有强大的泛化推理能力、外部工具调取能力以及代码生成能力。这些能力对于数据产品而言，有着重大的影响。

更强的泛化推理能力意味着更高的智能性，但同时，也需要结合很多工具的调各项能力，比如数学及分析能力等作为补充。而大模型时代开启的自然语言交互模式，也为数据产品的使用方式带来了新的想象空间。

今年 3 月开始，字节内部开始将大模型与数据产品进行结合，在快速迭代的小范围测试中，很快罗旋团队发现，在数据产品的主要场景中，大模型带来的提升和改变都是明显的。随后，团队开始在数据产品的场景中大范围尝试，不断量化场景的优先级，并推动大模型在产品中落地。

在大模型对数据行业的改造过程中，场景的选择是最关键的步骤之一，一个合适的使用场景不仅需要在目前的技术或者可预期的技术上成立，还需要保证加持大模型后用户或业务方能够有更好的使用体验，同时带来更多的数据消费价值，能够进一步带动数据生产。

罗旋分享称，比如，如果在一些场景中原有解决方案整体只需要花费 1-2 秒，使用了大模型之后，由于大模型延迟问题，用自然语言可能要到 5 秒以上，那这个场景就不能满足业务对于时效性的体验需求，就是不成立的。

“但是，比如在短代码生成环节，加入自然语言后，场景效率提升便十分明显。未来，随着大模型的性能不断提升，在数据全链路的各个环节，大模型能带来的智能化改变将更值得期待。”

在此次的 “数据飞轮・V-Tech 数据驱动科技峰会” 上，火山引擎所宣布的关于数智平台 VeDI 的产品升级主要包括了 DataLeap 以及 DataWind 两个部分。其中，DataLeap 中的 “找数助手” 能够支持以问答方式进行找数，“开发助手” 能够支持用自然语言生成、优化 SQL 代码；DataWind - 分析助手则能够支持自然语言完成数据可视化查询与分析。覆盖了找数、取数以及分析全链路，为数据生产与消费全流程降低了技术门槛。

DataLeap - 找数助手

“找数” 通常是数据消费全链条的第一步，找到正确的数据资产，才能实现数据的消费。但是，在传统流程中的 “找数” 并不是一个简单的工作，需要强依赖业务专业知识的输入，通常人们只能通过关键词的检索，再进行人为筛选或者寻求专业数据开发人员才能确认。

使用 DataLeap - 找数助手 “找数”

“找数助手” 功能，通过与大语言模型（LLM）结合，大大降低了 “找数” 的门槛。利用 “找数助手”，没有代码能力的人员也能够通过自然语言进行 “拟人化” 查询，比如一位电商运营可以直接提问：“最近 7 天好物直播间的经营状况，要用哪些表？”。DataLeap - 找数助手会根据业务的知识库，推荐与经营状况相关的表，并解释每张表对应的数据维度。

目前，“找数助手” 能够实现包括 Hive 表、数据集、仪表盘、数据指标、维度等多种数据类型及相关业务知识的问答式检索，实现拟人化查询。

另外，除了 “找数” 变得更加简单，结合了大模型能力的 “找数助手” 还能让 “找数” 的准确率进一步提高。过去传统技术方案下，数据资产检索依赖于数据结构化管理，非结构化的业务数据则可能关联缺失，用关键词进行检索时，产生的链路割裂问题，可能会大大降低基于业务场景的数据查找和消费效率。此外，检索提供的是基于关键词的候选答案集合，需要人为再次筛选确认，不是直接的答案，导致用户很难有良好体验。

而现在，在与用户对话式的过程中，大语言模型 (LLM) 可以理解用户真实意图，让搜索过程更聚焦，节约了人为判断的成本，“找数” 本身变得更快，同时，伴随模型语义理解分析能力的逐步提升，对话式检索相比单纯地用关键词检索的方式，其全链路的检索效率也更高。

DataLeap - 开发助手

在数据生产加工环节，“开发助手” 能够支持使用自然语言，自动生成 SQL 代码；针对已有的代码可以自动实现 Bug 修复，代码优化、解释与注释等，此外还可以通过对话方式实现文档搜索、函数使用、代码示例等 SQL 使用类的问题咨询。

自动开发 SQL 代码

开发助手底层采用大语言模型 (LLM)，经过海量的代码和语料训练，可以根据用户的自然语言输入，自动关联包括表 Schema 在内的元数据信息，生成高质量的数据加工代码，并具备代码的理解、改写以及问答能力。

自动修复已有代码

开发助手打破了语言障碍，极大程度降低了数据开发的门槛。“原来（加工）数据这件事情你可能要会一门编程语言，比如 SQL 或者 Python，这是一个相对强的技能要求。但是，现在你可以不再需要编程语言，可以使用自然语言。那么，这意味着做这件事的人的要求，也进一步降低。”

对于有数据消费诉求的分析师和运营人员，不懂 SQL 也可以做一些基础 ETL。运营人员可以让 DataLeap 自动生成对应经营状况的数据需求代码，比如分城市的订单销售，或分时段的直播间流量等。运营人员还能追问代码的含义，比如 “这张表在运行期间，有什么优化方案吗？”，也可以对话：“帮我检查、修复这串代码”。还能够一键解析生成的代码，调用 SQL 工具做表的检查，点击确认 AI 自动修复，进一步优化数据资产。

更重要的是，对于专业研发人员来说，DataLeap - 开发助手可以帮助他们做一些基础性的工作，处理来自数据分析师、依赖数据的业务运营人员的一些繁杂但基础的需求，工程师只需要在最后校正和核对所生成代码的准确性。于是，研发人员能够将精力放在更有创造力的工作上，更聚焦复杂场景的需求，利用开发助手优化代码，提高研发生产效率与代码质量。

DataWind - 分析助手

在实现找数和取数之后，来到了数据分析环节。结合了大模型能力的 DataWind - 分析助手，能够帮助非分析岗位的人员，通过自然语言对话，可完成数据可视化查询与分析等一系列业务探索，降低此环节的门槛。

首先是 “数据集” 的创建。有了数据资产，运营人员通过 DataWind 拖拉拽方式做数据集的创建，然后使用自然语言的方式去定义不同字段的逻辑，比如直接查 “大咖直播时段” 的数据。

字段生成

查好后，运营人员就能可视化分析探索。过去 BI 工具，普遍采用拖拉拽的操作方式，虽然在仪表盘制作上已经降低了门槛，但在分析洞察领域，依旧需要大量专业知识的输入，才能更好地理解数据，这是一道 “门槛”。

可视化探索

但通过大模型更强泛化推理能力的加持，DataWind 已经能够进行基础的假设和验证，提出分析思路。DataWind 提供的 AI 自动分析功能，能够支持其根据图表进一步探索背后的原因。比如说在生成的 “直播间分时段流量图”、“直播间销售额地区 Top” 等可视化图表中，AI 能自动分析，运营人员只需基于分析结果，通过对话形式进一步归因。

同时，DataWind 还联通飞书等办公协同工具，使用者通过 IM 消息订阅、自然对话，进行更多延展分析，实现随时随地的灵活分析，满足从数据集、可视化洞察、消息订阅等全链路上的自助智能，联通办公集成，让数据分析无缝融入日常。

协同 IM 消息订阅进行延展分析

分析助手将分析洞察的门槛进一步降低，从看 “数据图” 到通过自然语言对话直接了解结果，数据分析思考周期大幅缩短，解决过去分析洞察上需要大量专业知识的痛点，缩短数据分析周期。

现阶段 DataWind - 分析助手的应用场景已经十分丰富，除了在核心的分析场景可以实现对话式探索之外，分析助手还将能力延展到了表达式生成等过去需要更多技术门槛的场景中。

大模型加速数据飞轮，帮助企业更好地实现数据驱动

字节跳动拥有深厚的数据驱动基因。自成立以来，字节跳动内部几乎所有场景都会落到 A/B 测试，通过数据反馈驱动业务的策略进行调整，比如抖音视频画质的优化效果好不好、推荐算法策略优化准不准、甚至今日头条的名字，也经过 A/B 测试。

在字节内部，数据消费的范围很广。组织上，从高层到中层，以及一线员工基本实现全员看数，通过数据来评估公司的经营状况、收支状况、业务进展、产品策略。在具体场景上，比如在直播电商中的实时营销中，运营根据实时数据进行对应的营销策略设计和推送 push。

字节通过数据消费实现了决策科学、行动敏捷，带来业务价值提升；也通过频繁的数据消费和业务收益，有的放矢低成本建设高质量的数据资产，更好支撑业务应用。

今年 4 月，火山引擎基于字节跳动十余年数据驱动的实践经验，曾对外发布企业数智化升级新范式 “数据飞轮”，用 “数据飞轮” 来概括企业数据流充分融入业务流后，能够实现数据资产和业务应用提升的飞轮效应。

在整个数字化的大趋势下，千行百业的企业业务都在与数字化更加紧密，数据对于企业而言越来越重要。作为新型生产要素，数据正支撑企业的数智化转型。但是客观上看，虽然不少企业数字化建设较多，却无法较好释放数据价值。

“一家企业可能花费高昂的价格部署了数据产品，但是可能内部真正使用的人却寥寥无几，数据难以流动就很难发挥价值。” 罗旋在数据产品市场观察到，许多正在进行数字化建设的企业，存在着数据建设与管理成本高、数据产品使用门槛高、数据资产价值低的问题。

而从整个数字化进程来看，要达到 “数据驱动”，是一件难而正确的事。以字节为例，罗旋透露称，目前，字节跳动内部 80% 的员工可以直接使用数据产品，可管理、运营的数据资产覆盖 80% 的日常分析场景。从字节经验来看，这意味着，企业内部数据产品的使用率以及可管理运营的数据资产在场景中的覆盖率都需要提升到较高的水平，才能在公司形成良好的 “数据飞轮”。

在这个过程中，大模型加持下的数据产品或许是帮助企业实现目标的重要推动力量。经过大模型能力升级后的数智平台 VeDI 进一步降低了找数、取数以及数据分析等数据生产和消费的全环节。在同样的需求水平下，使用升级后的 VeDI，公司中有能力使用数据产品的人从专业的数据分析师扩张到了所有有数据需求的人，可能是运营、老板、产品经理等等角色，数据消费变得普惠。

“只有降低门槛，把数据用起来了，才知道数据在流转中到底会产生什么样的价值”，对于刚刚迈入数字化进程的公司而言，数据的价值是一座远远没有被开掘的宝藏，更低门槛的数据产品可能是一把开启的钥匙。

在大模型加持下，企业内部的 “数据飞轮” 将加速旋转。公司业务拥有了更强大的引擎，业务人员能够从 “秒出数据” 中快速得到数据反馈，从而对业务进行更快优化，在数据加速流转过程中，更多高质量数据资产的不断沉淀带给业务更多的洞察，最终让业务决策实现更科学、更敏捷。