合成数据或破数据量瓶颈，哪些领域将率先落地

精诚至_金石开 2023-08-17 发布于上海

展开全文

随着人工智能技术的蓬勃发展，高质量数据的重要性愈发凸显，成为推动大模型竞争的关键要素之一。然而，数据存量的增长速度远远低于数据集规模的增长速度，据人工智能研究机构epoch的研究预测，语言数据可能在2030-2040年耗尽，其中能训练出更优性能的高质量语言数据甚至可能在2026年耗尽。

高质量数据的稀缺性导致数据采集成本水涨船高，许多公司面临着数据获取困境。因此，引领人工智能领域的企业，如微软、OpenAI、Cohere等公司，纷纷转向使用合成数据作为解决方案，以降低数据成本，推动AI技术的发展。

合成数据有望成为解决数据不足、数据采集成本过高的关键，那么合成数据是如何合成的？与“真实”数据相比有何优劣？应用场景有哪些？哪些公司在合成数据布局上更有优势？

合成数据有望助力突破数据瓶颈

在人工智能迈入2.0时代的关键转折点，数据质量和数量成为了最为紧迫的挑战。然而，现有真实数据采集的成本高昂，且存在有限性，限制了人工智能技术的进一步发展。

Forrester将合成数据、强化学习、Transformer 网络、联邦学习和因果推理视为实现人工智能2.0的五项关键技术进展。合成数据是通过计算机模拟或算法生成的带有注释的信息，可模拟实际情况，补充真实数据的不足，提高数据质量和数量，并有效降低数据采集和处理的成本。

合成数据能够解决数据匮乏、数据质量、数据隐私等问题，提供现实世界难以或无法采集的数据，提高数据多样性和提升训练速度。

根据美国AI研究机构Cognilytica 的数据，2021 年合成数据市场规模大概在 1.1 亿美元，到2027 年将达到 11.5 亿美元。Gartner 预测，到 2024 年用于训练 Al 的数据中有 60% 将是合成数据，到2030 年 AI 模型使用的绝大部分数据将由人工智能合成。

数据合成可以分为两类，一是通过传统算法合成，需要明确的物理规律，例如图像生成，通过3D建模来渲染图像。难点在于逼真细致的建模，场景静态与动态合理与自洽，快速的建模技术与合理的建模成本。当模拟技术发展到⼀定的阶段，通过模拟获得感知数据是⼀种更好的获取数据的⽅式。因为其成本更低，质量更高，约束更少。

二是通过生成模型（AI）合成，这类数据并不是从⾃然中采集得到的，⽽是智能体⽣成的，比如⽂本数据。这类数据需要通过复杂的智能活动才能⽣成，AI可以模仿人类⽣成这类数据。利用已经学到的知识，AI通过思考可以对已有的知识进行整理，去伪存真，得到更⾼质量的数据，并通过逻辑推理，发现新的知识。由于世界上可用的开源⽂本数据已经大部分被利用了，可以预见这类AI生成的数据的比例会越来越高。

国外的主流科技公司纷纷瞄准合成数据领域加大投入与布局。微软、英伟达、亚马逊等科技巨头均推出了合成数据的工具或者应用，用于训练自主飞行器、为AI训练构建具有物理属性的合成数据技术引擎等。

AI训练数据服务商appen表示，在处理真实世界的数据时，身份隐私的重要性将继续增加。合成数据创建人工生成数据集，因此数据中自然不包含个人身份信息。合成数据还可以快速生成大量数据，因此可以在无需时间或安全限制的情况下生成边缘用例数据。在2022年预测中，预见了对合成数据的需求，并与Mindtech合作，为客户提供合成数据。

中航证券高级分析师刘牧野对第一财经表示，合成数据相关创新创业方兴未艾，合成数据创业公司不断涌现，合成数据领域的投资并购持续升温，开始涌现了合成数据即服务这一发展前景十分广阔的全新商业模式，建议关注国内进行AI算法研究，且拥有庞大数据的公司，包括百度（09888.HK）、阿里巴巴（09988.HK）、腾讯控股（00700.HK）、金山办公（688111.SH）、中国电信（601728.SH）等。

合成数据有望在金融、医疗、智能驾驶等领域率先落地

合成数据早期主要应用于计算机视觉领域，目前，合成数据正迅速向金融、医疗、零售、工业等诸多产业领域拓展应用。合成数据以其独特优势，为模型训练提供了更多样化的数据，从而使人工智能模型更可靠、更准确。这一趋势对于面临数据稀缺性或涉及敏感信息处理的行业尤为有益。

有研究人员在2018年曾发现，顶尖的面部识别软件在识别肤色较深的人时，错误率高达34%。原因就在于用于训练这些模型的数据缺少一整个人类种族的子集。在这种情况下，合成数据可以在不需采集更多真实数据的情况下，轻松获取更多样化的训练数据。通过改变同一人的发型、头部姿势等特征，或者创造具有不同肤色、种族特征、骨骼结构等的面孔，让模型得到更广泛的训练，从而提高了可靠性。

在数据敏感的金融和生物医药领域，合成数据也展现了其隐私保护的巨大潜力。在金融行业，合成数据可以为金融机构提供一种有效的方法，用于在不提供敏感的历史交易信息的前提下，训练量化交易模型，从而提升获利能力。此外，合成数据还可以用于训练客服机器人，改善客户服务体验，为金融机构提供更智能、高效的客户支持。

合成数据的应用为药物研发工作也提供了巨大帮助。通过合成数据集，可以在不泄露患者隐私信息的条件下训练相关模型，加速新药研发过程，发现潜在的治疗方法，提高医药领域的效率和准确性。

生物医药企业成都先导（688222.SH）通过海量合成数据、筛选数据与化合物活性数据，对万亿级库不断进行分子成药属性与化学合成质量的迭代与提升。截至2022年报告期末，公司的 DEL 库分子数量已超过 1.2 万亿个。

合成数据能够在短时间内生成大量数据，这对于依赖罕见事件的真实数据场景也尤为重要，例如在自动驾驶的性能测试中，极端天气下获取真实路况数据可能存在困难或危险。在所有可能的驾驶体验中，有太多的变量需要考虑，不能完全依赖于真车进行现场测试。合成数据比人工采集数据更安全、更快捷。

这些行业中，合成数据的应用都能有效解决数据隐私和数据获取的挑战，为各领域的科技发展和商业应用提供了全新的解决方案。通过合成数据的引入，这些行业能够更好地利用大数据、人工智能和机器学习等先进技术，实现更高效、更智能、更安全的发展，为数字经济时代带来更多创新与进步。

不过，appen表示，合成数据的使用速度大幅增长虽然为企业节省了时间和资金，但并非没有挑战，合成数据缺乏异常值，而这些异常值出现在自然的真实数据中，对于模型精确度至关重要。另外，合成数据的质量通常取决于用于生成的输入数据的质量，输入数据中的偏见很容易传播到合成数据中，因此不能低估使用高质量数据作为起点的重要性。所以需要将合成数据与人工标注的真实数据进行比较，作为额外的输出控制。

倍霖科技CEO杜霖也对第一财经表示，知识类合成数据会和真实数据共存、⽆法取代，但是合成数据的⽐例会逐步升⾼。真实数据承载着现实世界的新的信息，描述世界的最新状态，合成数据达标的是已有的规律和信息，是对过去的总结和推演发展，合成数据的⼤规模应⽤在于质量和成本。