【原】如何让大模型具有实际意义？行业应用之“中模型”范式

零点有数 2023-06-16 发布于广东

展开全文

随着ChatGPT兴起，语言大模型爆发式涌现，吸引了大量研发团队投入到大模型研究领域。据不完全统计，目前中国10亿参数规模以上的大模型已发布79个，主要集中在北京和广东地区。

然而，大模型的生成必须依赖于对海量数据的训练和强大算力的消耗。这意味着，如果将ChatGPT或GPT-4类似的基础通用大模型直接应用于问题场景，不仅需要消耗算力、算量和相应的系统，对于模型（算法）开发和模型管理系统建设的要求也极高。

因此，在预训练大模型逐渐成为人工智能开发范式的当下，零点有数数据科学家提出，实际应用中，相较于如ChatGPT、GPT-4等跨行业的通用大模型，针对垂直行业的通用“中模型”范式将是公共服务算法模型构建的较好选择。（详见《公共服务算法模型的构建方式探索》一文，点击可查看）

相比小模型范式，中模型范式在开发效率、开发和运维成本、模型的泛化能力、模型的精确性、落地应用的便捷性等方面都具有显著优势；而相比如ChatGPT、GPT-4或类似的基础通用大模型，中模型又极大地降低了对算力、算量和相应的系统上的投入门槛，同时有利于提高模型的准确性、专业推理能力和迭代升级效率。

由此可见，在垂直领域调度数据、汇集专业经验、预训练大量专有模型并持续集成到中模型的规模与水平，这可能是将大模型范式应用于垂直应用领域行之有效的思路，即针对垂直行业的“中模型”范式（参见下图），这也与零点有数持续倡导在系统平台基础上建设云脑脑核的理念一脉相承。

附图针对垂直行业的中模型范式

经过多年的持续研发和不断创新，零点有数结合30年来积累的不同应用场景的业务模型，运用互联网、大数据等技术，开发出在线数据集成技术和垂直应用算法两大核心技术，为客户提供数据分析与决策支持服务，提高决策支持的精准性和高效性，助力实现客户快速响应、科学决策和高效行动，实现了新技术与公司业务的深度融合。

零点有数对于经典统计分析开发了自有知识产权的分析模型，在此基础上，不断完善和发展若干基础算法模块。同时，公司持续关注互联网、大数据等新技术的发展，引入了空间维度的数据，开发出一系列基于大数据的基础算法模块。为更好的描述数据内在的逻辑，解决客户问题，零点有数还进一步应用深度学习算法开发出其他算法模块。这些不断积累的算法模块，构建了零点有数应用软件产品的数据智能能力，也成为与其他软件产品形成差异化的核心竞争力。

零点有数董事长袁岳表示，需形成起码的小模型开发能力，在中模型领域形成实际的操作能力，再迈向具有实际意义的大模型建设。ChatGPT的出现首次推热了算法模型，也使数据和算力的应用获得了新的发展动力，它提供了普通人就可以轻松使用的界面和无所不答的表达，让人工智能真正走出了技术专家语焉不详的阶段。在此基础上，它还提醒我们不仅要在算力、算量和相应的系统上大量投入，还需对模型（算法）开发和模型管理系统建设大力投入，围绕问题场景运用GPT等技术，在垂直领域调度数据、汇集专业经验、预训练大量专有模型并持续集成到中模型的规模与水平。

未来，零点有数将继续加大研发投入和技术创新的力度，加强中模型领域的实际操作能力，以实现从向“数据智能应用”的转型升级。只有在这种理念下，算法模型的构建思路才能付诸实施。