报告出品/作者:华西计算机团队、刘泽晶 以下为报告原文节选 ------ 1.1 ChatGPT为API接口收费,我国需自主可控 ChatGPT,AI的旷世之作,持续引爆市场: 是OpenAI于 2022年11月推出的聊天机器人,由于其功能强大,例如实现文章创作、代码创作、回答问题等功能,我们认为其具有跨时代的意义,例如实现勒“模糊搜索”到“精准推送”的跨越,因此持续引爆市场。
国产生态正在逐步繁荣,百度打响“ChatGPT”领域“第一枪”:百度是少有预训练模型(大模型)语言训练能力的公司,其在算法、算力、数据、生态、平台五方面皆有储备,根据百度官方公众号,百度计划于2023年3月16日在北京总部召开新闻发布会,围绕国产版ChatGPT文心一言,我们认为此举正式意味着我国自主可控的“ChatGPT”即将问世。 1.2 ChatGPT的竞争本质即大模型储备竞赛 大模型的是人工智能发展的必然趋势: 大模型即“大算力+强算法”结合的产物。大模型通常是在大规模无标注数据上进行训练,学习出一种特征和规则。基于大模型进行应用开发时,将大模型进行微调,如在下游特定任务上的小规模有标注数据进行二次训练,或者不进行微调,就可以完成多个应用场景的任务。
1.3 大模型带来的AI技术与应用变革潜能被广泛验证 大模型带来的AI技术与应用变革潜能被广泛验证,可以分为四类,分别是NLP(自然语言处理)、CV(计算机视觉)、多模态和科学计算。
1.4 中美科技巨头厂商开启大模型储备“军备赛” 美国科技巨头公司开启AI大模型 “军备赛” :u 谷歌: 谷歌推出聊天机器人Bard,底层代码为LaMDA,我们认为LaMDA与ChatGPT算法具备一战之力。此外,BERT算法具备库时代的意义。
资料来源:公开资料整理,腾讯《AIGC发展趋势报告2023》,华西证券研究所 2.1 百度文心一言开启国产ChatGPT新征程 百度是少有大模型语言训练能力的公司: 其文心大模型和Open AI的GPT模型类似,在2019年就已经推出,并且已经迭代了多代,从单一的自然语言理解延伸到多模态,包括视觉、文档、文图、语音等多模态多功能,因此“文心一言”所基于的ERNIE系列模型也已经具备较强泛化能力和性能。
2.2.1 百度文心一言大模型储备齐全: NLP(自然语言处理) 百度文心一言NLP方向算法储备齐全: 其中著名的 ERNIE系列,是基于知识增强的千亿模型,用于智能创作、摘要生成、问答、语义检索、情感分析、信息抽取、文本匹配、文本纠错等各类自然语言理解和生成任务,并且模型已经可应用于医疗、金融、图语言、编程、跨模态、信息抽取等各个方面。此外,PLATO模型,是全球首个超百亿参数规模的中英文对话训练模型,可以让机器人像人一样具有逻辑且自由对话。 百度文心一言NLP功能强大: 例如ERNIE系列,ERNIE3.0基于知识增强的多范式统一预训练框架,深入融合的千亿级知识,具备强大的语言理解能力与小说、摘要、文案创意、歌词、诗歌等文学创作能力。其中与鹏城实验室合作发布了知识增强千亿大模型 “鹏城-百度·文心“。目前文心ERNIE已经刷新93个中文NLP任务基准,并多次登顶SuperGLUE全球榜,已在机器阅读理解、文本分类、语义相似度计算等60多项任务中实际应用。 2.2.2 百度文心一言大模型储备齐全: CV(计算机视觉) 百度文心一言CV具有颠覆性: VIMER-CAE: 为视觉自监督预训练大模型,创新性地提出 “在隐含的编码表征空间完成掩码预测任务”的预训练框架,在图像分类、目标检测、语义分割等经典下游任务上刷新SOTA结果。
2.2.3 百度文心一言大模型储备齐全: 跨模态、生物计算 文心跨境大模型优势显著: ERNIE-ViLG2.0是知识增强的 AI 作画大模型,在公开权威评测集MS-COCO上取得了当前该领域的领先效果,在语义可控性、图像清晰度、中国文化理解等方面均展现出了显著优势;跨模态文档智能大模型ERNIE-Layout,基于布局知识增强技术,融合文本、图像、布局等信息进行联合建模,在文档抽取、布局理解等5类11项任务刷新业界SOTA;ERNIE-VIL是首个只是业界首个融合场景图知识的多模态预训练模型。在视觉常识推理、跨模态图像检索、跨模态文本检索等 典型多模态任务中刷新了世界记录。
2.3.1 百度底层算力技术实力强劲: 百度智算中心 百度智算中心是数字经济的重要底座: 百度自身具有建设智能算力中心的实力,百度智算中心面向人工智能应用场景,为政府和行业客户提供普惠算力、算法模型和数据服务的人工智能基础设施。可面对人工智能应用场景,支持大规模部署的同时,满足高并发、高弹性、高精度等不同计算需求,可支撑城市大脑、产业金融、自动驾驶等各个垂直化行业。
资料来源:百度智能云官网,华西证券研究所 2.3.2 百度底层算力技术实力强劲:百度百舸 · AI异构计算平台 百度AI异构计算平台技术积累浓厚:包含AI计算、AI存储、AI加速、AI容器四大核心套件,具有高性能、高弹性、高速互联、高性价比等特性,其中平台已经充分汲取了百度多年技术积累,具备深度融合推荐、无人驾驶、生命科学、NLP等场景的实践经验,能为AI场景提供软硬一体解决方案,加速AI工程化落地。
2.3.3 百度底层算力技术实力强劲: 昆仑芯云服务器 百度昆仑云服务器服务器专为AI算力而生:昆仑芯云服务器是一种弹性按需、提供高性能通用AI算力的云服务器,应用于AI推理和AI训练加速。昆仑芯云服务器是搭载昆仑芯的云服务器,支持K100和R200型号。其中昆仑芯为自主研发的 AI 通用处理器芯片。其中R200AI芯片采用7nm制成,广泛应用于计算机视觉、自然语言处理、大规模语音识别、大规模推荐等场景。
2.3.4 百度底层算力技术实力强劲: 昆仑芯AI芯片 百度自身AI芯片技术实力浓厚: 昆仑芯AI芯片是百度自主研发的芯片,昆仑芯科技前身是百度智能芯片及架构部昆仑芯科技深耕AI加速领域已十余年,是一家在体系结构、芯片实现、软件系统和场景应用均有积累的AI芯片企业。昆仑芯1代是百度自妍的第一一代昆仑芯片,2020年底实现量产;昆仑芯2代也已于2021年8月量产;根据百度集团执行副总裁沈抖透露,昆仑芯3代将于2024年初量产。
2.4 百度文心一言生态愈发繁荣 百度模型评估结果属于第一梯队,彰显其强大技术实力: 根据IDC的数据评估先实,百度文心大模型在市场格局中处于第一梯队,产品能力、生态能力达到L4水平,应用能力达到L3水平。产品能力呈现出较强技术实力和平台积累, “文心大模型+深度学习平台”创新了人工智能研发应用范式达到行业前端水平;应用能力方面,百度已在金融、能源、制造、城市、传媒、互联网等行业拥有实际落地的标杆案例,截止目前文心已累计发布11个行业大模型;在生态能力方面,百度文心大模型在社区用户的基础上,可以实现与开发者、行业用户、上下游产业的正向互动,在评估厂商中处于行业领先位置。
2.4 百度文心一言生态愈发繁荣 百度文心一言场景愈发繁荣,目前已有诸多厂商开展合作,我们认为其商业模式同样为API接口收费,属于SAAS商业模式,合作厂商分别覆盖科技、金融、航天、影视、汽车、电子制造等诸多产业。 2.5 百度文心一言五大要素齐全,开启全新篇章 我们认为大模型成功必备的五要素,分别是数据、算力、平台、模型和生态,而百度作为国产ChatGPT的领头羊,五大要素皆已配备。 海量数据: 即训练大参数模型的“燃料”,根据IDC数据,其拥有5500亿条知识,且已经应用于百度搜索、信息流、智能驾驶、百度地图、小度等产品。 模型储备:百度实现了全生态的布局,其中包括NLP、CV、跨境大模型、生物计算等领域。 NLP领域: ERNIE系列,是基于知识增强的千亿模型,用于智能创作、摘要生成、问答、语义检索、情感分析、信息抽取等能力。PLATO模型,是全球首个超百亿参数规模的中英文对话训练模型,可以让机器人像人一样具有逻辑且自由对话的功能。 CV领域: VIMER-CAE,应用于图像分类、目标检测、语义分割等场景;VIMER-UFO,拥有170亿参数,覆盖人脸、人体、车辆、商品、食物细粒度分类等 20+的视觉多任务模型;OCR -VIMER-StrucTexT广泛应用于文档、卡证、票据等图像文字识别和结构化理解;VIMERUMS业内首发多源图文模态表征的商品多模态预训练模型; 跨境大模型:可实现AI作画、场景融合视觉常识推理、跨模态图像检索、跨模态文本检索等多场景。 生物计算: 应用场景为蛋白结构预测和小分子药物研发等领域。 平台方面: 拥有自主生态的百度百舸 · AI异构计算平台,具备高效率、多密度、高易用性、多场景部署、乐高式拼接等能力。 算力底座:百度自身具有建设智能算力中心的实力,技术领先且自主可控,已有典型落地案例;服务器方面拥有自妍的昆仑芯云服务器,具有AI计算能力领先、生态兼容、兼具硬件虚拟化、易开发等能力;芯片方面,昆仑芯AI芯片是百度自主研发的芯片,2代芯片已量产,具备算力支撑强、高速互联等多重优势。 生态: 百度大模型赋能千行百业,已有落地应用,合作厂商分别覆盖科技、金融、航天、影视、汽车、电子制造等诸多产业。 -------------------------------------------------------------------------- |
|
来自: 龙腾236 > 《CHATGPT人工智能机器》