微软GPT5.0最近交流要点

高观点笃者 2023-10-12 发布于新西兰

展开全文

本资料来源于公司公告，相关新闻，机构公开研究报告以及社交媒体网络等，对文中提到的行业及个股不构成投资建议，图文如有侵权或违反信批请后台留言联系删除。

1、OpenAIGPT5进展

专家表示下一代大模型正在研发中，原计划是近期发布，但在准确率方面遇到了一些阻力，没有达到标准，所以重新开始返工，包括重新标注和再次训练。同时在多模态和视频图像方面也遇到了一些困难，原计划是年底发布，但现在看可能会延至明年年初。

具体问题在于如何理解图像，目前在这方面遇到了一些问题。因为原有的图像理解是基于已有的图像素材和标库，但目前要做的是理解更广泛范围的图像。比如Bing上的图像大部分都有标签，是基本可以理解的，但对于些抽象的图片，如抠图和实时路面信息等，这些边缘Case在Bing上的图片库就无法支撑，因为它们仅包含原始图像，没有进行大量的抠图和其他标注，所以当前面临的问题是这些原始图像无法满足GPT模型的要求，准确率无法达到标准。原本计划是使用一种特殊的算法模型进行语义理解，但实际上没有达到要求，所以研发部分重新推翻了理论，重新进行抠图标注

与市面上一些图像模型，如difusion相比，OpenAl主要是希望找到图像之间的内在关联，而不仅仅是通过标签的形式。因此，除了标注还需要进行二次训练，所以整体时间延长了。相应工作更偏向工程和算法逻辑方面，因此不确定是否能按原计划进行发布，目前看来可能会延期。

2、在模型研发方面，微软针对通用大模型及行业相关模型的发展策略

微软之前与行业结合较少，许多公司没有充分利用微软的GPT能力。然而随着微软云服务的加入，许多科技公司和传统公司都开始接入微软的云上GPT。一些代表性的企业也已经接入了微软的服务，在这种情况下，据专家了解，微软已经选出了大约20多家企业，将首先与他们整合数据，然后一起探索算法上的突破。除此之外还是延续之前的研发思路进行研发工作

3、微软之前单独为OpenAI建立了算力的供给，目前相应算力供给的增长情况

微软目前给Open Al的算力供给基本保持不变，之前供给的算力目前来看是足够支撑当前的研发情况。然而目前的算力并不足以支撑GPT5的强化训练和后续的上线运行，因此微软正在准备组装一个超级计算平台，以进一步满足未来的需求。目前大约有8万个A100芯片，但到今年年底预计就不够用了。所以计划扩展供给额外提供3万个英伟达芯片的算力，对应年底可能会达到11万个A100芯片

4、针对GPT5，算力供给是否足够

实际上OpenAl的需求是增加10万个芯片，但由于合作中涉及到许多资源和成本，所以最终的判断是先增加3万个，这是基于微软现有算力的实际使用情况和未来的增长预测。之所以OpenAl希望更多，是因为他们认为可以在更多领域进行尝试，扩大范围，包括提升整体的运算速度。但实际上，微软的科学家判断提升可能并不会太多。因此最终与他们商定的是先提供3万块。

5、GPT5相对于GPT4具体的更新(参数数据量能力更新等)

GPT4的参数量大约是1.9万亿，模型层数是100多层。GPT5目前正在开发中，参数量预计将达到10万亿级别，层数将超过1000层，大概是1300多层。

目前在视频数据量方面仍然比较有限，因为使用的是经过压缩的视频进行训练，所以整体上相对较小。同时正在不断增加数据量，当前大约使用了5800亿个视频作为训练数据，大约110万亿兆左右。

6、谷歌和Meta做多模态是否相比OpenAI会更有优势，比如其视频语料库相对充足

谷歌和Meta在处理视频方面具有一定的优势。目前微软通过Bing上的视频和与许多合作供应商合作来获取视频资源，虽然视频数量还不如META和谷歌，但在整体起跑线上，差距并不绝对明显。因为在开发新一代算法时，大家都需要对现有的积累进行大量改造。因此，在可用的视频范围和数量方面，与头部差距大约是10倍左右。因此不会有质的差异，但谷歌和Meta确实会有一定的竞争优势

7、目前微软或者OpenAI的视频生成路径，是直接生成视频还是通过图片拼接的方式

现在大家基本上都是通过逐帧生成视频，原理差别不大，目前主流的技术都是如此。所以在中短期内，视频可能会比较短，但OpenAI已经成功生成了大约15分钟长的动画片，特别是科幻动画片，可以看作是目前的主要应用领域。

目前主要的瓶颈在于视频生成的合理性，因为生成的视频越长，越容易出现不合理的情况。其次受限于目前的算力，不可能同时支持大量视频的生成，但在技术上并不存在算法瓶颈，也就是生成成视频的算法技术问题。因此理论上生成视频更话用于短视频生成，因为时间较短，但实际上它也可以用于生成长视频和电影等。同时现在有很多的方式可以规避生成视频的跑偏与中断，比如通过拟合和现有的视频素材，包括比较强的纠偏等，当前主要问题还是算力方面的支撑不够。

8、目前生成多长的视频可能效果会好一些，时长到达多长以后可能效果可能会弱一些

目前生成两分钟内的视频是没有问题的，比如合理性等都没有太大的问题，准确率可以达到95%以上。但是随着生成时间的延长，比如一两个小时的视频，其中包含错误信息的概率就大大增加，大约占到20%~30%左右，这些错误信息很可能是与现实逻辑不符合的情况。因此，目前更推荐生成两分钟以内的视频。在内容素材方面，目前更容易生成动画、简单场景的机械运动以及已有素材的组合。比如可以剪辑一个新闻的片子，即使是已有素材的视频形式的组合，过程中不仅仅是简单的叠加或是拼凑几张图片，而是会加入一些中转效果、穿插以及从库中选择其他视频片段进行拼接等。然而对于一些复杂的场景，比如生成真人动作电影，目前难度非常大。

9、多模态模型后续的发展方向，是否需要在模型底层逻辑或结构上进行调整

针对实现识别和生成视频的问题，有几个方向可以进行工程化或者对模型结构进行调整首先在算法层面，不能仅仅依赖现有算法生成视频的逻辑，因为目前市面上的视频生成算法实际上并没有真正理解视频元素的含义。OpenAl的目标是让大模型能够理解视频的内在含义，例如能够理解场景、角色、物体等，并理解它们之间的延续性和影响。需要攻克的重点是让算法能够理解视频的语义，目前在这方面已经有了很多思路，但目前市面上还没有很好的方法能够真正理解视频的意义。所以现有的视频生成方法虽然可用，但并不理想。需要讲行算法底层逻辑的融合和创新，从而能够理解视频的语义，并按照特定的语境语义生成深层次的视频。另外在工程方面，OpenAl对性能要求也更高。前面提到的很多模型生成视频时，实际上并没有深入理解语义的情况，这就导致算力需求并不高，因为理解的不深入。但是一旦增加了更多元素并深入理解后，算力需求就会呈指数级增长。因此，如果想要迈向下一步的突破，需要千倍甚至更多的算力支持。

10、目前模型性格的落地或者商业化进展与预期对比如何

目前微软在Windows的Bing、Copilot以及第三方云应用中取得了重大的成果。特别是在第三方公司使用微软的云服务表现超出了预期。

本来公司期望是相应公司能够集成GPT在Word、Windows等产品中，使得用户在这些场景下能够更好地使用。但实际情况是相反的，他们自己集成的GPT的调用量反而超过了微软已有的Word和其他微软产品的组合调用量。因此对于GPT的需求在这些公司中比个人用户更强烈。主要行业以科技行业为主，比如客服机器人、语音对话平台和陪聊等，这些行业的调用量最高。但在整个Microsoft Ofice和Windows的使用中，模型的调用次数略低于预估

11、如何理解B端的应用落地好于C端

B端是结合不同行业的应用场景，比如一些公司和客服机构需要处理大量的对话信息，因此他们需要更多陪聊的能力，通常会产生很多轮次的对话，其中对话是多轮且无法预测的。在接入GPT后，可以让GPT与客户进行互动，相比普通消费者直接使用微软的文档或使用Bing解决问题，B端场号客户的需求更加强烈同时于C端用户，他们需求还是更多被传统的方式所满足比如搜索引擎等。因此不同的需求强度和场景限制导致B端的整体调用量大于C端。

12、如何看待在B端和C端的商业化进程

实际上公司最初并没有考虑在C端进行太多的变现，而是以B端为主要变现方式。比如Ofice产品是一个典型的代表，其主要以B端的商业化为主，尽管看到Ofice在C端很畅销，但C端用户的收入并不如B端的十分之一。原因在于C端用户大部分还是使用盗版，而B端客户只要是稍大一点的公司，都会购买正版。除此之外，微软还有许多与政府的合作项目和定制企业项目，特别是像律师事务所和专业领域的公司它们特别需要工具进行迭代，所以他们非常愿意为微软的工具付费。他们有很强的付费意愿，而且愿意支付高价。整体B端肯定会比C端带来更多的收入，但是为什么微软还要做像Ofice 365这样的套件升级?其实首先要占领市场，其次要培养用户的意识，让大家意识到他们的工作可以与个人助手一起分担，养成这样的用户习惯。最后在打磨好相应场景后，最终向B端客户传到并收费

13、B端目前针对M365 Copilot的反馈

针对当前Copilot的购买意愿，实际上欧美地区的客户非常愿意购买相应服务，大约有8%的用户选择了付费服务与预期10%差别并不大。

14、使用微软云的用户具有哪些特点

共性相应企业通常与科技相关，不论是新兴企业、传统企业还是互联网和软件公司，它们都与科技相关，尤其是些传统的媒体和广告公司，虽然它们属于传统分类，但实际上它们从事的是新媒体和科技赋能的活动，因此与微软有接触的公司通常都属于科技新兴企业的范畴。目前还没有遇到纯粹的传统企业购买微软的云服务，大多数情况是由传统企业集团旗下的科技分公司来采购。其次由于微软非常注重隐私保护，并承诺不查看用户数据，只提供模型服务给客户使用，所以只能判断调用量大的企业包合以下几类:互联网企业，主要指那些本身就从事互联网媒体工作，并使用对话机器人的企业;而做客服软件科技的企业则是第二类;第三类是专门从事内容创作的科技公司，比如素材创作和新闻资讯等，此外，其他行业的公司则属于细分子场景，没有特别突出的特点。

15、当前企业端需求的持续性如何

目前相应领域已经经历了一个相对长期的发展阶段，并且正在朝着固化流程的方向发展。比如客服机器人已经成功地应用GPT技术，并在实际场景中发挥作用。现在很多实际场景已经将GPT的能力作为基础服务进行赋能，但是仍然存在提升和探索的空间他们很有可能不会撤销这项服务，调用量基本上是持续增长的。

16、如何理解微软对OpenAI研发的影响，以及后续OpenAI模型与微软产品的结合情况

首先，微软一直是OpenAl的主要股东，提供了包括硬件、战略平台、数据以及其他工具和服务等各方面的支持扮演着OpenAI的主要支持者角色。其次，微软的科学家在GPT-4中已经贡献了大约三分之一的研究人员，与欧洲联盟的团队一起进行探索。实际上在GPT-5中，微软的科学家将占据大约一半比例，并在研发工作中有一定分工。总体上微软将逐步承担在特定领域的开发工作，并逐步发挥主导作用。尽管整体框架仍然由OpenAl主导，但对于特定领域的特殊算法，微软起着决定性的作用。因此，两个团队之间形成了紧密的合作关系。而且微软的投入将会比以前更大，微软的影响力也会更大。随着时间的推移，OpenAl将持续将大型模型的能力输出到微软的产品中，由于OpenAl现在非常依赖微软，合作并不会中断。

17、微软Azure云已经接入了OpenAI以外的开源模型，是否会影响微软和OpenAl的合作

并不会影响微软和OpenAl的合作。因为微软和OpenAl在思路上有一些不同，微软是一家大型公司，拥有多个部门和集团，其中云部门是其中之一，研究院则是另一个重要部门。研究院主要为AI领域提供科学家与OpenAl进行合作，而云部门则拥有自己的平台战略。云部门致力于构建一个开放的平台，不会限制客户使用云服务或者使用计算资源。在研究院方面，与OpenAl有着紧密的合作，在共同开发GPT等相应产品方面，整体不存在冲突的情况。

PS：

ChatGPT下载量提升，坚定看好AI应用

9/25起，ChatGPT Plus/企业用户可使用语音及图像交互功能

据Data ai，ChatGPT美国地区iOS的下载榜排名，由9/24的第19名，最高上升至9/26的第3名，目前位于第5名。

--------------------------

1、意味着什么——普通用户的AI热情再次回暖

此前ChatGPT访问量，在3-4月达顶峰，此后下滑。此次升级（尤其是语音交互），显著提升普通用户与AI交互的体感，摆脱纯文字的枯燥，To C进一步打开。

“ChatGPT”一词的谷歌搜索热度，也在9月底回到75左右（3-4月为100），普通用户对AI应用的关注，正在逐步回暖。

目前语音功能尚未对全部用户开放，若后续大范围放开，预计ChatGPT使用率将进一步提升。

2、后续AI催化节点

#10月15-16日：英伟达AI峰会，黄仁勋将发言

#11月1日：微软 Copilot 全面推出