【原】Gemini 的出现能否帮助 Google 重争地位？对 Google 的发展有哪些影响

贵重物品DR 2023-12-14 发布于广东

展开全文

科技巨头之间的斗争是很激烈的，他们的斗争就是科技成果的展现，而chatGPT已经让我们看到了人工智能的强大。

要知道OpenAI的宫斗才结束没多久。山姆，奥特曼进进出出公司的时候，公司不知道未来怎么样持续在宫斗的时候，OpenAI也基本没有停滞工作。

所以当谷歌公司的 DeepMind 团队宣布Gemini 的全新人工智能模型，而且说Gemini 将结合 AlphaGo 的技术和大型语言模型的能力，旨在比目前备受瞩目的 OpenAI GPT-4 模型更加强大

我多少觉得是为了市场，毕竟人工智能的市场和前景是无限大的，也是唯一可以押宝的科技，毕竟这个科技在市场上是说得通的，也能带来无限的效益。

当然了，谷歌公司说他们的Gemini 的潜在应用领域广泛，尤其在生成式人工智能技术的竞争中，其能力将成为谷歌的一项重要战略优势。而且说Gemini 的独特之处在于它结合了 AlphaGo 的精确决策能力和大型语言模型的创造力。这使得 Gemini 能够在复杂的问题中作出准确的判断，并生成高质量的语言输出。

AlphaGo大家都很清楚，主要是干掉了几个知名的围棋选手，中韩都有。

不过由于对科技的重视，所以我也看完了Gemini发布会，谷歌发布地表最强大模型Gemini 1.0，遥遥领先GPT4，综合一下大概就这么几点特别大的优势

一原生多模态构建
2.三个Size安卓也能运行
3.基准能力测试遥遥领先
4.最强编码能力
5.最强推理能力

二Gemini Ultra一上来就在32个基准测试中拿下30个SOTA，并且第一个在MMLU基准上达到人类专家水平

在LLM中的表现，也正如我们刚才所述，32个基准测试中拿下30个SOTA。

其中，通用、推理、数学和编程等大方向的成绩都很好。特别是它还能够找两个图片的相同之处。更有意思的是，谷歌还特意用中文做了个demo，来展示Gemini对多张图片的组合理解能力。用的例子还是虎皮兰

谷歌Gemini背后技术的杀手锏，便是原生多模态（natively multimodal）。

因为以往创建多模态大模型的方法，通常是为不同的模态训练单独的组件，然后将它们拼接在一起，大致模拟其中的一些功能。

这样训练出来的模型虽然有时可以很好地执行某些任务（比如描述图像），但在面对更具概念性和复杂推理的情况下，就会出现表现不佳的结果。

而谷歌Gemini所强调的原生多模态，是指从一开始就对不同的模态进行预训练，然后用额外的多模态数据对其进行微调，以此来进一步完善大模型的有效性。

谷歌对此表示：

这样的训练方法，有助于Gemini从头开始无缝地理解和推理各种输入，远远优于现有的多模态模型；而且它的功能在几乎每个领域都是最先进的。

我个人觉得谷歌会开始追赶，毕竟微软和谷歌两个科技巨头的争斗会给人类带来AI智能的突飞猛进，但是追不追的上，还不太好说。

毕竟OpenAI成员都是少而精，能拿到OpenAI的offer是很难的，几个博士的头衔不足以进入。还有就是谷歌的大公司病我感觉也是有问题的，之前开发那个眼睛就滑铁卢了一次，然后这次人工智能也是因为OpenAI发布了chatCPT之后，谷歌才慌慌忙忙的搞对抗和竞争，为爱好和为市场，这是两种层面上不同的发展方向。

对比的来说，两种AI大概这么比较一下吧。

在教育领域，GPT-4.0和Gemini各有其独特的潜力。GPT-4.0的文本理解和生成能力使其在语言学习、写作辅导和知识查询等方面非常有用。它可以帮助学生和教育者以多种方式进行交互和学习。

另一方面，Gemini的多模态能力意味着它可以处理和理解图像、音频和视频数据，这对于创造更丰富、互动的教育内容非常重要。例如在理解科学实验、历史事件的视觉资料或者音乐教学方面，Gemini可能表现更出色。

总的来说，两者都有巨大潜力，但在不同的应用场景中各有优势。GPT-4.0在文本重的教学环境中更为理想，而Gemini则在需要多模态交互的场合更有优势。