几家巨头之间的大模型竞争,越来越像打牌了。你出完炸弹我出炸弹。 这不,又一个深夜炸弹。 2月21日,在与闭源的OpenAI打得火热的同时,Google突然加入了开源的战局。北京时间夜间Google突然宣布,开源了一个新的模型系列Gemma,这个模型使用了与它最强的Gemini同源的技术,并且在一系列的标准测试上秒杀了几款今天最热门的开源模型。 怎么理解这个动作的重要性呢?你可以粗暴的理解为: 这有点像现在正在训练更强大的GPT-5的OpenAI,把GPT3的低参数版给开源了。(前几天Sam Altman被问过这个问题,你们是否会在未来把GPT3开源,他没有直接回答。现在看来Google针对性很强啊。) (X上一张有意思的图) 根据Google官方对Gemma的介绍,它的基本信息如下: Gemma是谷歌开源的一个大型语言模型,而非像Gemini那样是多模态的,它基于与Gemini相同的技术构建,但完全公开并允许商用授权。 Gemma模型有两个主要版本,分别是Gemma 7B(70亿参数)和Gemma 2B(20亿参数)。这些模型在大规模的数据集上进行了训练,数据集包含了以英语为主的网络文档、数学数据以及代码数据,总量达到了6万亿tokens。 Gemma模型的特点包括:
发布完,Jeff Dean就对这个系列模型划了重点:
可以看到Jeff Dean和Google这次都十分强调开源模型的安全性和具体的实打实的配套设施和举措。这似乎也直至被诟病Close AI且被外界质疑安全性保障的OpenAI。 现在,憋坏了的Google正式四面开战了。未来它将用Gemma对抗Llama,用Gemini对抗GPT。 无论是开源还是闭源,竞争越来越焦灼了。 关于 Gemma Gemma 这个名字本身源自拉丁语,意思是“宝石”。分为两种规格——Gemma 2B 和 Gemma 7B,由 Google DeepMind 和 Google 的其他团队开发,其灵感来自 Gemini。此外,连同 Gemma 一起发布的还有一些相关的开发者工具。 哪里可以使用 Gemma? Google 如何优化 Gemma 在不同 AI 硬件平台上的性能? Google 与 NVIDIA 合作,针对 NVIDIA GPU 优化了 Gemma 模型,确保在数据中心、云端到本地 RTX AI PC 上都能提供行业领先的性能。同时,Gemma 也针对 Google Cloud TPU 进行了优化。 Gemma 提供哪些大小的模型? Gemma 提供了 Gemma 2B 和 Gemma 7B 两种模型。较小的模型(如2B)适合于需要较低计算资源的应用,而较大的模型(如7B)则能提供更高的性能和准确度,适用于复杂的AI应用。 Gemma 模型在技术基准上超越了哪些指标,与其他开放模型相比如何? Gemma 模型在关键基准测试上超越了其他更大模型,具体的性能指标可参见下方的评测报告。 Gemma 的相关评测信息(来自官方) MMLU MMLU基准测试是一项测试,用于衡量大型语言模型在预训练期间所获得的知识广度和问题解决能力 HellaSwag HellaSwag基准测试挑战语言模型理解和运用常识推理的能力,通过选择故事的最合乎逻辑的结局。 PIQA PIQA基准测试检验语言模型理解和运用日常物理常识的能力,通过回答关于日常物理互动的问题。 SIQA SIQA基准测试评估语言模型对社交互动和社交常识的理解,通过提问关于人们行为及其社交含义的问题。 Boolq BoolQ基准测试了语言模型回答自然发生的(在未提示和无约束的情况下生成的)是/否问题的能力,测试模型在真实世界自然语言推理任务中的表现能力。 Winogrande Winogrande基准测试了语言模型解决具有二元选项的模棱两可的填空任务的能力,需要通用常识推理。 CQA CQA基准评估了语言模型在多项选择问答上的表现,需要不同类型的常识知识。 OBQA OBQA基准评估了语言模型在多步推理、常识知识和丰富文本理解方面执行高级问答的能力,模拟了开放式书面考试。 ARC-e ARC-e基准测试了语言模型在真实的小学级别多项选择科学问题上的高级问答能力。 ARC-c ARC-c基准是ARC-e数据集的一个更专注的子集,只包含常见(检索基础和词共现)算法回答错误的问题。 TriviaQA TriviaQA基准测试了阅读理解能力,包括问题-答案-证据三元组。 HumanEval HumanEval基准通过评估语言模型的代码生成能力,检查其解决编程问题的解决方案是否通过了功能单元测试。 MBPP MBPP基准测试了语言模型解决基本Python编程问题的能力,重点关注基本编程概念和标准库的使用。 GSM8K GSM8K基准测试了语言模型解决常需要多步推理的小学级数学问题的能力。 MATH MATH基准评估了语言模型解决复杂数学问题的能力,需要推理、多步问题解决和对数学概念的理解。 AGIEval AGIEval基准通过使用源自真实世界考试的问题来测试语言模型的智能,这些考试旨在评估人类的智力能力(大学入学考试、法律考试等)。 BBH BBH(BIG-Bench Hard)基准专注于被认为超出当前语言模型能力范围的任务,测试它们在各种推理和理解领域的极限。 Gemma 7B Vs Mistral 7B,实际上手 先直接试试 Gemma 7B 能知道问题之间的相关性,但对于2008年电影票房这种需要搜索的内容,就开始胡言乱语了 ⬆ 能准确的将德语中的 'Regisseur' 改为了 'Regisseurin'(从男导演换成女导演),以及冠词“einen”和“der”也都做了相应的调整。 同样的问题, 交给 Mistral 7B 对比很明显,没能完全执行Prompt的内容,出的内容也不对。 — GenAI 出品 — |
|