分享

大动作不停,Google加入开源战局!低配版“Gemini ”Gemma来了!相当于OpenAI把GPT-3开源了

 netouch 2024-03-25 发布于北京
图片

几家巨头之间的大模型竞争,越来越像打牌了。你出完炸弹我出炸弹。

这不,又一个深夜炸弹。

2月21日,在与闭源的OpenAI打得火热的同时,Google突然加入了开源的战局。北京时间夜间Google突然宣布,开源了一个新的模型系列Gemma,这个模型使用了与它最强的Gemini同源的技术,并且在一系列的标准测试上秒杀了几款今天最热门的开源模型。

怎么理解这个动作的重要性呢?你可以粗暴的理解为:

这有点像现在正在训练更强大的GPT-5的OpenAI,把GPT3的低参数版给开源了。(前几天Sam Altman被问过这个问题,你们是否会在未来把GPT3开源,他没有直接回答。现在看来Google针对性很强啊。)

图片

(X上一张有意思的图)

根据Google官方对Gemma的介绍,它的基本信息如下:

Gemma是谷歌开源的一个大型语言模型,而非像Gemini那样是多模态的,它基于与Gemini相同的技术构建,但完全公开并允许商用授权。

Gemma模型有两个主要版本,分别是Gemma 7B(70亿参数)和Gemma 2B(20亿参数)。这些模型在大规模的数据集上进行了训练,数据集包含了以英语为主的网络文档、数学数据以及代码数据,总量达到了6万亿tokens。

Gemma模型的特点包括:

  • 架构细节:Gemma模型具有不同的参数规模,Gemma-2B有18层,d_model为2048,而Gemma-7B有28层,d_model为3072。这些模型还具有不同的前馈隐藏维度、头数和KV头数,以及词汇量。
    图片
  • 新技术:Gemma采用了一些新技术,如Multi-Query Attention、RoPE Embeddings、GeGLU激活函数以及Normalizer Location,这些技术有助于提高模型的性能。
  • 评测结果:谷歌官方宣称Gemma模型在70亿参数规模的语言模型中表现最佳,甚至超过了一些参数量更大的模型。
  • 开源情况:Gemma模型遵循一个自定义的开源协议,允许商业使用。

发布完,Jeff Dean就对这个系列模型划了重点:

Gemma-7B模型在涵盖通用语言理解、推理、数学和编程的8项基准测试中,性能超过了广泛使用的Llama-2 7B和13B模型。它在数学/科学和编程相关任务上,通常也超过了Mistral 7B模型的性能。
图片
Gemma-2B IT和Gemma-7B IT这两个经过指令调整的模型版本,在基于人类偏好的安全评估中,都优于Mistral-7B v0.2指令模型。特别是Gemma-7B IT模型在遵循指令方面也表现更佳。
图片
(有意思的是,在Google晒出的成绩对比中,阿里的千问背后的模型Qwen系列表现也很亮眼)
图片
  • 我们也发布了一个负责任的生成性人工智能工具包(Responsible Generative AI Toolkit),它为负责任地使用像Gemma模型这样的开放模型提供了资源,包括:
  • 关于设定安全政策、安全调整、安全分类器和模型评估的指导。
  • 学习可解释性工具(Learning Interpretability Tool,简称LIT),用于调查Gemma的行为并解决潜在问题。
  • 一种构建具有最小样本量的强大安全分类器的方法论。我们发布了两个版本的模型权重:Gemma 2BGemma 7B每个版本都提供了预训练和指令调整的变体。
  • 我们为所有主要框架提供了推理和监督式微调(SFT)的工具链:通过原生Keras 3.0支持的JAX、PyTorch和TensorFlow。
  • 提供了即用型的Colab和Kaggle笔记本,以及与流行的工具如Hugging Face、MaxText、NVIDIA NeMo和TensorRT-LLM的集成,使得开始使用Gemma变得简单。
  • 预训练和指令调整的Gemma模型可以在您的笔记本电脑、工作站或Google Cloud上运行,并且可以轻松部署在Vertex AI和Google Kubernetes Engine(GKE)上。
  • 在多个AI硬件平台上的优化确保了行业领先的性能,包括NVIDIA GPU和Google Cloud TPUs。
  • 使用条款允许所有规模的组织负责任地进行商业使用和分发。

可以看到Jeff Dean和Google这次都十分强调开源模型的安全性和具体的实打实的配套设施和举措。这似乎也直至被诟病Close AI且被外界质疑安全性保障的OpenAI

图片

现在,憋坏了的Google正式四面开战了。未来它将用Gemma对抗Llama,用Gemini对抗GPT。

无论是开源还是闭源,竞争越来越焦灼了。

图片

关于 Gemma

Gemma 这个名字本身源自拉丁语,意思是“宝石”。分为两种规格——Gemma 2B 和 Gemma 7B,由 Google DeepMind 和 Google 的其他团队开发,其灵感来自 Gemini。此外,连同 Gemma 一起发布的还有一些相关的开发者工具。

哪里可以使用 Gemma?

Google 如何优化 Gemma 在不同 AI 硬件平台上的性能?

Google 与 NVIDIA 合作,针对 NVIDIA GPU 优化了 Gemma 模型,确保在数据中心、云端到本地 RTX AI PC 上都能提供行业领先的性能。同时,Gemma 也针对 Google Cloud TPU 进行了优化。

Gemma 提供哪些大小的模型?

Gemma 提供了 Gemma 2B 和 Gemma 7B 两种模型。较小的模型(如2B)适合于需要较低计算资源的应用,而较大的模型(如7B)则能提供更高的性能和准确度,适用于复杂的AI应用。

Gemma 模型在技术基准上超越了哪些指标,与其他开放模型相比如何?

Gemma 模型在关键基准测试上超越了其他更大模型,具体的性能指标可参见下方的评测报告。

 Gemma 的相关评测信息(来自官方)

MMLU

MMLU基准测试是一项测试,用于衡量大型语言模型在预训练期间所获得的知识广度和问题解决能力

图片

HellaSwag

HellaSwag基准测试挑战语言模型理解和运用常识推理的能力,通过选择故事的最合乎逻辑的结局。

图片

PIQA

PIQA基准测试检验语言模型理解和运用日常物理常识的能力,通过回答关于日常物理互动的问题。

图片

SIQA

SIQA基准测试评估语言模型对社交互动和社交常识的理解,通过提问关于人们行为及其社交含义的问题。

图片

Boolq

BoolQ基准测试了语言模型回答自然发生的(在未提示和无约束的情况下生成的)是/否问题的能力,测试模型在真实世界自然语言推理任务中的表现能力。

图片

Winogrande

Winogrande基准测试了语言模型解决具有二元选项的模棱两可的填空任务的能力,需要通用常识推理。

图片

CQA

CQA基准评估了语言模型在多项选择问答上的表现,需要不同类型的常识知识。

图片

OBQA

OBQA基准评估了语言模型在多步推理、常识知识和丰富文本理解方面执行高级问答的能力,模拟了开放式书面考试。

图片

ARC-e

ARC-e基准测试了语言模型在真实的小学级别多项选择科学问题上的高级问答能力。

图片

ARC-c

ARC-c基准是ARC-e数据集的一个更专注的子集,只包含常见(检索基础和词共现)算法回答错误的问题。

图片

TriviaQA

TriviaQA基准测试了阅读理解能力,包括问题-答案-证据三元组。

图片

HumanEval

HumanEval基准通过评估语言模型的代码生成能力,检查其解决编程问题的解决方案是否通过了功能单元测试。

图片

MBPP

MBPP基准测试了语言模型解决基本Python编程问题的能力,重点关注基本编程概念和标准库的使用。

图片

GSM8K

GSM8K基准测试了语言模型解决常需要多步推理的小学级数学问题的能力。

图片

MATH

MATH基准评估了语言模型解决复杂数学问题的能力,需要推理、多步问题解决和对数学概念的理解。

图片

AGIEval

AGIEval基准通过使用源自真实世界考试的问题来测试语言模型的智能,这些考试旨在评估人类的智力能力(大学入学考试、法律考试等)。

图片

BBH

BBH(BIG-Bench Hard)基准专注于被认为超出当前语言模型能力范围的任务,测试它们在各种推理和理解领域的极限。

图片

 Gemma 7B Vs Mistral 7B,实际上手

先直接试试 Gemma 7B

能知道问题之间的相关性,但对于2008年电影票房这种需要搜索的内容,就开始胡言乱语了

图片
图片
图片

⬆ 能准确的将德语中的 'Regisseur' 改为了 'Regisseurin'(从男导演换成女导演),以及冠词“einen”和“der”也都做了相应的调整。

同样的问题, 交给 Mistral 7B

对比很明显,没能完全执行Prompt的内容,出的内容也不对。

图片
图片
图片

 GenAI 出品 —

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多