搜索

分享

QQ空间 QQ好友新浪微博微信

LIama3 Groq 最强组合，800 tokens/s！推理速度真的太快了！

黄爸爸好 2024-04-26 发布于上海

展开全文

北京时间 4 月 19 日凌晨，Meta 在官网上官宣了 Llama3，作为继 Llama1、Llama2 和 CodeLlama 之后的第三代模型，Llama3 在多个基准测试中实现了全面领先，性能优于业界同类最先进的模型，你有没有第一时间体验上呢，这篇文章就分享下如何在 Groq 上以超过 800 tokens/s 的恐怖推理速度体验 Llama3，会同时分享 Web 端、移动端、API 方式以及集成到 LangChain 中 4 种体验方案。

欢迎加入我的会员计划，获取 AI 落地方面的优质信息和见解，节省你的时间。

Groq 有多快

先看两组数据

Llama3 8B不同平台的推理速度

Llama3 70B不同平台的推理速度

Llama3 8B 每秒钟 876 tokens 的输出速度，人眼基本跟不上模型的输出速度了，要知道 Llama3 8B 的质量与 GPT-3.5 和 Llama2 70B 相似，可以显著提升一些常见的 AI 应用场景的用户体验；RAG 的性能瓶颈不再是 LLM，而是 Retrieval，什么 HyDE（假设⽂档嵌⼊，利⽤ LLMs ⽣成假设性答案，以增强⽂档检索的准确性）、LLM 重排序器（对检索到的⽂档进⾏重排序，以优先选择最相关和上下⽂适当的信息）不再是 RAG 链路速度瓶颈...

初看数据，我以为是个噱头，本着务实的态度，我自己实际体验了一把，大家自己看 👇

Llama3 8B实测

Llama3 70B实测

结果 Llama3 70B 的实际体验结果比测评数据还高。

Groq 为什么这么快

源于 Groq 开发出了一种新的 AI 处理器 ——LPU（Language Processing Unit），其推理速度相较于英伟达 GPU 提高了 10 倍。

专业优化：LPU 专门针对语言模型推理任务进行了优化，特别是在序列处理方面。

创新架构：LPU 采用了一种新的计算模式，能够高效地按顺序处理任务，而不是并行处理。

软件先行：Groq 在硬件开发前就创新了软件和编译器，以确保芯片间的高效通信。

内存与处理单元的整合：LPU 的设计使得数据流局部性得到更好的利用。

针对性能和成本的优化：LPU 在设计时就注重了性能提升和成本降低。

详细科普请前往这里查看

4 种 Groq 体验方案

1. Web 端

无需登录，即可直接在网页版进行尝试，地址指路 👉[1]，当前支持的模型有 Llama3 8B-4k 、 Llama3 70B-8k 、 Llama2 70B-8k 、 Mixtral 8X7B-32k 、 Gemma 7B-it

2. 移动端

Gorq 的 iOS 应用已经推出，目前不需要登录即可使用，通过下面的 TestFlight 安装地址：testflight.apple.com[2]，支持的模型有 Llama3 8B 、 Llama3 70B 、 Llama2 70B 、 Mixtral 8X7B 、 Gemma 7B

Gorq iOS 应用

3. API 调用

先前往这个地址 https://console./keys 申请好 API-KEY。

Groq API-Key申请

安装依赖库

pip install groq

调用

import os

from groq import Groq

client = Groq(

api_key=os.environ.get('GROQ_API_KEY'),

)

llm = client.chat.completions.create(

messages=[

{

'role': 'user',

'content': '编写一篇中国神话故事，篇幅500～800字，必须使用中文输出',

}

],

model='llama3-70b-8192',

)

print(llm.choices[0].message.content)

4. LangChain 中使用

安装依赖库

pip install langchain-groq

使用from langchain_core.prompts import ChatPromptTemplate

from langchain_groq import ChatGroq

llm = ChatGroq(temperature=0, model_name='llama3-70b-8192')

human = '{text}'

prompt = ChatPromptTemplate.from_messages([('human', human)])

chain = prompt | llm

response = chain.invoke({'text': '编写一篇中国神话故事，篇幅500～800字，必须使用中文输出'})

print(response.content)

更多体验方式

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：黄爸爸好 > 《开发》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

黄爸爸好

关注对话

TA的最新馆藏

AI Agent到底是聪明还是傻
全新神经网络架构KAN一夜爆火！
Llama3实操增强的三种方式：RAG/Agent/Function Calling！！！
人工智能，步步逼近奥数天才
分享几个.NET开源的AI和LLM相关项目框架
真的绝了，通过注释来埋点好简单！！

喜欢该文的人也喜欢更多

热门阅读换一换