搜索

分享

QQ空间 QQ好友新浪微博微信

第一个基于Llama 3的多模态大模型！Bunny-Llama-3-8B-V上线！

黄爸爸好 2024-04-26 发布于上海

展开全文

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

Bunny 团队推出第一个基于 Llama-3 的多模态大模型！Bunny-Llama-3-8B-V 正式上线，超越一众如 LLaVA-7B、LLaVA-13B、Mini-Gemini-13B模型。在众多主流 Benchmark 上表现良好，具有更好的识别、数学和推理能力。

项目主页:

https://github.com/BAAI-DCAI/Bunny

Bunny 模型采用了经典的 Encoder+Projector+LLM 架构，提供了一个可扩展的组合框架。支持多种 Vision Encoders，如 EVA CLIP、SigLIP 等，以及多种 LLM Backbone，包括 Phi-1.5、Phi-2、StableLM-2、Llama-3 等。灵活的架构设计便于用户基于Bunny开展大模型研究。

Bunny-Llama-3-8B-V可以精确理解图片并识别物体：

在这个餐厅中，Bunny-Llama-3-8B-V 理解并很好地描述了图片:

模型也有很强的OCR能力:

场景理解能力：

在 Bunny 数据集上训练好的 Bunny-Llama-3-8B-V 已经开放下载:

GitHub: https://github.com/BAAI-DCAI/Bunny

HuggingFace: https:///BAAI/Bunny-Llama-3-8B-V

Modelscope: https:///models/BAAI/Bunny-Llama-3-8B-V

Wisemodel: https:///models/BAAI/Bunny-Llama-3-8B-V

预计会在未来发布性能更强悍的版本，STAY TUNED!

何恺明在MIT授课的课件PPT下载

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：黄爸爸好 > 《ChatGPT》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

黄爸爸好

关注对话

TA的最新馆藏

AI Agent到底是聪明还是傻
全新神经网络架构KAN一夜爆火！
Llama3实操增强的三种方式：RAG/Agent/Function Calling！！！
人工智能，步步逼近奥数天才
分享几个.NET开源的AI和LLM相关项目框架
真的绝了，通过注释来埋点好简单！！

喜欢该文的人也喜欢更多

热门阅读换一换