LLM全称(large language model)也就是大语言模型什么是Ollama,它与Llama是什么关系?Ollama是一个开源的 LLM(大型语言模型)服务工具,用于简化在本地运行大语言模型,降低使用大语言模型的门槛,使得大模型的开发者、研究人员和爱好者能够在本地环境快速实验、管理和部署最新大语言模型,包括如Llama 3、Phi 3、Mistral、Gemma等开源的大型语言模型。 Ollama目前支持以下大语言模型:library 因此, 那么我们如何在本地部署这个大模型呢?首先我们需要到ollama官网下载,然后在命令窗中输入一些ollama的命令 ollama只是个工具,那怎么跑我们想要的大模型呢?下载模型Ollama可以直接下载内置的几种模型,但选择有限。我们更希望从HuggingFace下载以便方便地评估各种模型,所以,这里我们并不从Ollama直接下载,而是从HuggingFace下载。 在HuggingFace搜索 点击 导入模型下载到本地的模型文件不能直接导入到Ollama,需要编写一个配置文件,随便起个名字,如 FROM '/Users/liaoxuefeng/llm/llama3-8b-cn-q6/Llama3-8B-Chinese-Chat.q6_k.GGUF' TEMPLATE '''{{- if .System }} <|im_start|>system {{ .System }}<|im_end|> {{- end }} <|im_start|>user {{ .Prompt }}<|im_end|> <|im_start|>assistant ''' SYSTEM '''''' PARAMETER stop <|im_start|> PARAMETER stop <|im_end|> 第一行 然后,使用以下命令导入模型: $ ollama create llama3-cn -f ./config.txt
$ ollama list NAME ID SIZE MODIFIED llama3-cn:latest f3fa01629cab 6.6 GB 2 minutes ago 可以下载多个模型,给每个模型写一个配置文件(仅需修改路径),导入时起不同的名字,我们就可以用Ollama方便地运行各种模型。 运行模型使用Ollama的 出现 搭建Web环境使用命令行交互不是很方便,所以我们需要另一个开源的Open WebUI,搭建一个能通过浏览器访问的界面。 运行Open WebUI最简单的方式是直接以Docker运行。我们安装Docker Desktop,输入以下命令启动Open WebUI: $ docker run -p 8080:8080 -e OLLAMA_BASE_URL=http://host.ernal:11434 --name open-webui --restart always -v open-webui-data:/app/backend/data ghcr.io/open-webui/open-webui:main 参数 打开浏览器我们就可以访问http://127.0.0.1:8080,第一次访问需要注册,注册和登录是完全基于本地环境的,登录后就可以看到类似GPT的UI。 我们在聊天界面点击右上角配置按钮,点击 在聊天界面的顶部选择一个模型,就可以愉快地开始和LLaMa3聊天了: APIOpen WebUI还提供了与OpenAI类似的API,使用前先点击设置 - Account,生成一个API Key,然后在命令行用curl测试: $ curl -X POST -H 'Authorization: Bearer sk-959c8b27a48145bfb83bdb396ff3eeae' -H 'Content-Type: application/json' http://localhost:8080/ollama/api/generate -d '{'model':'llama3-cn:latest','stream':false,'prompt':'讲讲llama,50字'}' {'model':'llama3-cn:latest','created_at':'2024-05-01T14:42:28.009353Z','response':'Llama是一个基于指令跟随的多模态大型语言模型,由Meta AI发布。它能够处理文本、图像等多种输入,并生成相应的输出。 由于模型是运行在本地,Open WebUI也将数据存储在本地,所以隐私性可谓拉满。如果对一个模型不满意,还可以从HuggingFace下载更多的模型来评估,非常方便。 |
|