LLMs/MLMs之Qwen-3:Qwen3的简介、安装和使用方法、案例应用之详细攻略 目录 Qwen3的简介2025年4月29日发布,Qwen3是阿里Qwen团队开发的一系列大型语言模型,是继QwQ和Qwen2.5之后最新的成果。该项目已在GitHub上开源,提供多种尺寸的密集型和混合专家型(MoE)模型,包括0.6B、1.7B、4B、8B、14B、32B和30B-A3B、235B-A22B等。 Qwen是阿里巴巴集团Qwen团队研发的大语言模型和大型多模态模型系列。无论是语言模型还是多模态模型,均在大规模多语言和多模态数据上进行预训练,并通过高质量数据进行后期微调以贴近人类偏好。Qwen具备自然语言理解、文本生成、视觉理解、音频理解、工具使用、角色扮演、作为AI Agent进行互动等多种能力。 Qwen3 提供了丰富的功能和易于使用的接口,为开发者提供了强大的大型语言模型工具。 开发者可以根据自身需求选择合适的推理框架和部署方式,并充分发挥Qwen3的潜力。 官方文章:Qwen3: Think Deeper, Act Faster | Qwen GitHub地址:https://github.com/QwenLM/Qwen3 0、Qwen系列迭代历史
1、Qwen3 特点>> 多种模型尺寸:提供多种尺寸的密集型和混合专家型(MoE)模型,以满足不同需求和资源限制。 >> 思维模式切换:能够在“思考模式”(用于复杂的逻辑推理、数学和编码)和“非思考模式”(用于高效的通用聊天)之间无缝切换,以适应各种场景。 >> 强大的推理能力:在数学、代码生成和常识逻辑推理方面显著增强,超越了之前的QwQ(在思考模式下)和Qwen2.5指令模型(在非思考模式下)。 >> 优越的人类偏好对齐:在创意写作、角色扮演、多轮对话和指令遵循方面表现出色,提供更自然、引人入胜和沉浸式的对话体验。 >> 强大的Agent能力:能够在思考模式和非思考模式下精确集成外部工具,并在复杂的基于Agent的任务中取得领先的开源模型性能。 >> 多语言支持:支持100多种语言和方言,具有强大的多语言指令遵循和翻译能力。 >> 新的命名方案:与之前的版本不同,Qwen3的后训练模型不再使用“-Instruct”后缀。基础模型的名称以“-Base”结尾。 2、评估结果更新中…… Qwen3的安装和使用方法1、安装1.1、模型下载Hugging Face下载地址:https:///collections/Qwen/qwen3-67dd247413f0e2e4f653967f ModelScope下载地址:https:///collections/Qwen3-9743180bdc6b48 1.2、环境依赖更新中…… 2、使用方法2.1、模型推理Qwen3 支持多种推理框架和运行环境,包括Transformers、ModelScope、llama.cpp、Ollama、LMStudio、MLX-LM、SGLang、vLLM等。 以下是一些使用方法示例: T1、使用Transformers需要安装 transformers>=4.51.0。 代码示例如下: from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "Qwen/Qwen3-8B" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto") prompt = "Give me a short introduction to large language models." messages = [{"role": "user", "content": prompt}] text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True, enable_thinking=True) # enable_thinking 控制思考模式 model_inputs = tokenizer([text], return_tensors="pt").to(model.device) generated_ids = model.generate(**model_inputs, max_new_tokens=32768) output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() print(tokenizer.decode(output_ids, skip_special_tokens=True)) enable_thinking 参数控制是否启用思考模式,也可以在系统消息或用户消息中使用/think 和 /nothink 指令来控制。 T2、使用ModelScope建议中国大陆用户使用ModelScope,其Python API与Transformers类似。可以使用 modelscope download 命令下载模型检查点。 T3、使用llama.cpp需要安装 llama.cpp>=b5092。 可以使用命令行工具或API服务器运行模型。 命令行示例: ./llama-cli -hf Qwen/Qwen3-8B-GGUF:Q8_0 --jinja --color -ngl 99 -fa -sm row --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0 -c 40960 -n 32768 --no-context-shift T4、使用Ollama安装Ollama后,可以使用 ollama serve 启动服务,并使用 ollama run qwen3:8b 运行模型。 API地址默认为 http://localhost:11434/v1/。 T5、使用LMStudioLMStudio 直接支持Qwen3的GGUF文件。 T6、使用MLX-LM (Apple Silicon)mlx-lm>=0.24.0 支持Qwen3。 在HuggingFace Hub上查找以MLX结尾的模型。 2.2、模型微调推荐使用训练框架,包括Axolotl、unsloth、Swift、Llama-Factory等,使用 SFT、DPO、GRPO 等微调模型。 2.3、工具使用对于工具使用功能,建议您参考Qwen-Agent,它提供了这些 API 的包装器,以支持使用 MCP 的工具或函数调用。Qwen3 的工具使用也可以通过 SGLang、vLLM、Transformers、llama.cpp、Ollama 等进行。 相关地址:https://github.com/QwenLM/Qwen-Agent 3、模型部署T1、SGLang需要 sglang>=0.4.6.post1。 启动命令:python -m sglang.launch_server --model-path Qwen/Qwen3-8B --port 30000 --reasoning-parser qwen3 T2、vLLM需要 vllm>=0.8.4。 启动命令:vllm serve Qwen/Qwen3-8B --port 8000 --enable-reasoning-parser --reasoning-parser deepseek_r1 T3、昇腾NPU在昇腾NPU上部署:请访问Modelers并搜索Qwen3。 Qwen3的案例应用Qwen3在创意写作、角色扮演、多轮对话、指令遵循、数学、代码生成、常识逻辑推理、以及与外部工具集成等方面的强大能力。 这些能力可以应用于各种场景,例如: >> 聊天机器人:构建具有自然语言理解和生成能力的聊天机器人。 >> 代码生成:辅助程序员进行代码编写和调试。 >> 文本摘要:将长文本压缩成简洁的摘要。 >> 机器翻译:进行不同语言之间的翻译。 >> 问答系统:回答用户提出的问题。 |
|