核心特性
探索 Qwen-3 的强大功能和创新特性
混合思维模式 (Thinking Mode)
根据任务复杂度自动切换深度思考和快速响应模式,兼顾智能性与效率,并提供灵活控制。
- •思考模式 (逐步推理)
- •非思考模式 (快速响应)
- •API/提示标签控制
- •优化思考预算
旗舰级与高效性能
旗舰 MoE 模型性能媲美顶尖闭源模型,小尺寸模型亦表现卓越,超越前代大型模型。
- •编码/数学/通用能力领先
- •Qwen3-235B-A22B 性能卓越
- •Qwen3-4B 匹敌 Qwen2.5-72B
- •MoE 模型激活参数少,效率高
统一多模态处理
采用统一多模态编码技术,单一架构深度融合处理文本、图像、音频、视频等多种输入。
- •文本理解与生成
- •图像识别与分析
- •音频处理与交互
- •视频内容理解
广泛的多语言支持
支持多达 119 种语言和方言,显著优化跨语言任务表现和语言切换问题。
- •119 种语言与方言覆盖
- •基于 36T tokens 预训练
- •降低语言切换错误
- •强大的跨语言能力
MCP 协议与 Agent 能力
原生支持 MCP 协议,标准化 AI Agent 的外部工具调用,推荐结合 Qwen-Agent 框架构建智能体。
- •标准化外部 Action 调用
- •提升 Agent 开发兼容性
- •易于构建浏览器助手等
- •推荐 Qwen-Agent 框架
高效 MoE 与多样化 Dense 模型
提供旗舰级 MoE 模型和从 0.6B 到 32B 的多种 Dense 模型,满足不同场景需求。
- •Qwen3-235B (MoE, 22B激活)
- •Qwen3-30B (MoE, 3B激活)
- •0.6B 到 32B Dense 模型
- •Apache 2.0 开源
超长上下文处理
密集模型支持高达 128K token 上下文,MoE 模型亦支持长上下文,高效处理长文档和复杂对话。
- •最高 128K 上下文 (8B-32B)
- •32K 上下文 (0.6B-4B)
- •优化注意力机制
- •降低长序列内存占用
先进的训练技术
基于近 36 万亿 token 数据进行三阶段预训练,并采用四阶段后训练开发混合思维和通用能力。
- •36T tokens 预训练数据
- •三阶段预训练过程
- •四阶段后训练流程
- •高质量合成数据应用
开放生态与兼容性
以 Apache 2.0 许可证开源,与 HuggingFace, vLLM, Ollama, SGLang 等主流工具无缝集成。
- •完全开源 (Apache 2.0)
- •支持 vLLM, SGLang 等框架
- •支持 Ollama, LMStudio 等本地工具
- •HuggingFace/ModelScope/Kaggle 可用
媒体报道中的 DeepSeek V3
开源人工智能开发的新突破
突破性表现
DeepSeek V3 在编程竞赛中超越开源和闭源 AI 模型,尤其在 Codeforces 竞赛和 Aider Polyglot 测试中表现出色。
大规模架构
拥有6710亿参数并在14.8万亿词元上训练,规模是 Meta 的 Llama 3.1 405B 的1.6倍。
高效开发成本
仅用两个月时间使用 Nvidia H800 GPU 训练完成,开发成本仅为550万美元。
Qwen-3 实际演示
观看 Qwen-3 如何提升开源人工智能能力
Qwen-3:领先的开源人工智能
深入了解 Qwen-3 的能力及其与其他领先人工智能模型的性能对比。
Qwen-3 权威基准测试表现
通用能力与语言理解
编程能力
数学能力
技术规格
探索驱动 Qwen-3 的先进技术、架构与能力
Qwen-3 架构详情
融合混合专家、多样化密集模型与创新机制的先进架构
Qwen-3 研究
推进语言模型能力的边界
创新架构
融合混合思维模式、统一多模态编码和高效 MoE 架构。
训练方法
基于近 36 万亿 token 的多阶段预训练与后训练,覆盖 119 种语言。
关于 Qwen 团队
驱动 Qwen-3 模型的团队
开发背景
Qwen-3 系列模型由阿里云通义千问团队研发。该团队致力于大型语言模型的开源研究与应用,持续推出领先的 Qwen 模型系列。
技术实力
依托阿里云强大的云计算基础设施和在大规模 AI 模型训练方面的丰富经验,Qwen 团队能够高效地研发和迭代先进的语言模型。
Qwen-3 部署选项
高效推理框架 (vLLM & SGLang)
推荐使用 vLLM (>=0.8.4) 或 SGLang (>=0.4.6.post1) 进行高性能部署,支持长上下文和混合思维模式。
- 高吞吐量
- 低延迟
- 支持混合思维模式
- 与 OpenAI API 兼容
便捷本地部署
通过 Ollama, LMStudio, MLX, llama.cpp, KTransformers 等工具轻松在本地运行 Qwen-3 模型。
- 快速启动
- 跨平台支持 (CPU/GPU)
- 社区活跃
- 多种量化格式支持
云端 API 服务
通过阿里云百炼平台、DashScope 或 together.ai 直接调用 Qwen-3 API,无需自行部署。
- 开箱即用
- 按需付费
- 全球访问
- 企业级支持
模型平台与量化格式
模型权重在 Hugging Face, ModelScope, Kaggle 提供。支持 GGUF, AWQ, AutoGPTQ 等量化格式,降低资源需求。
- 多平台获取
- Apache 2.0 许可
- 支持 Int4/Int8 量化
- 适配消费级硬件
如何使用 Qwen-3
快速上手 Qwen-3:在线体验、API 调用与本地部署
选择使用方式
根据您的需求,选择在线体验 (Qwen Chat)、调用 API 服务,或者下载模型进行本地部署。
访问平台或下载模型
访问 Qwen Chat 官网/APP,查阅 API 文档及提供商 (阿里云百炼等),或前往 Hugging Face/ModelScope/Kaggle 下载所需模型文件。
开始交互或集成
直接与 Qwen Chat 对话,根据 API 文档集成到您的应用,或使用 Ollama、vLLM、SGLang 等工具在本地运行和管理模型。
常见问题
了解更多关于 Qwen-3 的信息
Qwen-3 有什么独特之处?
Qwen-3 拥有从 0.6B 到 235B (MoE) 的多种模型规模,采用 Apache 2.0 开源。其核心创新包括混合思维模式(智能切换思考深度)、统一多模态处理能力、以及对 119 种语言的广泛支持。
如何访问或使用 Qwen-3?
您可以通过 Hugging Face, ModelScope 或 Kaggle 下载模型权重进行本地部署(推荐使用 vLLM, SGLang, Ollama 等工具)。也可以通过阿里云百炼平台、DashScope、together.ai 等调用 API 服务,或在 Qwen Chat 网页版/APP 中直接体验。
Qwen-3 在哪些任务上表现出色?
Qwen-3 在编码、数学、通用能力基准测试中表现领先,超越了 Llama3.1-405B 等模型。其多语言能力、长上下文处理和 Agent 功能(结合 MCP 协议)也非常强大。
什么是混合思维模式 (Thinking Mode)?
这是 Qwen-3 的一项创新功能。模型能根据任务复杂度,在需要深度推理的"思考模式"和需要快速响应的"非思考模式"之间自动或手动切换,以平衡效果与效率。
Qwen-3 支持多少种语言?
Qwen-3 支持多达 119 种语言和方言,通过大规模多语言预训练数据(近 36T tokens)显著提升了跨语言理解和生成能力。
运行 Qwen-3 的硬件要求是什么?
要求取决于模型大小。小模型 (如 0.6B, 1.7B) 可在消费级硬件上运行,特别是使用 Int4/Int8 量化 (如 GGUF) 后。大模型 (如 32B, 235B) 则需要更强的 GPU 支持。推荐查阅具体模型的文档和量化选项。
Qwen-3 支持商业使用吗?
是的,Qwen-3 系列的所有模型均采用 Apache 2.0 许可证,允许商业和研究用途。
Qwen-3 的上下文窗口大小是多少?
根据模型大小不同,Qwen-3 的密集模型支持 32K (0.6B-4B) 或 128K (8B-32B) tokens 的上下文长度。MoE 模型也支持长上下文(具体大小请查阅模型卡)。
Qwen-3 支持哪些部署框架/工具?
推荐使用 vLLM (>=0.8.4) 和 SGLang (>=0.4.6.post1) 进行高效部署。本地运行可使用 Ollama, LMStudio, llama.cpp, MLX-LM, KTransformers 等。同时也与 Hugging Face Transformers 库兼容。