超越极限，通义千问再出新作：Qwen3-VL 4B 与 8B 模型震撼开源

阿里通义Qwen3-VL系列新成员4B与8B模型开源上线，性能超越GPT-5 Nano。

　　 10月15日，阿里通义正式宣布推出Qwen3-VL系列的全新成员——采用Dense架构的Qwen3-VL-8B和Qwen3-VL-4B模型，并已开源上线。

　　 Qwen3-VL-4B/8B是一款采用密集（Dense）架构的视觉理解模型，相比其他同类模型，其显存占用更低，同时保留了Qwen3-VL的所有功能与能力。该系列模型在不同尺寸下均提供了Instruct和Thinking两个版本，满足多样化应用场景的需求。从技术角度来看，Qwen3-VL-4B/8B的推出体现了模型优化的重要方向，即在保证性能的前提下提升资源利用效率。密集模型结构有助于减少计算冗余，从而降低硬件要求，使更多用户能够便捷地部署和使用这类先进模型。此外，Instruct与Thinking版本的区分也反映出对不同任务需求的细致考量，进一步提升了模型的实用价值。

　　 Qwen3-VL-8B在STEM、VQA、OCR、视频理解和Agent任务等公开评测中表现突出，不仅超越了Gemini2.5FlashLite和GPT-5Nano，甚至在部分任务上能够与上一代超大模型Qwen2.5-VL-72B相媲美。从技术发展角度来看，这一成绩体现了模型在多模态理解与处理能力上的显著提升。尽管参数规模相对较小，但通过优化架构和训练策略，Qwen3-VL-8B依然能够在多个关键任务中达到接近甚至超越更大模型的水平，显示出高效能与高性价比的潜力。这为未来更广泛的应用场景提供了更多可能性，尤其是在资源受限的环境中。

　　 4B版本在端侧表现出更优的性价比，尤其适合用于需要AI视觉理解功能的智能终端设备中部署。在当前人工智能技术不断普及的背景下，端侧计算正逐渐成为提升设备智能化水平的重要方向。4B版本凭借其高效能与低成本的优势，为各类智能终端提供了更具吸引力的解决方案。这不仅有助于降低整体部署成本，也推动了AI技术在更多场景中的落地应用。随着硬件性能的持续提升，未来这类高性价比的模型或将更加广泛地应用于消费电子、工业检测乃至智慧城市等领域。

　　值得一提的是，这两款视觉理解模型在“视觉精准”与“文本稳健”方面实现了协同突破。针对小模型普遍存在的“跷跷板”问题——即提升视觉能力往往导致文本性能下降，反之亦然，阿里通过架构创新和系统优化，成功让模型在维持文本理解能力的基础上，进一步强化了多模态感知与视觉理解能力，实现了在较小规模下具备更强的视觉与文本处理能力。从技术发展角度看，这种突破不仅体现了模型设计上的精细化考量，也反映出当前多模态AI在平衡不同能力之间的探索已取得实质性进展。未来，随着这类技术的不断成熟，其应用场景或将更加广泛，对行业产生深远影响。

　　新模型已在魔搭社区和HuggingFace平台上正式发布，同时推出了FP8版本，开源代码地址如下：

　　 https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b

　　 https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe