阿里通义Qwen3-VL系列新成员4B与8B模型开源上线,性能超越GPT-5 Nano。
10月15日,阿里通义正式宣布推出Qwen3-VL系列的全新成员——采用Dense架构的Qwen3-VL-8B和Qwen3-VL-4B模型,并已开源上线。
Qwen3-VL-4B/8B是一款采用密集(Dense)架构的视觉理解模型,相比其他同类模型,其显存占用更低,同时保留了Qwen3-VL的所有功能与能力。该系列模型在不同尺寸下均提供了Instruct和Thinking两个版本,满足多样化应用场景的需求。 从技术角度来看,Qwen3-VL-4B/8B的推出体现了模型优化的重要方向,即在保证性能的前提下提升资源利用效率。密集模型结构有助于减少计算冗余,从而降低硬件要求,使更多用户能够便捷地部署和使用这类先进模型。此外,Instruct与Thinking版本的区分也反映出对不同任务需求的细致考量,进一步提升了模型的实用价值。
Qwen3-VL-8B在STEM、VQA、OCR、视频理解和Agent任务等公开评测中表现突出,不仅超越了Gemini2.5FlashLite和GPT-5Nano,甚至在部分任务上能够与上一代超大模型Qwen2.5-VL-72B相媲美。 从技术发展角度来看,这一成绩体现了模型在多模态理解与处理能力上的显著提升。尽管参数规模相对较小,但通过优化架构和训练策略,Qwen3-VL-8B依然能够在多个关键任务中达到接近甚至超越更大模型的水平,显示出高效能与高性价比的潜力。这为未来更广泛的应用场景提供了更多可能性,尤其是在资源受限的环境中。
4B版本在端侧表现出更优的性价比,尤其适合用于需要AI视觉理解功能的智能终端设备中部署。 在当前人工智能技术不断普及的背景下,端侧计算正逐渐成为提升设备智能化水平的重要方向。4B版本凭借其高效能与低成本的优势,为各类智能终端提供了更具吸引力的解决方案。这不仅有助于降低整体部署成本,也推动了AI技术在更多场景中的落地应用。随着硬件性能的持续提升,未来这类高性价比的模型或将更加广泛地应用于消费电子、工业检测乃至智慧城市等领域。
值得一提的是,这两款视觉理解模型在“视觉精准”与“文本稳健”方面实现了协同突破。针对小模型普遍存在的“跷跷板”问题——即提升视觉能力往往导致文本性能下降,反之亦然,阿里通过架构创新和系统优化,成功让模型在维持文本理解能力的基础上,进一步强化了多模态感知与视觉理解能力,实现了在较小规模下具备更强的视觉与文本处理能力。 从技术发展角度看,这种突破不仅体现了模型设计上的精细化考量,也反映出当前多模态AI在平衡不同能力之间的探索已取得实质性进展。未来,随着这类技术的不断成熟,其应用场景或将更加广泛,对行业产生深远影响。
新模型已在魔搭社区和HuggingFace平台上正式发布,同时推出了FP8版本,开源代码地址如下:
https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b
https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe