阿里云通义开源首个多模态推理模型 QVQ展现卓越推理能力

百家号 2024-12-26 12:57:17

A+ A-

12月25日，阿里云发布了业界首个开源多模态推理模型QVQ-72B-Preview。该模型在视觉理解和推理能力方面表现出色，特别是在解决数学、物理、科学等领域的复杂问题上尤为突出。多项评测数据显示，QVQ的表现超越了此前的视觉理解模型Qwen2-VL，与OpenAI o1、Claude3.5 Sonnet等推理模型相当。目前，开发者可以在魔搭社区和HuggingFace平台上直接体验这一模型。

人类的推理能力源于语言思维和视觉记忆，因此利用视觉理解增强大模型的推理能力成为AI技术的重要探索方向。阿里云表示，QVQ是一个基于视觉进行深度思考和推理的大模型。它不仅能更准确地感知视觉内容并进行细致分析，还会质疑自身假设，仔细审视推理过程中的每一步，最终给出深思熟虑后的结论。QVQ可以轻松识别“梗图”内涵，通过真实照片合理推断物体数量及高度等信息，并在面对数学、物理、化学等科学难题时，像人甚至科学家一样提供思考过程和准确答案。

责任编辑：张小花 TT1000

阿里云通义开源首个多模态推理模型 QVQ展现卓越推理能力

热点新闻

精彩推荐