阿里云通义开源首个多模态推理模型 QVQ展现卓越推理能力

百家号 2024-12-26 12:57:17
A+ A-

12月25日,阿里云发布了业界首个开源多模态推理模型QVQ-72B-Preview。该模型在视觉理解和推理能力方面表现出色,特别是在解决数学、物理、科学等领域的复杂问题上尤为突出。多项评测数据显示,QVQ的表现超越了此前的视觉理解模型Qwen2-VL,与OpenAI o1、Claude3.5 Sonnet等推理模型相当。目前,开发者可以在魔搭社区和HuggingFace平台上直接体验这一模型。

人类的推理能力源于语言思维和视觉记忆,因此利用视觉理解增强大模型的推理能力成为AI技术的重要探索方向。阿里云表示,QVQ是一个基于视觉进行深度思考和推理的大模型。它不仅能更准确地感知视觉内容并进行细致分析,还会质疑自身假设,仔细审视推理过程中的每一步,最终给出深思熟虑后的结论。QVQ可以轻松识别“梗图”内涵,通过真实照片合理推断物体数量及高度等信息,并在面对数学、物理、化学等科学难题时,像人甚至科学家一样提供思考过程和准确答案。

责任编辑:张小花 TT1000

热点新闻

精彩推荐

加载更多……