LIama 4疑似作弊,都怪Meta把牛皮吹破了 性能测试遭质疑

每日经济新闻 2025-04-12 13:03:55
A+ A-

4月5日,美国科技巨头Meta宣布推出新一代开源大模型Llama 4。该模型有两个混合专家架构的版本,分别为Scout和Maverick,而更强大的Llama 4 Behemoth仍在训练中。据称,Llama 4在多个基准测试中表现出色,尤其是Behemoth,在多项测试中超越了GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等顶尖封闭模型。

然而,模型发布后不久,开发者实测发现其实际效果并不如宣传中的那样出色,甚至存在诸多问题。有开发者质疑Meta在评测基准上进行了“量身定制”训练以提升排名。知名科技媒体TechCrunch也指出,Meta新AI模型的性能测试具有一定的误导性。

Meta对此回应称,相关说法毫无事实依据。Llama 4 Scout拥有170亿活跃参数和16个专家模块,提供长达1000万tokens上下文窗口。Llama 4 Maverick同样拥有170亿活跃参数,但专家模块数量提升至128个。在多项主流基准测试中,Maverick表现优异,尤其在推理和编码方面可以与DeepSeek V3媲美。Llama 4 Behemoth则拥有2880亿活跃参数和16个专家模块,在多项基准测试中超越了行业顶尖模型。

尽管官方声称Llama 4在编程、数学、创意写作等任务中表现出色,但开发者实测结果却显示其在这些领域的表现欠佳。风险投资人迪迪·达斯直言Llama 4是一个糟糕的编程模型,并指出在KCORES基准测试中,Llama 4落后于GPT-4o、Grok 3、DeepSeek-V3等模型。此外,Llama 4在aider多语言编码基准测试中的得分仅为16%。

大模型竞技场官方也指出,Meta在排行榜上使用的并非HuggingFace上的Llama 4版本,而是针对人类偏好进行优化的定制模型。这使得开发者难以准确预估模型在实际应用场景中的表现。

与此同时,一位自称参与Llama 4训练的内部员工爆料称,公司在训练过程中存在作弊行为。不过,多位Meta员工对此进行了辟谣。Meta生成式AI副总裁艾哈迈德·阿尔·达赫勒公开表示,相关说法毫无事实依据,并解释称部分用户遇到的质量不稳定问题将在后续得到解决。Meta首席AI科学家Yann LeCun也为此发声支持。

责任编辑:张小花 TT1000

热点新闻

精彩推荐

加载更多……