LIama 4疑似作弊，都怪Meta把牛皮吹破了性能测试遭质疑

每日经济新闻 2025-04-12 13:03:55

A+ A-

4月5日，美国科技巨头Meta宣布推出新一代开源大模型Llama 4。该模型有两个混合专家架构的版本，分别为Scout和Maverick，而更强大的Llama 4 Behemoth仍在训练中。据称，Llama 4在多个基准测试中表现出色，尤其是Behemoth，在多项测试中超越了GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等顶尖封闭模型。

然而，模型发布后不久，开发者实测发现其实际效果并不如宣传中的那样出色，甚至存在诸多问题。有开发者质疑Meta在评测基准上进行了“量身定制”训练以提升排名。知名科技媒体TechCrunch也指出，Meta新AI模型的性能测试具有一定的误导性。

Meta对此回应称，相关说法毫无事实依据。Llama 4 Scout拥有170亿活跃参数和16个专家模块，提供长达1000万tokens上下文窗口。Llama 4 Maverick同样拥有170亿活跃参数，但专家模块数量提升至128个。在多项主流基准测试中，Maverick表现优异，尤其在推理和编码方面可以与DeepSeek V3媲美。Llama 4 Behemoth则拥有2880亿活跃参数和16个专家模块，在多项基准测试中超越了行业顶尖模型。

尽管官方声称Llama 4在编程、数学、创意写作等任务中表现出色，但开发者实测结果却显示其在这些领域的表现欠佳。风险投资人迪迪·达斯直言Llama 4是一个糟糕的编程模型，并指出在KCORES基准测试中，Llama 4落后于GPT-4o、Grok 3、DeepSeek-V3等模型。此外，Llama 4在aider多语言编码基准测试中的得分仅为16%。

大模型竞技场官方也指出，Meta在排行榜上使用的并非HuggingFace上的Llama 4版本，而是针对人类偏好进行优化的定制模型。这使得开发者难以准确预估模型在实际应用场景中的表现。

与此同时，一位自称参与Llama 4训练的内部员工爆料称，公司在训练过程中存在作弊行为。不过，多位Meta员工对此进行了辟谣。Meta生成式AI副总裁艾哈迈德·阿尔·达赫勒公开表示，相关说法毫无事实依据，并解释称部分用户遇到的质量不稳定问题将在后续得到解决。Meta首席AI科学家Yann LeCun也为此发声支持。

责任编辑：张小花 TT1000

LIama 4疑似作弊，都怪Meta把牛皮吹破了性能测试遭质疑

热点新闻

精彩推荐

LIama 4疑似作弊，都怪Meta把牛皮吹破了 性能测试遭质疑

热点新闻

精彩推荐

LIama 4疑似作弊，都怪Meta把牛皮吹破了性能测试遭质疑