反击 DeepSeek 失败!Llama 4 效果不好,Meta 承认有问题

12次阅读
没有评论

共计 2044 个字符,预计需要花费 6 分钟才能阅读完成。

【本文要点】
Meta 的 AI 负责人 Ahmad Al-Dahle 回应了对刚开源的 Llama 4 模型的质疑,承认不同服务中模型质量存在差异,并表示会进行优化和修复,否认在测试集上进行预训练。有评论指出 Llama 4 的性能不如同类 AI 模型,尤其在编程任务中表现差劲。尽管 Llama 4 被宣传为重大技术进步,实际应用中的效果和实验室测试结果存在差距,用户对其表现的不满引发质疑其真实性能。Meta 此时急需一个成功的产品来逆转颓势,但似乎未能如愿。


【正文】


今天凌晨 1 点半,Meta 生成式 AI 领导者 Ahmad Al-Dahle 在社交平台发布了一篇长文,对前天刚开源的 Llama 4 质疑进行了官方回应。Ahmad 表示,Llama 4 一开发完就发布了,所以,不同服务中模型质量难免会有一些差异。Meta 很快会修复这些漏洞提升性能。同时否认在测试集上进行了预训练。

但 Meta 在官网发布时特意点名 DeepSeek,说他们新开源的 Llama 4 Maverick 在代码能力可以比肩其新开源的 V3 模型,国内不少知名媒体也以此为噱头来写标题。

现在看来 Meta 首次反击是失败了,期待他们后续优化以及正训练的 2 万亿参数的教师模型。

反击 DeepSeek 失败!Llama 4 效果不好,Meta 承认有问题


以下是 Ahmad 完整声明:

我们很高兴能开始让大家都用上 Llama 4。我们已经听说很多人使用这些模型取得了不错的成果。

话虽如此,我们也听到了一些关于不同服务中模型质量参差不齐的报告。由于模型一准备好我们就发布了,所以我们预计所有公开的应用实现都需要几天时间来进行优化调整。我们会继续进行漏洞修复工作,并与合作伙伴完成对接流程。

我们还听到有人声称 Llama 4 在测试集上进行了训练,这纯属无稽之谈,我们绝对不会这么做。据我们的判断,人们所看到的质量差异是由于需要对应用实现进行稳定化处理造成的。

我们相信 Llama 4 模型是一项重大的技术进步,我们期待着与社区合作,充分挖掘其价值。

其实,在 Llama 4 开源当天就有人质疑其性能。其代码能力比 Grok 3、DeepSeek V3、Sonnet 3.5/ 7 差很多。

反击 DeepSeek 失败!Llama 4 效果不好,Meta 承认有问题


无论是 Scout 还是 Maverick 模型,我使用了详尽的提示词,在实际编码方面似乎都几乎无法使用。

考虑到 Meta 公司付出的努力,我很惊讶一个 4000 亿参数的模型(即便它是混合专家模型)表现竟如此糟糕。它与 DeepSeekV3”相比差距甚远。

反击 DeepSeek 失败!Llama 4 效果不好,Meta 承认有问题


我们对不同平台提供的 Scout 和 Maverick 进行了测试,结果发现这两款模型表现都不佳,甚至被参数规模更小的模型比下去了。

在基础编程任务之外,它们就会出错,而且在遵循指令方面能力也很弱。Maverick 的排名接近谷歌的 Gemini 2.5,这一点令人担忧。它们给人的感觉就像是处于 GPT-3.5 时代的模型。很高兴 Meta 正在采取措施让情况稳定下来。

反击 DeepSeek 失败!Llama 4 效果不好,Meta 承认有问题


能够提前使用 Llama 4 固然很棒,但这里有个关键事实:一个强大的模型,其实际效果取决于它的应用实现情况。

你在实验室里测试的效果,并不等同于用户在实际使用中所体验到的效果。在过度炒作和实际操作之间存在的差距,才是真正需要努力去填补的地方。

反击 DeepSeek 失败!Llama 4 效果不好,Meta 承认有问题


鉴于许多运行时环境都是开源的,或许未来在发布产品以免陷入如此混乱的局面之前,你们能够确保那些修复措施已经落实到位?“是你使用方式不对”这种说辞可不大好听。

反击 DeepSeek 失败!Llama 4 效果不好,Meta 承认有问题


也有网友质疑 Meta 刷榜:“质量参差不齐”??我看到的每一项基准测试中,Llama 4 的表现都糟透了,除非你参考的是 LMSYS 的“1417 eon”基准测试结果。

你们向 LMSYS 开放了哪个 API 呢?因为目前 LMSYS 那边的模型列表中的表现也非常差。

反击 DeepSeek 失败!Llama 4 效果不好,Meta 承认有问题


Llama 4 就是垃圾,你们在这件事上搞砸得太厉害了。与其误导大家,还不如承认错误。不确定在测试集上动手脚这件事是不是真的,但鉴于它在基准测试中的高分以及在现实世界中糟糕的表现,这种可能性似乎很大。

反击 DeepSeek 失败!Llama 4 效果不好,Meta 承认有问题


在聊天机器人竞技场的大语言模型排行榜上,Meta 公司的 Llama 4 Maverick 在编程方面排名第一。

然而,几乎我给出的每一个难的编程提示或中等难度的编程提示,它都无法完成。在编程方面,它比 DeepSeek V3 – 0324、Claude 3.5/3.7 Sonnet 或 Gemini 2.0 Pro 差得多。

所以,这位网友也在质疑 Meta 刷榜的问题。

反击 DeepSeek 失败!Llama 4 效果不好,Meta 承认有问题


其实从发布的时间点就能看出来,Meta 这次并没有准备好。作为类 ChatGPT 的开源鼻祖之一,Llama 4 这么重磅的开源模型,居然放在了美国周六的大晚上发布(国内的周日凌晨 3 点),这太不符合常规了。

按照他们以往发布的 Llama 系列模型,一般会放在美国周二、周三早上 10 点左右。所以,在发布 Llama 4 时他们本身就心虚。

DeepSeek 的横空出世给 Meta 造成了巨大压力,其用户、口碑正在严重流失,他们急需一款重磅产品挽回败局。在今年过年 DeepSeek 疯狂刷屏那段时间,Meta 还特意组建了“作战研究室”来研究其模型。但从最终结果来看,依然不是很理想。

此外,由于关税大战的原因,Meta 的股票遭遇重创,他们也需要一个利好消息来拉升股票,现在适得其反。


【新闻来源】

正文完
 0
评论(没有评论)
验证码