体验Meta的Llama 4,就也还行?
从支持1000万token上下文的Scout,到4000亿参数的Maverick,再到2万亿参数的Behemoth,Llama 4凭借MoE架构、多模态能力和超低成本推理,展现了强大的技术潜力。然而,实际体验中,它在文本处理和创造性任务中表现出色,但在专业知识和交互细节上仍有不足。
昨天(4月6日凌晨),Meta发布了Llama 4的消息,估计你也听说了。要是你想了解更多,可以去这两个网址看看:
- 官方介绍页面:https://ai.meta.com/meta-ai
- 官网地址:https://www.meta.ai
登录后,Chatbot的页面特别简单,一打开就能免费试用。左边有个小菜单,三个选项:对话框、收藏,还有Meta画画。
这次Meta推出了三个不同版本的Llama 4。
第一个叫Llama 4 Scout(侦察兵),它有170亿个活跃参数,就像它手上有170亿个小工具可以随时用。它还有16个专家模型帮忙,总参数量加起来有1090亿。
这个版本适合做轻量级的任务,比如:总结文档、处理代码库之类的推理任务。能支持1000万字的上下文。
第二个版本叫Llama 4 Maverick,有点像“特立独行”的意思;它同样有170亿参数,但专家模型增加到了128个,总参数量达到4000亿;场景适合多模态,像文档、图标、PDF等。
目前我看到介绍,它在很多基础测试里表现特别好,超过了GPT-4o和Gemini 2.0 Flash,在推理和编码任务上和DeepSeek v3差不多厉害。
最厉害的是第三个版本,叫Llama 4 Behemoth(巨兽)。官方说,它的总参数接近2万亿,活跃参数有2880亿。不过,这个版本还没正式发布,它主要是当“老师”,用自己的知识教Scout和Maverick。
很多人可能不太明白“活跃参数”是什么。我打个比方:
一个超级大厨(模型)有很多很多工具和技巧(总参数量),但做饭的时候,他只会用到其中一部分(活跃参数)。
活跃参数越多,厨师能用的工具和技巧就越多,做出来的菜(也就是任务效果)可能就越好吃(厉害)。
面对这三个版本,说实话,我都觉得太厉害,完全无法想象它的强大。尤其是2万亿参数的版本,似乎吞掉了整个世界的知识,消化掉了人类文明的精髓。
既然这样,问题来了:
吹的这么大,到底该如何评价它的性能呢?是遥遥领先,还是一骑绝尘?说实话,我都已经没有概念了。
不过,我直接问Llama 4:针对一个这么大的模型,该问什么问题,才能感受到它的厉害呢?
它告诉我,可以试试多步骤推理、自然语言理解问题、创造性写作、多语言翻译,或者对某个领域的知识进行解析;从这些角度提问,能更好地感受到Llama 4的强大之处。
索性从多步骤推理开始。我问的第一个问题:
假设你有100元,想用这些钱买一种商品。这种商品每件3元,但商家有个优惠活动:如果你一次性买超过10件,每件可以便宜1元。那我最多能买多少件呢?请快速推理并给出答案。
它不到2秒就给出了答案。我用Kimi、DeepSeek、Qwen分别测试了这个问题,结果也都差不多。毫无疑问,这种问题对模型来说太简单了,简直小菜一碟。
那怎么办呢?
我向Qwen咨询了一个问题,我对Qwen2.5-Max说:请给我一个超难的问题,来测试Llama 4的多步骤推理,越难越好。
经过一番思考,Qwen给出了一道题目,并解释说,这道题的关键在于“短小精悍”,同时要覆盖多语言翻译、事实核查和语义分析这三项能力。
它还提到,这道题符合知识库中的评测维度,比如翻译技巧和幻觉检测。问题是这样的:请阅读以下句子,并完成以下任务: 一,将句子翻译成法语,保留原意; 二,指出句子中可能被夸大的部分,并解释原因。
句子如下:
尽管人工智能在医疗、金融等领域被称为革命性力量,但其通过节能算法缓解气候变化的效果仍存在争议。
结果来看,Kimi回答比Llama 4更详细。Kimi指出两个可能被夸大的地方:一是“革命性力量”,二是“仍存在争议”。而Llama 4只指出了其中一个。
图示:左KIMI,右Llama 4
接下来,我体验了一个自然语言理解的难题。Qwen说,这个问题看起来很简单,其实里面藏着很深的难度。
它不仅要识别“相关性≠因果性”的谬误,还要补充隐含条件,考验逻辑重构能力。我把任务交给Llama 4:请分析以下中文句子的逻辑漏洞,并用英语改写句子,让它更严谨。
句子是:
“所有成功企业家都早起,因此如果你想创业成功,必须每天五点起床。”
对比Kimi和Llama 4的答案,我认为Llama 4的回答更简洁,但Kimi的表达更详细、更清晰。
然后,我研究了一道“领域知识”。问题是:设计一个基于AI的商品智能推荐系统的测试方案。
我让Llama 4先分析问题,再给出答案。它说,主要存在三个测试难点。不过,它给的答案和Kimi给的答案我都不太满意,主要问题是:
答案太宏观、太理论化,虽然也有举例,但都没具体说清楚“到底该怎么做”。可能因为我之前提出的问题不够详细。
这也给我一个提醒:虽然网上有海量公开资料,但遇到行业知识或者具体问题时,AI在个人经验方面还是差了点火候。
最后,我试了试创造性写作,感觉特别有意思。
题目是写一个微小说,里面要包含“钥匙”“雨夜”“陌生人”这三个元素,还得分析用到的文学技巧。
Llama 4给出了好几个版本,创造力和理解力都很强。相比之下,Kimi只写了一个版本,感觉Llama 4在处理复杂任务时更有优势,能给出更多元化的回答。
我觉得,以后可以用这个功能写更多好玩的段子,确实是一件很有趣的事情。
我还试了它的文生图能力。
随便说了一句“帮我换轮胎”,它居然生成了四张不同的图,每张都不一样。其中第四张看起来像在森林里换轮胎,感觉挺真实的。
我可以点进去继续修改,只要告诉它我的想法就行。上传照片换背景图,也可以。不过,修改效果不太理想,不如ChatGPT 4o。
经过这一系列体验,所以,我得出什么结论呢?
Llama 4的文本处理能力很强。会理解上下文的意思,回答问题时,能给出很准确、很贴切的答案。特别是碰到复杂的问题,或者要仔细琢磨的任务,它表现得特别好。
比如,我让它帮我做一个测试,根据一段文本理解人类的情感,把这种情感用到别的地方,它都能搞定。
语言生成能力也很棒,写出来的文本很流畅、很自然。有时,它还能模仿某种特定的写作风格或者语气;还有一个优点,多轮对话能力很强。不管后面给它什么内容,前面的内容它都不会忘。
不过,也有不足的地方。
在一些专业知识上,还不够深入、不够具体。但有个好处,它能带着我一起完成任务;我有个问题自己解决不了,交给它,它就能分步骤带着我一起做,最后把任务完成。
在交互方面,它也很厉害。
从普通的文字聊天,到生成图片,再到上传文件让它帮忙修改,这些都能在一个聊天框里搞定。甚至还能基于图片制作动画,功能很全面。不过,它没有语音功能,也不能联网搜索,这有点不太方便。
但是,虽然它能进行多种交互,但有时候也会出错。
我给它一个PDF文件,让它把里面的内容提取出来做成表格,结果它却生成了一个图标。这种理解上的偏差还挺让人头疼的。
可能它在开源市场更有潜力吧,感兴趣,可以试试。
本文由人人都是产品经理作者【王智远】,微信公众号:【王智远】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
- 目前还没评论,等你发挥!