一度“跳票”的AI模子Grok 3终于迎来肃穆发布。
当地时刻2月17日晚,马斯克旗下AI公司xAI发布了Grok 3过火精简版Grok 3 mini。发布会经受视频直播体式,不雅看东谈主数升迁100万东谈主。
Grok 3是xAI对OpenAI的o3-mini和DeepSeek的R1等模子的复兴,它不错分析图像和回答问题,并为X上的好多功能提供扶持。前天马斯克就在X上造势称,Grok 3是“地球上最聪惠的东谈主工智能”。

图片开始:直播截图
在发布会上,马斯克和三位xAI的工程师通盘演示了Grok 3的各式功能。马斯克在直播演示中宣称,Grok 3在包括AIME(测试现象在数学问题上的发达)和GPQA(测试模子在博士级物理、生物和化学问题上的发达)在内的基准测试中打败了通盘的市面上通盘模子。
马斯克似乎也并非在打“诳语”。从AI基准测试绽放平台lmarena.ai放出的截图看,测试数据夸耀,早期版块的Grok 3(代号chocolate)在Arena排名榜上拿下了第一,吊打其他主流AI大模子,而且,Grok 3如故第一个得到升迁1400分的模子。
然而,灵验户在不雅看发布会后指出,Grok 3给出的对于《放逐之路2》游戏的论断失误频出,另灵验户测试发现,Grok 3在经典的多边形小球编程问题上也出现了失误。
OpenAI聚拢首创东谈主Andrej Karpathy也在发布会后放出了我方的感念。他觉得,就现在片霎上手的体验而言,Grok 3 + Thinking嗅觉与ChatGPT的o1-pro差未几,略好于DeepSeek-R1和谷歌的Gemini 2.0 Flash Thinking。
拿下Arena榜单第一!Grok 3是首个超1400分的模子
早在2024年7月,马斯克在与乔丹·彼得森的访谈节目时就默示,Grok 3展望将在2024年12月底发布。但到了年底,这个情愿并莫得终了,一度有东谈主怀疑这只不外是马斯克无数个大饼中的其中一个,Grok 3粗略驴年马月。
不外,在上周的迪拜峰会上,马斯克却片刻通知,xAI将在一到两周内推出新一代AI模子Grok 3,而这个模子的强猛进程,用他的话说,“强到让东谈主感到发怵”。马斯克以至预言这可能是“临了一次有AI比Grok更优秀”。
从xAI在直播中放出的基准测试成果来看,Grok 3在数学、科学和编程领域的发达大幅发轫于市面上其他主流的AI模子。
在数学才能测试(AIME'24)中,Grok 3得到52分,显然升迁DeepSeek-V3的39分和GPT-4o的9分;在科学学问评估(GPQA)中,Grok 3以75分的收获发轫,而DeepSeek-V3和GPT-4o的得分分歧为65分和50分;在编程才能测试(LCB Oct-Feb)中,Grok 3相通以57分升迁DeepSeek-V3的36分合GPT-4o的34分。

图片开始:xAI
在推理模子的相比中,Grok 3 Reasoning Beta也驯服了OpenAI的o3-mini、DeepSeek的R1和Gemini-2 Flash Thinking等推理模子。不外,演示团队默示允许Grok去进行更万古刻的想考和推理。

图片开始:xAI
AI基准测试绽放平台lmarena.ai也爆出猛料,最新测试数据夸耀,早期版块的Grok 3(代号chocolate)在流程约8000次投票后,在Arena排名榜上拿劣等一。

图片开始:X
lmarena.ai称,Grok 3是第一个恣虐了1400分的模子,而且在通盘分类中齐排名第一,而这一里程碑以后会越来约难以实现。

图片开始:X
三个月数据中心容量翻倍至20万块GPU
和DeepSeek从期间层濒临模子进行改良不同,马斯克的新模子如故属于“自便出名胜”。
此前有新闻报谈,马斯克组建了一个配有十万块H100 GPU的、寰宇上最大的超等盘算机集群Colossus来匡助检会Grok模子。在这次直播中,马斯克流露,骨子上,到检会进行到92天时,股票融资集群的规模如故扩大到了20万块GPU。

图片开始:xAI
也难怪有东谈主说Grok 3是终极的Scaling Law测试了,是靠吞吃算力检会起来的怪物。
演示团队为了使群众更直不雅地了解Grok 3的弘大之处,还演示了物理学和游戏的例子。
发轫,条目Grok 3生成一段代码绘制从地球放射火箭,降落在火星,然后不才一个放射窗口复返地球的三维动绘画表。这一任务触及多数的数学和物理盘算,极具挑战性。Grok 3很快生成了齐全的动画,商酌东谈主员在检查后默示成果总计正确。

图片开始:xAI
之后,演示团队又条目Grok编写一个陆续俄罗斯方块和对持迷城的游戏,Grok也告成完成了任务。
除了基本的模子才能除外,Grok 3也具备智能体功能。
xAI为Grok 3成就了一个访佛于OpenAI的DeepSearch智能体。DeepSearch不错对互联网进行全面搜索,并为用户提供刺眼的整合申诉。马斯克默示,这不错省下你几十次谷歌搜索的时刻,而公司将得到几十亿好意思元的答复。
OpenAI 聚拢首创东谈主:Grok 3 + Thinking与o1-pro差未几,略好于DeepSeek-R1
在演示团队的展示中,Grok 3似乎无所不可,拳打OpenAI,脚踢Deepseek,果决站上寰宇AI模子的巅峰,但有些不雅看了演示和迫不足待体验了Grok 3的用户却发现了一些奇怪的问题。
在发布会中,为了演示DeepSearch功能,演示团队就马斯克最近在玩的游戏《放逐之路2》商议了一个相关问题。有游戏博主看后默示,Grok 3给出的游戏论断失误频出,嗅觉不如马斯克宣称的那么聪惠。

图片开始:哔哩哔哩
有特意直播该游戏的游戏博主也对《逐日经济新闻》记者默示,Grok 3给出的谜底没一个是对的,不如GPT。
另外,灵验户体验了Grok 3的编程功能,随后也默示,Grok 3的编程才能并不是很弘大。在经典的多边形小球编程问题上,Grok 3出现了失误。

图片开始:X
OpenAI聚拢首创东谈主Andrej Karpathy算作为数未几的提前拿到测试经验的东谈主,也在发布会后放出了我方的感念。他觉得,就现在片霎上手的体验而言,Grok 3 + Thinking嗅觉与ChatGPT的o1-pro差未几,略好于DeepSeek-R1和谷歌的Gemini 2.0 Flash Thinking。
Karpathy默示,Grok 3显然有一个首先进的想维模子,而且在卡坦岛假寓者问题上作念得很好。很少有模子能够可靠作念到这少量。顶级的OpenAI推理模子(如o1-pro,月订阅费为200好意思元)也能作念到这少量,但DeepSeek-R1、Gemini 2.0 Flash Thinking和Claude的通盘模子齐没观点作念到。
但Grok 3并莫得惩办“神采记号之谜”问题,即使以Rust代码的体式给出了筹划奈何解码它的激烈教唆。而在这点上,Karpathy称其见过的最猛进展来自DeepSeek-R1,它也曾部明白码了音书。
此外,Karpathy觉得,DeepSearch大要即是Perplexity DeepResearch的产物,但还莫得达到OpenAI最近发布的“深度商酌”的水平。
不外,他同期也指出,探讨到xAI团队在大要在1年前从新启动,这是相配令东谈主难以置信的,达到首先进领域的时刻跨度是前所未有的。现在得出齐全论断还为时过早,需要在在接下来的几天/几周内恭候更多的评估。
- 2025/02/23乌军方称垂危俄军事和动力基础步调 俄方暂无回答
- 2025/02/2320万张GPU“烧出”地表最强 AI?马斯克的Grok 3超1400分登顶排名榜 OpenAI聚拢首
- 2025/02/21【财经分析】糟践疲软 日本经济2024年复苏乏力
- 2025/02/21韩国:已暂停DeepSeek下载!酬酢部复兴
- 2025/02/20大众解读:中国发力鼓舞城中村“再芳华”