20万张GPU“烧出”地表最强 AI？马斯克的Grok 3超1400分登顶排名榜 OpenAI聚拢首创东谈主：略强于 DeepSeek-R1

栏目分类

热点资讯

理财投资

你的位置：万隆配资 > 理财投资 >

发布日期：2025-02-23 13:25 点击次数：59

　　一度“跳票”的AI模子Grok 3终于迎来肃穆发布。

　　当地时刻2月17日晚，马斯克旗下AI公司xAI发布了Grok 3过火精简版Grok 3 mini。发布会经受视频直播体式，不雅看东谈主数升迁100万东谈主。

　　Grok 3是xAI对OpenAI的o3-mini和DeepSeek的R1等模子的复兴，它不错分析图像和回答问题，并为X上的好多功能提供扶持。前天马斯克就在X上造势称，Grok 3是“地球上最聪惠的东谈主工智能”。

图片开始：直播截图

　　在发布会上，马斯克和三位xAI的工程师通盘演示了Grok 3的各式功能。马斯克在直播演示中宣称，Grok 3在包括AIME（测试现象在数学问题上的发达）和GPQA（测试模子在博士级物理、生物和化学问题上的发达）在内的基准测试中打败了通盘的市面上通盘模子。

　　马斯克似乎也并非在打“诳语”。从AI基准测试绽放平台lmarena.ai放出的截图看，测试数据夸耀，早期版块的Grok 3（代号chocolate）在Arena排名榜上拿下了第一，吊打其他主流AI大模子，而且，Grok 3如故第一个得到升迁1400分的模子。

　　然而，灵验户在不雅看发布会后指出，Grok 3给出的对于《放逐之路2》游戏的论断失误频出，另灵验户测试发现，Grok 3在经典的多边形小球编程问题上也出现了失误。

　　OpenAI聚拢首创东谈主Andrej Karpathy也在发布会后放出了我方的感念。他觉得，就现在片霎上手的体验而言，Grok 3 + Thinking嗅觉与ChatGPT的o1-pro差未几，略好于DeepSeek-R1和谷歌的Gemini 2.0 Flash Thinking。

　　拿下Arena榜单第一！Grok 3是首个超1400分的模子

　　早在2024年7月，马斯克在与乔丹·彼得森的访谈节目时就默示，Grok 3展望将在2024年12月底发布。但到了年底，这个情愿并莫得终了，一度有东谈主怀疑这只不外是马斯克无数个大饼中的其中一个，Grok 3粗略驴年马月。

　　不外，在上周的迪拜峰会上，马斯克却片刻通知，xAI将在一到两周内推出新一代AI模子Grok 3，而这个模子的强猛进程，用他的话说，“强到让东谈主感到发怵”。马斯克以至预言这可能是“临了一次有AI比Grok更优秀”。

　　从xAI在直播中放出的基准测试成果来看，Grok 3在数学、科学和编程领域的发达大幅发轫于市面上其他主流的AI模子。

　　在数学才能测试（AIME'24）中，Grok 3得到52分，显然升迁DeepSeek-V3的39分和GPT-4o的9分；在科学学问评估（GPQA）中，Grok 3以75分的收获发轫，而DeepSeek-V3和GPT-4o的得分分歧为65分和50分；在编程才能测试（LCB Oct-Feb）中，Grok 3相通以57分升迁DeepSeek-V3的36分合GPT-4o的34分。

图片开始：xAI

　　在推理模子的相比中，Grok 3 Reasoning Beta也驯服了OpenAI的o3-mini、DeepSeek的R1和Gemini-2 Flash Thinking等推理模子。不外，演示团队默示允许Grok去进行更万古刻的想考和推理。

图片开始：xAI

　　AI基准测试绽放平台lmarena.ai也爆出猛料，最新测试数据夸耀，早期版块的Grok 3（代号chocolate）在流程约8000次投票后，在Arena排名榜上拿劣等一。

图片开始：X

　　lmarena.ai称，Grok 3是第一个恣虐了1400分的模子，而且在通盘分类中齐排名第一，而这一里程碑以后会越来约难以实现。

图片开始：X

　　三个月数据中心容量翻倍至20万块GPU

　　和DeepSeek从期间层濒临模子进行改良不同，马斯克的新模子如故属于“自便出名胜”。

　　此前有新闻报谈，马斯克组建了一个配有十万块H100 GPU的、寰宇上最大的超等盘算机集群Colossus来匡助检会Grok模子。在这次直播中，马斯克流露，骨子上，到检会进行到92天时，股票融资集群的规模如故扩大到了20万块GPU。

图片开始：xAI

　　也难怪有东谈主说Grok 3是终极的Scaling Law测试了，是靠吞吃算力检会起来的怪物。

　　演示团队为了使群众更直不雅地了解Grok 3的弘大之处，还演示了物理学和游戏的例子。

　　发轫，条目Grok 3生成一段代码绘制从地球放射火箭，降落在火星，然后不才一个放射窗口复返地球的三维动绘画表。这一任务触及多数的数学和物理盘算，极具挑战性。Grok 3很快生成了齐全的动画，商酌东谈主员在检查后默示成果总计正确。

图片开始：xAI

　　之后，演示团队又条目Grok编写一个陆续俄罗斯方块和对持迷城的游戏，Grok也告成完成了任务。

　　除了基本的模子才能除外，Grok 3也具备智能体功能。

　　xAI为Grok 3成就了一个访佛于OpenAI的DeepSearch智能体。DeepSearch不错对互联网进行全面搜索，并为用户提供刺眼的整合申诉。马斯克默示，这不错省下你几十次谷歌搜索的时刻，而公司将得到几十亿好意思元的答复。

　　OpenAI 聚拢首创东谈主：Grok 3 + Thinking与o1-pro差未几，略好于DeepSeek-R1

　　在演示团队的展示中，Grok 3似乎无所不可，拳打OpenAI，脚踢Deepseek，果决站上寰宇AI模子的巅峰，但有些不雅看了演示和迫不足待体验了Grok 3的用户却发现了一些奇怪的问题。

　　在发布会中，为了演示DeepSearch功能，演示团队就马斯克最近在玩的游戏《放逐之路2》商议了一个相关问题。有游戏博主看后默示，Grok 3给出的游戏论断失误频出，嗅觉不如马斯克宣称的那么聪惠。

图片开始：哔哩哔哩

　　有特意直播该游戏的游戏博主也对《逐日经济新闻》记者默示，Grok 3给出的谜底没一个是对的，不如GPT。

　　另外，灵验户体验了Grok 3的编程功能，随后也默示，Grok 3的编程才能并不是很弘大。在经典的多边形小球编程问题上，Grok 3出现了失误。

图片开始：X

　　OpenAI聚拢首创东谈主Andrej Karpathy算作为数未几的提前拿到测试经验的东谈主，也在发布会后放出了我方的感念。他觉得，就现在片霎上手的体验而言，Grok 3 + Thinking嗅觉与ChatGPT的o1-pro差未几，略好于DeepSeek-R1和谷歌的Gemini 2.0 Flash Thinking。

　　Karpathy默示，Grok 3显然有一个首先进的想维模子，而且在卡坦岛假寓者问题上作念得很好。很少有模子能够可靠作念到这少量。顶级的OpenAI推理模子（如o1-pro，月订阅费为200好意思元）也能作念到这少量，但DeepSeek-R1、Gemini 2.0 Flash Thinking和Claude的通盘模子齐没观点作念到。

　　但Grok 3并莫得惩办“神采记号之谜”问题，即使以Rust代码的体式给出了筹划奈何解码它的激烈教唆。而在这点上，Karpathy称其见过的最猛进展来自DeepSeek-R1，它也曾部明白码了音书。

　　此外，Karpathy觉得，DeepSearch大要即是Perplexity DeepResearch的产物，但还莫得达到OpenAI最近发布的“深度商酌”的水平。

　　不外，他同期也指出，探讨到xAI团队在大要在1年前从新启动，这是相配令东谈主难以置信的，达到首先进领域的时刻跨度是前所未有的。现在得出齐全论断还为时过早，需要在在接下来的几天/几周内恭候更多的评估。

上一篇：【财经分析】糟践疲软日本经济2024年复苏乏力
下一篇：乌军方称垂危俄军事和动力基础步调俄方暂无回答

让建站和SEO变得简单

栏目分类

热点资讯

理财投资