导航:首页>> 最新资讯>> 马斯克发布Grok3:多项测试超DeepSeek 展现竞争力

马斯克发布Grok3:多项测试超DeepSeek 展现竞争力

161天前 198 技术

来源:AI范儿

xAI今日发布新一代大语言模型Grok-3及其精简版Grok-3 mini。最新基准测试显示,Grok-3在与DeepSeek的直接对比中展现出显著优势。

在数学能力测试(AIME'24)中,Grok-3获得52分,明显超过DeepSeek-V3的39分。科学知识评估(GPQA)方面,Grok-3以75分的成绩领先,而DeepSeek-V3为65分。在编程能力测试(LCB Oct-Feb)中,Grok-3同样以57分超过DeepSeek-V3的36分。

最新公布的AIME 2025性能测试中,Grok-3 Reasoning Beta版本在推理和计算时间复合评分上取得93分的优异成绩,其精简版本Grok-3 mini也达到了90分。相比之下,DeepSeek-R1的得分为75分,而Gemini-2 Flash Thinking仅为54分。这一结果进一步凸显了Grok-3在复杂数学推理和计算效率方面的突出优势。

特别值得注意的是,DeepSeek近期发布的DeepSeek-R1在其他推理能力测试中也未能赶超Grok-3。在数学推理中,Grok-3获得93分,DeepSeek-R1为73分;科学推理中,Grok-3得分85分,DeepSeek-R1为74分;编程推理中,Grok-3达到79分,而DeepSeek-R1为65分。

此外,在LMSYS聊天机器人竞技场评估中,Grok-3的得分约为1400分,不仅超过了DeepSeek系列,也领先于其他主流大模型,包括GPT-4、Claude等。

这些数据表明,尽管DeepSeek在过去几个月展现出强劲的发展势头,但Grok-3的整体性能仍然保持领先地位。特别是在数学推理和计算效率方面的优势更为明显,这不仅体现了xAI在模型研发上的技术实力,也显示出AI领域竞争的白热化程度。

登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

最新快讯
来源:jinse
时间:2025-07-18 13:03:00
金色财经报道,Four.meme发布公告称,每月平台费用收入的一部分将用于战略性地购买通过该平台推出的高潜力代币,并为优秀项目提供流动性和营销支持。所有购买行为都将通过公开共享的交易ID透明地记录。F...
来源:jinse
时间:2025-07-18 13:02:06
金色财经报道,据链上分析师 Onchain Lens(@OnchainLens)监测,一位交易者在HyperLiquid平台上持有价值5676万美元的以太坊(ETH)20倍杠杆空头头寸,为避免清算,该...
来源:jinse
时间:2025-07-18 12:49:00
金色财经报道,据相关页面信息,Polymarket 上特朗普会在 8 月底前尝试解雇鲍威尔的概率上升至21%。 另一方面,鲍威尔今年卸任美联储主席的概率仅为 21%。此前消息,特朗普否认起草解雇美联...
来源:jinse
时间:2025-07-18 12:48:00
金色财经报道,美国众议院共和党克服了内部的一些阻力,取消了90亿美元用于对外援助和公共广播的联邦支出。众议院于周五凌晨以216票对213票通过了特朗普政府的计划,该计划此前已获参议院通过。此次撤销支出...
来源:techflowpost
时间:2025-07-18 12:47:00
深潮 TechFlow 消息,7 月 18 日,据链上分析师 Onchain Lens(@OnchainLens)监测,一位交易者在HyperLiquid平台上持有价值5676万美元的以太坊(ETH)...
推荐阅读
作者专栏 查看更多>
金色财经
金色财经
7649
文章
563459
浏览
21962
访问
  • 交易所
  • 币种
排名 交易所 24h成交额
1 BinanceBinance ¥1,527.57 亿
2 BybitBybit ¥576.23 亿
3 Coinbase ExchangeCoinbase Exchange ¥71.57 亿
4 OKXOKX ¥519.71 亿
5 UpbitUpbit ¥77.13 亿
6 KrakenKraken ¥43.20 亿
7 BitgetBitget ¥494.79 亿
8 RaydiumRaydium ¥11.50 亿
9 BitfinexBitfinex ¥6.09 亿
10 Uniswap v2Uniswap v2 ¥3.72 亿
查看更多
行情行情 行情  平台 平台 平台 首页首页 首页 观点观点 观点   快讯  快讯 快讯