导航:首页>> 快讯>> OpenAI员工公开指责Grok3的基准测试结果具有误导性

OpenAI员工公开指责Grok3的基准测试结果具有误导性

来源: panewslab 111天前

PANews 2月23日消息,据金十报道,近日,OpenAI的一名员工公开指责埃隆・马斯克旗下的xAI公司,称其发布的最新AI模型Grok3的基准测试结果具有误导性。对此,xAI的联合创始人伊戈尔・巴布什金(Igor Babushkin)则坚称公司并无不当。xAI的图表显示,Grok3的两个版本——Grok3 Reasoning Beta和Grok3 mini Reasoning——在AIME 2025上的表现超过了OpenAI当前最强的可用模型o3-mini-high。然而,OpenAI的员工很快在X平台上指出,xAI的图表并未包含o3-mini-high在“cons@64”条件下的AIME 2025得分。巴布什金在X平台上辩称,OpenAI过去也曾发布过类似的误导性基准测试图表。尽管这些图表是用于比较其自身模型的表现。

利好
利空
最新快讯
来源:techflowpost
时间:2025-06-15 05:33:52
深潮 TechFlow 消息,6 月 10 日,据 Axios 报道,Web3 安全公司 Hypernative 完成 4000 万美元 B 轮融资,Ten Eleven Ventures 和 Bal...
来源:techflowpost
时间:2025-06-15 05:33:36
深潮 TechFlow 消息,6 月 10 日,据金十数据报道,金时科技公告称,公司关注到近期市场对稳定币概念关注度较高。公司在 2025 年 1 月与蚂蚁数科签署了关于新能源业务领域方面的《合作框架...
来源:techflowpost
时间:2025-06-15 05:31:51
深潮 TechFlow 消息,6 月 10 日,据金十数据报道,嘉楠科技 5 月份比特币产量增长 25%,达到 109 枚。
来源:techflowpost
时间:2025-06-15 05:31:44
深潮 TechFlow 消息,6 月 10 日,Bitget 联合慢雾与 Elliptic 发布「2025全球加密反欺诈趋势报告」,系统梳理了 2024 至 2025 年初加密行业常见的欺诈手法。报告...
来源:techflowpost
时间:2025-06-14 23:35:09
深潮 TechFlow 消息,6 月 10 日,手机 Meme 交易所大金狗(DJ.DOG)首个公开测试版今日发布,现已适配 iOS 26。 大金狗是一款用户自托管的链上交易产品,用户自行加密托管私...
最新文章
最新资讯 查看更多>
  • 交易所
  • 币种
排名 交易所 24h成交额
1 BinanceBinance ¥1,527.57 亿
2 BybitBybit ¥576.23 亿
3 Coinbase ExchangeCoinbase Exchange ¥71.57 亿
4 OKXOKX ¥519.71 亿
5 UpbitUpbit ¥77.13 亿
6 KrakenKraken ¥43.20 亿
7 BitgetBitget ¥494.79 亿
8 RaydiumRaydium ¥11.50 亿
9 BitfinexBitfinex ¥6.09 亿
10 Uniswap v2Uniswap v2 ¥3.72 亿
查看更多
行情行情 行情  平台 平台 平台 首页首页 首页 观点观点 观点   快讯  快讯 快讯