导航:首页>> 最新资讯>> 谷歌新Gemini AI模型在基准测试中击败GPT-4o

谷歌新Gemini AI模型在基准测试中击败GPT-4o

393天前 57 技术

作者:Tristan Greene,CoinTelegraph;编译:陶朱,金色财经

生成式人工智能基准测试领域又出现了一位新霸主,它的名字是 Gemini 1.5 Pro。

之前的冠军 OpenAI 的 ChatGPT-4o 终于在 8 月 1 日被超越,当时谷歌悄然发布了其最新模型的实验版本。

Gemini 的最新更新没有大张旗鼓地发布,目前被标记为实验性的。但它很快引起了社交媒体上人工智能社区的关注,因为有报道称它在基准测试分数上超越了竞争对手。

人工智能基准

自 GPT-3 发布以来,OpenAI 的 ChatGPT 一直是生成式 AI 的标杆。过去一年左右,其最新模型 GPT-4o 和最接近的竞争对手 Anthropic 的 Claude-3 在大多数常见基准测试中都遥遥领先于大多数其他模型,几乎没有遇到任何竞争对手。

joLFxVORsiw7ebQNskYsq6svnXEnsKu4FYrunFjb.jpeg

来源:大型模型系统组织。

最受欢迎的基准测试之一是 LMSYS Chatbot Arena。它测试各种任务的模型并分配总体能力分数。GPT-4o 的得分为 1,286,而 Claude-3 获得了可观的 1,271 分。

Gemini 1.5 Pro 的先前版本得分为 1,261。但 8 月 1 日发布的实验版本 (Gemini 1.5 Pro 0801) 得分高达 1,300。

这表明它总体上比竞争对手更强大,但基准测试并不一定能准确反映 AI 模型能做什么和不能做什么。

社区兴奋

在没有更深入的比较的情况下,我们正进入一个 AI 聊天机器人市场已经足够成熟,可以提供多种选择的时代。最终由用户来决定哪种 AI 模型最适合他们。

据传,Gemini 的最新版本引起了一波兴奋,社交媒体上的用户称它“非常好”。一位 Redditor 甚至写道,它“完全胜过 4o”。

目前尚不清楚 Gemini 1.5 Pro 的实验版本是否会成为未来的默认版本。虽然截至本文发表时,它仍然普遍可用,但它处于早期发布或测试阶段这一事实表明,出于安全或协调原因,该模型可能会被撤销或更改。

登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

最新快讯
来源:jinse
时间:2025-07-18 13:03:00
金色财经报道,Four.meme发布公告称,每月平台费用收入的一部分将用于战略性地购买通过该平台推出的高潜力代币,并为优秀项目提供流动性和营销支持。所有购买行为都将通过公开共享的交易ID透明地记录。F...
来源:jinse
时间:2025-07-18 13:02:06
金色财经报道,据链上分析师 Onchain Lens(@OnchainLens)监测,一位交易者在HyperLiquid平台上持有价值5676万美元的以太坊(ETH)20倍杠杆空头头寸,为避免清算,该...
来源:jinse
时间:2025-07-18 12:49:00
金色财经报道,据相关页面信息,Polymarket 上特朗普会在 8 月底前尝试解雇鲍威尔的概率上升至21%。 另一方面,鲍威尔今年卸任美联储主席的概率仅为 21%。此前消息,特朗普否认起草解雇美联...
来源:jinse
时间:2025-07-18 12:48:00
金色财经报道,美国众议院共和党克服了内部的一些阻力,取消了90亿美元用于对外援助和公共广播的联邦支出。众议院于周五凌晨以216票对213票通过了特朗普政府的计划,该计划此前已获参议院通过。此次撤销支出...
来源:techflowpost
时间:2025-07-18 12:47:00
深潮 TechFlow 消息,7 月 18 日,据链上分析师 Onchain Lens(@OnchainLens)监测,一位交易者在HyperLiquid平台上持有价值5676万美元的以太坊(ETH)...
推荐阅读
作者专栏 查看更多>
金色财经
金色财经
7649
文章
702587
浏览
25908
访问
  • 交易所
  • 币种
排名 交易所 24h成交额
查看更多
行情行情 行情  平台 平台 平台 首页首页 首页 观点观点 观点   快讯  快讯 快讯