首页 手机网 财经号下载
入驻财经号 登录 客服 |
首页> 行业> 正文

“最强大模型”易主!Claude 3首超GPT-4登顶第一

财经号APP
Hawk InsightHawk Insight 2024-04-01 17:31:26 1860
分享到:

众所周知,OpenAI旗下的GPT-4是现如今世界上最顶尖的大模型(LLM),但就在本周,有关测试表明,GPT-4“霸主”的地位已经被夺走了。

这个超越GPT-4的大模型叫Claude 3。

本周,人工智能初创企业Anthropic旗下的Claude 3 Opus在Chatbot Arena(一个测试和比较不同人工智能模型有效性的网站)的最新排名中,首次超越GPT-4,位列排行榜第一。

3月初,Anthropic宣布推出Claude 3大模型系列。该系列包括三个型号,按照性能从弱到强分别是Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。而在Chatbot Arena最新的排行榜上,Claude 3系列三个大模型均闯入TOP 10。

Chatbot Arena排行榜

此前,根据Anthropic介绍,其最智能的模型Claude 3 Opus在人工智能系统的大多数常见评估基准上都优于同行,包括本科水平专家知识(MMLU)、研究生水平专家推理(GPQA)、基础数学 (GSM8K) 等。官方称:“Claude 3 Opus在复杂任务上表现出接近人类水平的理解力和流畅性。”

当时Anthropic就表示,在多项指标上,Claude 3已经展现出接近或者优于GPT-4或是Gemini 1.0的性能。此次第三方的测试结果再次佐证了Anthropic的这句话。

Chatbot Arena于去年5月推出,由大型模型系统组织(Large Model Systems Organization,简称“LMYSY Org”)创建。LMYSY Org是由加州大学伯克利分校的学生和教师创立的开放研究组织。创建Chatbot Arena的目的是帮助人工智能研究人员和专业人士了解两个不同的人工智能LLM在接受相同提示的挑战时表现如何。

Chatbot Arena是一个众包平台,这意味着任何人都可以在上面进行测试。在Chatbot Arena的聊天页面,包含了多达74种不同AI模型,包括Claude 3系列、OpenAI的GPT-4、谷歌的Gemini和Meta的Llama 2等等。

当有用户进行测试时,系统会要求用户在底部的提示框中输入问题。然后会有两个匿名模型驱动的聊天机器人来回答用户的问题,这两个模型被简单地标记为模型A和模型B。

在看完两个回答后,系统会要求用户进行评价。用户可以选择哪个更好,可以对它们进行同等评价,也可以表示两个都不喜欢。提交评分后,系统才会告诉用户刚才两个聊天机器人分别是由什么大模型来驱动的。

Chatbot Arena平台

LMYSY Org会统计网站用户提交的投票,再将总数汇总到排行榜上,显示每个LLM的表现。据了解,自推出以来,已有超过40万名用户成为Chatbot Arena的裁判,最新一轮排名又吸引了7万名用户加入。

根据最新排行榜,Claude 3 Opus共获得33,250票,第二名GPT-4-1106-preview获得54,141票。但获得的评价多,不意味着更强。为了对LLM进行评级,排行榜采用的是Elo 排名系统,这是国际象棋等游戏中常用的一种方法,衡量玩家在某些比赛中与其他玩家相比的相对实力。在使用Elo 排名系统后,Claude 3 Opus在“模型强度的置信区间”上以总分1,253在最新的排名中斩获第一,险胜GPT-4-1106-preview的1,251分。

Chatbot Arena排名

其中,在“对所有其他模型的平均胜率(假设抽样均匀且无平局)”一项上,Claude 3 Opus是唯一一个胜率过0.7的。

Chatbot Arena

在最新排名中,进入TOP 10的其他LLM包括谷歌的Gemini Pro、Mistral-large-2402和Qwen1.5-72B-Chat等。

随着GPT-4痛失第一的宝座,Claude 3系列模型均进入前10名,再加上Claude 3系列中最弱Claude 3 Haiku击败 GPT-4 0613,Anthropic随即在整个AI圈引起了轰动。

软件开发者Nick Dobos在社交媒体上发文直言道:“国王已死。安息吧,GPT-4。”他表示,Claude 3 Haiku击败 GPT-4 0613是“疯狂的”,因为“它是如此便宜和快速”。

Nick Dobos

就连LMYSY Org官方也发文称:“Claude-3 Haiku给所有人留下了深刻的印象,甚至根据我们的用户偏好达到了 GPT-4级别!其速度、功能和上下文长度目前在市场上是无与伦比的。”

LMYSY Org


财经号声明: 本文由入驻中金在线财经号平台的作者撰写,观点仅代表作者本人,不代表中金在线立场。仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。同时提醒网友提高风险意识,请勿私下汇款给自媒体作者,避免造成金钱损失,风险自负。如有文章和图片作品版权及其他问题,请联系本站。

0条评论 网友评论文明上网,理性发言

中金登录 微博登录 QQ登录

    查看更多评论

    举报此人

    X
    确认
    取消

    热门视频换一批

    温馨提示

    由于您的浏览器非微信客户端浏览器,无法继续支付,如需支付,请于微信中打开链接付款。(点击复制--打开微信--选择”自己“或”文件传输助手“--粘贴链接--打开后付款)

    或关注微信公众号<中金在线>底部菜单”名博看市“,搜索您要的作者名称或文章名称。给您带来的不便尽请谅解!感谢您的支持!

    复制链接

    鲜花打赏 X

    可用金币:0

    总支付金额:0

    您还需要支付0
    我已阅读《增值服务协议》
    确认打赏

    1鲜花=0.1元人民币=1金币    打赏无悔,概不退款

    举报文章问题 X
    参考地址

    其他问题,我要吐槽

    确定

    温馨提示

    前往财经号APP听深入解析

    取消 确认