超越GPT-4oClaude 35一夜封王10倍编码速度逆天全网最全实测来了

时间: 2024-06-22 21:04:39 |   作者: 火狐体育官方入口

  【新智元导读】昨夜上线 Sonnet,性能直接吊打了GPT-4o,甚至价格还更便宜。网友们纷纷展开实测,有人说自己一半的工作已经可以由它替代了!而最让人惊喜的新功能,莫过于Artifacts了。

  在费用上,Sonnet处理每百万输入token仅需3美元,每百万输出token仅为15美元。

  对比之下,GPT-4o的每百万输入token收费5美元,每百万输出token为15美元,在价格上可以说是不相上下。正式对打时,各家可以说是已经都压低到了成本价。

  前OpenAI对齐团队负责人Jan Leike表示,我喜欢Sonnet新模型。我经常要求它向我解释ML论文。虽然不一定全对,但可能比我略读要好,而且速度也快得多。自动对齐研究越来越近了......

  有网友同样表示,「我有一半的工作都可以由Claude 3.5 Sonnet来完成,我真是太兴奋了」。

  Claude 3.5 Sonnet发布之后,在全网掀起轩然,网友们纷纷上手开启一波测试。

  网友仅在一次对话中,就用threejs+cannonjs创建出一个3D太阳系模型,包含了物体和碰撞效果。

  另一个网友称,使用Claude 3.5 Sonnet进行编码比GPT-4,或任何其他大型语言模型效率高10倍。全新的Artifacts功能,可以在聊天旁边生成和运行代码,简直令人惊叹。

  没有什么比使用Claude 3.5 Sonnet一次性编写一个程序,来解密维吉尼亚密码更棒的事了。

  网友表示,「我可以通过新的Artifacts功能实时查看代码并玩游戏。使用Claude的编码体验比GPT-4和Gemini好10倍」。

  不像ChatGPT,它没有用到编码解释器。在这个过程中,我们可以制作文档、笔记和其他内容,其中一个选项的html/jss。

  Claude 3.5 Sonnet是第一个能在首次尝试中,重现电影《黑客》中「数据流」3D场景的模型。

  像GPT-4o(现在还有Claude 3.5 Sonnet)这样的前沿模型,在某些方面可能达到了「聪明的高中生」的水平,但它们在像「井字棋」这样的基本任务上无法完成。

  从上文也可以看出,这次更新的一大亮点,就是Claude 3.5引入的超强实时交互功能Artifacts了。

  它标志着Claude从对话式AI向协作工作环境的转变。而在未来,Anthorpic的设想是,整个组织都能在共享空间中集中知识、文档、工作,而Claude会随时提供服务。

  在沃顿商学院教授Ethan Mollick看来,Artifacts可以说是一个简化版的代码解释器。

  大家的直观感受是,使用Claude和Artifacts,就像在IDE中工作一样。

  这位日本网友介绍说,Artifacts简单来说,就是一个显示代码预览的功能。它很容易直观地理解,可以用于多种目的。

  只要跟它说“制作一个计算器应用程序”,一个使用React的计算器应用程序预览就完成了。

  这位网友发现,这个过程中可以向Sonnet展示设计图片,它们会把这些图片用作参考。

  Claude 3.5 Sonnet不仅编码效率比GPT-4o或任何其他LLMs都高10倍,而且因为Artifacts功能可以在聊天的旁边生成并运行代码,因而可以提供令人惊叹的用户体验。

  随后,我们还可以用自然语言对游戏进行修改,比如做一个美观的背景,或者让蛇有一个化身。

  因为可以一边创建游戏,一边立刻在右侧窗口中玩这个游戏,Artifacts功能可以说是彻底贯彻了从对话式人工智能转向协同工作环境的想法。

  长期以来,Anthropic一直表明了自己主要关注企业,并且计划将Claude变成一种工具,让企业「安全地」将他们的知识、文档和正在进行的工作集中在一个共享空间中。

  听起来,这种概念更像是Notion或Slack,而不是ChatGPT。而在这种系统中,Anthropic的模型将处于总系统的中心。

  而且,在视觉方面的表现,新模型全面超越了GPT-4o。OpenAI上个月刚发布的新模型,没想到这么快被取而代之。

  在代码基准中,Claude 3.5在零样本情况下,取得了92%的成绩。在数学上,零样本+CoT加持Claude 3.5还是有些落后于GPT-4o。

  Claude不仅能准确识别、转录图像中的文字内容,还结合了强大的代码生成能力,将多个模态真正集成在一起。

  与众不同的是,Claude 3.5 Sonnet并不像GPT-4o那样集成了语音助手,或者能够生成图像,而且Anthropic暂时也没有这一打算。

  Anthropic联创兼总裁Daniela Amodei在接受彭博独家采访中提到,「我们的目标是使其成为所有企业业务的首选模型」。

  她继续称,从研究的角度来看,我们也可以生成图像输出,但绘制一只「滑雪的猫」图像并不是我们的企业客户所要求的,所以我们并不第一先考虑这一点。

  未来,模型越智能,就越有能力支持这种非常高水平的智力工作。显然,Anthropic正在努力为它想要瞄准的企业公司进一步差异化。

  可以扩展Claude交互方式的新功能Artifacts,便是一个新的尝试。

  要知道,Claude不像Gemini或ChatGPT那样受到更多关注,但它在比赛中却非常受欢迎。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。


上一篇: 《安全生产治本攻坚三年行动方案2024-2026年》全知道

下一篇: 新疆天业天能化工有限公司化工厂安排而且展开“最美工艺流程图”制作竞赛