关于Claude3.5-Sonnet引以为傲的功能,在半年前就被某国产平台无情碾压的那档事!

前言:

Anthropic声称其每隔几个月就会对Claude发布一次重大版本的更新。距离今年3月份Claude3发布,已经又过去了3个多月的时间。果不其然,6月21日Anthropic 在X上正式官宣发布全新大模型 Claude3.5 Sonnet,号称它能够碾压GPT4o,是迄今为止最智能的模型。毫无疑问,经过大家几天的测试和体验,它的模型能力确确实实称得上是头部大模型的Top1。但是今天我们要讲的是Claude3.5 Sonnet吹嘘的其在应用程序开发上的能力,实际上并没有那么厉害。关于这个能力具体是什么,后文将会给大家揭晓。但我想表达的是“这个能力”其实早在半年前国内就已经有平台实现了,甚至这个平台的能力甩开了Claude3.5 Sonnet好几条街。


 关于Claude3.5 Sonnet这里还是给大家简单的介绍一下,

(ps:给后面惊艳到你的国产平台铺垫一下~)

首先Claude3.5 Sonnet是 Claude3.5系列中的第一个模型,与Claude3.0一样,3.5也有大杯、中杯小杯三个等级。

Claude3.5 Sonnet正是3.5系列中的中杯,但是不要小看了这个中杯,Claude3.5 Sonnet的能力已经超越了3.0的大杯。

所以这里咱可以浅浅期待一手,Claude3.5 Opus(大杯)的效果。据说在未来的几个月内Anthropic就会陆续发布小杯,和大杯这两个版本。

 

如上图这是Anthropic官方发布的对Claude3.5 Sonnet基准测试结果。

从结果上来看,Claude3.5 Sonnet 在研究生水平推理 (GPQA)、本科水平知识 (MMLU) 和编码能力 (HumanEval) 三个主流基准测试中,打破了行业的记录,全面领先GPT-4o。

另外,与前代产品的提升就更不用多说了,在内部测试中Claude3.5 Sonnet解决了 64% 的错误代码问题,而 Claude 3 Opus 仅解决了 38% 的问题。

Model_Card_Claude_3_Addendum.pdf (anthropic.com)

这是Claude3.5与3的内部代码能力评估测试,感兴趣的小伙伴可以去看一下。

那接下来就是重点要讲的内容了,Anthropic在Claude3.5更新的官方公告中,特别强调了Claude 3.5 Sonnet 可以独立编写、编辑和执行代码(划重点),并具有复杂的推理和故障排除功能。

在这次更新中Claude3.5推出了一个新的功能Artifacts。简单来说就是一个动态的空间,用户在Claude3.5 Sonnet上的所有交互内容都可以在窗口上体现出来。也就是说现在可以在Claude 3.5 Sonnet上直接生成应用程序。

Claude3.5

视频中演示的应用程序,就是通过Claude3 Sonnet自动化生成的。

这个应用是一个可视化的办公桌显示屏调节的应用,看视频中的演示效果还是比较不错的。

而这样的效果,其实国内有平台在半年前就已经做到了,甚至效果比Claude3.5 Sonnet还要炸裂。

下面我们就用同一个应用程序的开发需求,来对比Claude3.5 Sonnet和国内的这个平台。

目前在Sonnet上还没有集成Python解释器,所以用React语言来表达我们的需求 

需求描述:“你能用React语言,帮我开发一个MIS 项目信息管理系统吗?让我可以直接用鼠标进行控制。信息管理系统中具体想要的功能有:1. 项目信息表 关键词: 项目名称 项目描述 项目经理 项目状态开始日期 结束日期 2. 任务管理表 关键词: 任务名称 任务描述 负责人 优先级任务状态实际开始日期 实际结束日期 依赖任务 3. 进度跟踪表 关键词:任务名称 进度百分比 完成情况 更新日期 更新人 4. 成本管理表 关键词: 成本项名称 费用类型 预计费用 实际费用 5. 风险管理表 关键词: 风险名称 风险描述 风险等级 应对措施 责任人”

在提出了这个应用开发的需求之后,Sonnet就直接打开了Artifacts窗口,开始了编写代码

代码编写好之后, Sonnet就会自动执行刚才生成的代码。但是这里可以看到因为缺少组件,没有办法进行渲染,所以程序运行失败了。

后面我又换了一种方式来重新表达了我的需求

需求描述:“你可以帮我创建一个Html版本的吗?要可以运行的,我能用鼠标进行点击操作。”

 

 提出新的需求之后,Sonnet还是会先调用Artifacts功能,然后编写代码,自动运行程序。

这里可以看到将React语言调整为html语言之后程序就开发成功了。

sonnet演示

但是在实际使用的过程中发现,部分icon点击之后没有触发效果,无法添加项目信息,且一般MIS中的基本功能也没有具备。

似乎不像是一个完整的程序,更像是一个模版?

可能是我的需求表达的不够清晰的原因,但总的来说Sonnet还是把这个应用做出来了。

那接下来就试一下在国产平台上用同样的需求看看效果如何?

需求描述:“你可以帮我开发一个MIS 项目信息管理系统吗?让我可以直接用鼠标进行控制。信息管理系统中具体想要的功能有:1. 项目信息表 关键词: 项目名称 项目描述 项目经理 项目状态开始日期 结束日期 2. 任务管理表 关键词: 任务名称 任务描述 负责人 优先级任务状态实际开始日期 实际结束日期 依赖任务 3. 进度跟踪表 关键词:任务名称 进度百分比 完成情况 更新日期 更新人 4. 成本管理表 关键词: 成本项名称 费用类型 预计费用 实际费用 5. 风险管理表 关键词: 风险名称 风险描述 风险等级 应对措施 责任人。”

在对话中输入我们的需求之后,平台的AI会直接根据需求提供一个针对性的解决方案。

在图中可以看到AI提供了一个MIS的解决方案。

选择好解决方案之后,AI竟然反馈让我们选择一下配置管理系统登录的方式

(ps:太震惊了,竟然还从产品完整性的角度来帮我们对应用的功能进行了优化!)

选择完登录方式之后,AI就直接把数据结构开发好了, 点开详情还可以查看具体的内容。

 确定无误之后,我就直接点击提交了,然后AI就马不停蹄地去开发应用了。

等了不到2分钟,AI就直接在对话框中提示应用已经开发好了,可以去体验了。 

来看一下应用的实际体验效果吧,非常炸裂,刚才需求中的所有功能全都实现了,并且所有的icon都可以进行交互。

码上飞

也就是说在这个平台上,AI会根据文字描述的需求,针对性的开发应用程序,

并且作为用户来说,没有接触到任何与代码相关的内容,所有的开发环节都是AI自己完成的。

对于小白,或者不懂软件开发的人来说简直就是王炸。

那拥有如此炸裂效果的平台到底是啥呢?

别急,我来揭晓答案。

这个平台是国内首家文生软件平台码上飞CodeFlying

码上飞 CodeFlying | AI 智能软件开发平台!

码上飞基于软件开发和大模型技术,通过对多种领域模型进行协作编排,并将 LLM 和 DevOps 工具链相结合,实现了从自然语言需求到可工作软件的自动生成。

从根本上领先于传统AI只能生成代码,辅助开发的模式。

这个平台的背后是具有北大背景的人工智能团队,团队成员在软件开发行业深耕了多年,拥有丰富的经验,并于半年前发布了这款产品。


测试完毕,总结一下,Claude3.5 Sonnet发布确实很炸裂,直接打造了大模型行业的新标杆。新功能Artifacts也很不错,创新了用户与大模型语言交互的方式。

但是在代码编写与生成可运行的应用程序上效果可能还需要考究一下(仅限于刚才的测试)。就本文测试的案例来看,在生成“复杂的项目信息管理系统”的这个软件上,确实不如国产文生软件平台码上飞CodeFlying。

Artifacts更多的是具有play的属性,而CodeFlying则是从解决真实需求和问题的角度生成应用。

效果我们姑且不论,就从时间维度上来看,码上飞早在半年前就已经推出了,而Claude3.5 Sonnet的Artifacts功能直到前几天才发布。

更不用谈Claude背后团队Anthropic所拥有的庞大资金与团队支撑。以ChatGPT Claude等为代表的大模型,几乎占据了全球AIGC市场的半壁江山。

我觉得我们还是有必要支持国人自己研发的平台,毕竟科技才是创新的唯一动力,而创新则是引领中国发展的第一动力。

未来码上飞CodeFlying,还会不断的丰富和拓展应用开发的场景,控制好产品的每一个细节,让码上飞成为AI软件开发领域的代名词!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/35642.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端Web开发HTML5+CSS3+移动web视频教程 Day1

链接 HTML 介绍 写代码的位置:VSCode 看效果的位置:谷歌浏览器 安装插件 open in browser: 接下来要保证每次用 open in browser 打开的是谷歌浏览器。只需要将谷歌浏览器变为默认的浏览器就可以了。 首先进入控制面板,找到默…

Windows11环境下安装Vmware Workstation 16的方法

1、下载VMWare 从网盘下载 https://pan.baidu.com/share/init?surlUpcnqiRv6nUuzO0EOZ22zg 提取码:8888 2、安装VMware虚拟机   第1步:双击上面准备好的Vmware Workstation 16虚拟机软件安装包,即可看到如图所示的安装向导初始界面&#x…

编程设计思想

健康检查脚本 nmap:扫描端口 while true do healthycurl B:httpPORT/healthy -i | grep HTTP/1.1 | tail -n 1 | awk {print $2} done 批量操作类型脚本(记录每一步日志) 将100个nginx:vn推送到harbor仓库192.168.0.100 根据镜像对比sha值…

数据中心网络100GbE发展趋势

100G光产品的技术突破不断满足超大规模数据中心的需求。5G的发展使许多行业能够实现高数据吞吐量和低延迟。从2017年至今,不少企业已经升级到100G数据中心网络,进而追求400G/800G网络。与此同时,其他小型数据中心已逐渐升级至100G。 是什么推…

安装与配置:MySQL的环境搭建之旅(二)

目录 引言:从理论到实践的跨越 一、安装MySQL:跨平台的便捷指南 Windows环境 Linux环境 macOS环境 二、基本配置:端口设置与字符集选择 三、从零到一的蜕变 引言:从理论到实践的跨越 在前一章节《MySQL简介》中&#xff0c…

【efinix】efinity如何安装官方补丁patch

efinix官网可以下载efinity的官方补丁。 下载 efinity-2023.2.307.5.10-windows-x64-patch.zip 解压缩补丁zip 压缩包内容 files/ : updated files to be copied into the Efinity installation run.sh : patch installation script (Linux on…

ZGC垃圾收集的主要流程

值得说明的是,在执行就地迁移时,ZGC 必须首先压缩指定为对象迁移区域内的对象,这可能会对性能产生负面影响。增加堆大小可以帮助 ZGC 避免使用就地迁移。 如上图,ZGC 的工作流程主要包括以下几个步骤: (STW…

深入理解计算机系统 CSAPP 家庭作业7.13

用一下496页提到的工具咯 A: whereis libm.a file lidm.a gedit libm.a libm.a是个ASCII text文件打开一看原来 libm-2.27.a 和libmvec.a才是我们要看的 所以我们cd到目标地址后 ar -t libm-2.27.a ar -t libmvec.a B: gcc -Og bar5.c foo5.c 用之前的两个文件链接后生成…

若依项目实战------企业人力资源管理平台

一、数据库名称规范化及建表相关 1.术语名称 1.系统名称:企业人力资源管理平台英文翻译:Enterprise Human Resource Management Platform缩写:EHR 2.员工信息管理(Employee Information Management 缩写:EIM&#…

使用API有效率地管理Dynadot域名,为文件夹更名

关于Dynadot Dynadot是通过ICANN认证的域名注册商,自2002年成立以来,服务于全球108个国家和地区的客户,为数以万计的客户提供简洁,优惠,安全的域名注册以及管理服务。 Dynadot平台操作教程索引(包括域名邮…

适用于 Windows 11 的 5 大数据恢复软件 [免费和付费]

为什么我们需要Windows 11数据恢复软件? 计算机用户经常遇到的一件事就是数据丢失,这种情况随时可能发生。错误地删除重要文件和文件夹可能会非常令人担忧,但幸运的是,有一种方法可以恢复 PC 上丢失的数据。本文将向您展示可用于…

通过Socket通信实现局域网下Amov无人机连接与数据传输

1.局域网下的通信 1.1 局域网 厂家提供的方式是通过Homer图数传工具(硬件)构建的amov局域网实现通信连接. 好处是通信距离足够长,支持150m;坏处是"局部",无法访问互联网. [IMAGE:…

经销or直营,新老车企殊途终要同归

步入2024,汽车圈的新人、老人都逐渐活成了对方的样子。 2024年5月,先后有消息传来,阿维塔要从直营模式全部转向经销模式,蔚来新发布的子品牌“乐道”未来可能考虑合作或加盟,并单独建设门店。 而就在5月1日&#xff…

Qt开发 | Qt控件 | QTabWidget基本用法 | QListWidget应用详解 | QScrollArea应用详解

文章目录 一、QTabWidget基本用法二、QListWidget应用详解1.列表模式1.1 基本操作1.2 添加自定义item1.3 如何添加右键菜单1.4 QListWidget如何删除item 2.图标模式 三、QScrollArea应用详解 一、QTabWidget基本用法 QTabWidget 是 Qt 框架中的一个类,它提供了一个选…

DM达梦数据库数学函数整理

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝&#x1f49…

欧洲杯盛宴与火伞云融合CDN:技术革新与体育盛事的完美融合

随着科技的飞速发展,体育盛事也迎来了前所未有的变革。欧洲杯,作为世界足坛的顶级赛事,吸引了全球数亿球迷的目光。而在这个信息爆炸的时代,如何确保球迷们能够流畅、高清地观看比赛,成为了各大媒体和技术公司面临的重…

shell脚本和变量

一、shell脚本 脚本就是可以运行的代码的集合,脚本语言(计算机语言)的特点是:从上到下,按行执行。 LINUX中的shell脚本是运行在shell环境中(/bin/bash),bash是shell的解释器。shel…

一文搞懂Linux多线程【下】

目录 🚩多线程代码的健壮性 🚩多线程控制 🚩线程返回值问题 🚩关于Linux线程库 🚩对Linux线程简单的封装 在观看本博客之前,建议大家先看一文搞懂Linux多线程【上】由于上一篇博客篇幅太长,为…

Java技术栈中的核心组件:Spring框架的魔力

Java作为一门成熟的编程语言,其生态系统拥有众多强大的组件和框架,其中Spring框架无疑是Java技术栈中最闪耀的明星之一。Spring框架为Java开发者提供了一套全面的编程和配置模型,极大地简化了企业级应用的开发流程。本文将探讨Spring框架的核…

打破数据分析壁垒:SPSS复习必备(八)

一、假设检验-基本概念 对总体提出一假设,然后借助样本对该假设进行检验。 原假设 H0: 在统计学中,把需要通过样本去推断正确与否的命题,称为原假设,又称零假设.它常常是根据已有资料或经过周密考虑后确定的. 备择假设H1: 与原假设对立的假设. 显著性水平(signi…