前言:
Anthropic声称其每隔几个月就会对Claude发布一次重大版本的更新。距离今年3月份Claude3发布,已经又过去了3个多月的时间。果不其然,6月21日Anthropic 在X上正式官宣发布全新大模型 Claude3.5 Sonnet,号称它能够碾压GPT4o,是迄今为止最智能的模型。毫无疑问,经过大家几天的测试和体验,它的模型能力确确实实称得上是头部大模型的Top1。但是今天我们要讲的是Claude3.5 Sonnet吹嘘的其在应用程序开发上的能力,实际上并没有那么厉害。关于这个能力具体是什么,后文将会给大家揭晓。但我想表达的是“这个能力”其实早在半年前国内就已经有平台实现了,甚至这个平台的能力甩开了Claude3.5 Sonnet好几条街。
关于Claude3.5 Sonnet这里还是给大家简单的介绍一下,
(ps:给后面惊艳到你的国产平台铺垫一下~)
首先Claude3.5 Sonnet是 Claude3.5系列中的第一个模型,与Claude3.0一样,3.5也有大杯、中杯小杯三个等级。
Claude3.5 Sonnet正是3.5系列中的中杯,但是不要小看了这个中杯,Claude3.5 Sonnet的能力已经超越了3.0的大杯。
所以这里咱可以浅浅期待一手,Claude3.5 Opus(大杯)的效果。据说在未来的几个月内Anthropic就会陆续发布小杯,和大杯这两个版本。
如上图这是Anthropic官方发布的对Claude3.5 Sonnet基准测试结果。
从结果上来看,Claude3.5 Sonnet 在研究生水平推理 (GPQA)、本科水平知识 (MMLU) 和编码能力 (HumanEval) 三个主流基准测试中,打破了行业的记录,全面领先GPT-4o。
另外,与前代产品的提升就更不用多说了,在内部测试中Claude3.5 Sonnet解决了 64% 的错误代码问题,而 Claude 3 Opus 仅解决了 38% 的问题。
Model_Card_Claude_3_Addendum.pdf (anthropic.com)
这是Claude3.5与3的内部代码能力评估测试,感兴趣的小伙伴可以去看一下。
那接下来就是重点要讲的内容了,Anthropic在Claude3.5更新的官方公告中,特别强调了Claude 3.5 Sonnet 可以独立编写、编辑和执行代码(划重点),并具有复杂的推理和故障排除功能。
在这次更新中Claude3.5推出了一个新的功能Artifacts。简单来说就是一个动态的空间,用户在Claude3.5 Sonnet上的所有交互内容都可以在窗口上体现出来。也就是说现在可以在Claude 3.5 Sonnet上直接生成应用程序。
Claude3.5
视频中演示的应用程序,就是通过Claude3 Sonnet自动化生成的。
这个应用是一个可视化的办公桌显示屏调节的应用,看视频中的演示效果还是比较不错的。
而这样的效果,其实国内有平台在半年前就已经做到了,甚至效果比Claude3.5 Sonnet还要炸裂。
下面我们就用同一个应用程序的开发需求,来对比Claude3.5 Sonnet和国内的这个平台。
目前在Sonnet上还没有集成Python解释器,所以用React语言来表达我们的需求
需求描述:“你能用React语言,帮我开发一个MIS 项目信息管理系统吗?让我可以直接用鼠标进行控制。信息管理系统中具体想要的功能有:1. 项目信息表 关键词: 项目名称 项目描述 项目经理 项目状态开始日期 结束日期 2. 任务管理表 关键词: 任务名称 任务描述 负责人 优先级任务状态实际开始日期 实际结束日期 依赖任务 3. 进度跟踪表 关键词:任务名称 进度百分比 完成情况 更新日期 更新人 4. 成本管理表 关键词: 成本项名称 费用类型 预计费用 实际费用 5. 风险管理表 关键词: 风险名称 风险描述 风险等级 应对措施 责任人”
在提出了这个应用开发的需求之后,Sonnet就直接打开了Artifacts窗口,开始了编写代码
代码编写好之后, Sonnet就会自动执行刚才生成的代码。但是这里可以看到因为缺少组件,没有办法进行渲染,所以程序运行失败了。
后面我又换了一种方式来重新表达了我的需求
需求描述:“你可以帮我创建一个Html版本的吗?要可以运行的,我能用鼠标进行点击操作。”
提出新的需求之后,Sonnet还是会先调用Artifacts功能,然后编写代码,自动运行程序。
这里可以看到将React语言调整为html语言之后程序就开发成功了。
sonnet演示
但是在实际使用的过程中发现,部分icon点击之后没有触发效果,无法添加项目信息,且一般MIS中的基本功能也没有具备。
似乎不像是一个完整的程序,更像是一个模版?
可能是我的需求表达的不够清晰的原因,但总的来说Sonnet还是把这个应用做出来了。
那接下来就试一下在国产平台上用同样的需求看看效果如何?
需求描述:“你可以帮我开发一个MIS 项目信息管理系统吗?让我可以直接用鼠标进行控制。信息管理系统中具体想要的功能有:1. 项目信息表 关键词: 项目名称 项目描述 项目经理 项目状态开始日期 结束日期 2. 任务管理表 关键词: 任务名称 任务描述 负责人 优先级任务状态实际开始日期 实际结束日期 依赖任务 3. 进度跟踪表 关键词:任务名称 进度百分比 完成情况 更新日期 更新人 4. 成本管理表 关键词: 成本项名称 费用类型 预计费用 实际费用 5. 风险管理表 关键词: 风险名称 风险描述 风险等级 应对措施 责任人。”
在对话中输入我们的需求之后,平台的AI会直接根据需求提供一个针对性的解决方案。
在图中可以看到AI提供了一个MIS的解决方案。
选择好解决方案之后,AI竟然反馈让我们选择一下配置管理系统登录的方式
(ps:太震惊了,竟然还从产品完整性的角度来帮我们对应用的功能进行了优化!)
选择完登录方式之后,AI就直接把数据结构开发好了, 点开详情还可以查看具体的内容。
确定无误之后,我就直接点击提交了,然后AI就马不停蹄地去开发应用了。
等了不到2分钟,AI就直接在对话框中提示应用已经开发好了,可以去体验了。
来看一下应用的实际体验效果吧,非常炸裂,刚才需求中的所有功能全都实现了,并且所有的icon都可以进行交互。
码上飞
也就是说在这个平台上,AI会根据文字描述的需求,针对性的开发应用程序,
并且作为用户来说,没有接触到任何与代码相关的内容,所有的开发环节都是AI自己完成的。
对于小白,或者不懂软件开发的人来说简直就是王炸。
那拥有如此炸裂效果的平台到底是啥呢?
别急,我来揭晓答案。
这个平台是国内首家文生软件平台码上飞CodeFlying
码上飞 CodeFlying | AI 智能软件开发平台!
码上飞基于软件开发和大模型技术,通过对多种领域模型进行协作编排,并将 LLM 和 DevOps 工具链相结合,实现了从自然语言需求到可工作软件的自动生成。
从根本上领先于传统AI只能生成代码,辅助开发的模式。
这个平台的背后是具有北大背景的人工智能团队,团队成员在软件开发行业深耕了多年,拥有丰富的经验,并于半年前发布了这款产品。
测试完毕,总结一下,Claude3.5 Sonnet发布确实很炸裂,直接打造了大模型行业的新标杆。新功能Artifacts也很不错,创新了用户与大模型语言交互的方式。
但是在代码编写与生成可运行的应用程序上效果可能还需要考究一下(仅限于刚才的测试)。就本文测试的案例来看,在生成“复杂的项目信息管理系统”的这个软件上,确实不如国产文生软件平台码上飞CodeFlying。
Artifacts更多的是具有play的属性,而CodeFlying则是从解决真实需求和问题的角度生成应用。
效果我们姑且不论,就从时间维度上来看,码上飞早在半年前就已经推出了,而Claude3.5 Sonnet的Artifacts功能直到前几天才发布。
更不用谈Claude背后团队Anthropic所拥有的庞大资金与团队支撑。以ChatGPT Claude等为代表的大模型,几乎占据了全球AIGC市场的半壁江山。
我觉得我们还是有必要支持国人自己研发的平台,毕竟科技才是创新的唯一动力,而创新则是引领中国发展的第一动力。
未来码上飞CodeFlying,还会不断的丰富和拓展应用开发的场景,控制好产品的每一个细节,让码上飞成为AI软件开发领域的代名词!