AI程序员还是代替不了程序员,震撼硅谷的Devin-ai程序员,再度震撼硅谷——但这次是被打假

在这里插入图片描述

文章目录

    • 主要疑点包括但不限于:
    • 35年从业者逐帧验证


AI程序员还是代替不了程序员,震撼硅谷的Devin-ai程序员,再度震撼硅谷——但这次是被打假

一位油管程序员博主Internet of Bugs对Devin发布的视频进行了逐帧分析,逐一举证说明了Devin并不如演示中那般拥有程序员开发能力。

甚至有“自己现写bug然后当场修复”的骚操作。

主要疑点包括但不限于:

  1. 号称能解决任何Upwork任务,但演示中解决的问题并不是prompt要解决的那一个,做无用功;

  2. 看起来在修复bug,实际上修复的bug人类程序员根本就不会犯;

  3. 没有意识到简单两步就能解决问题,花里胡哨一顿操作,其实是自己把任务搞复杂了;

  4. 修改代码的水平一言难尽。

  5. Devin所处理的任务并非随机,而是精心挑选;与客户实际需求有很大的出入

Internet of Bugs花了半个多小时,把Devin演示视频中的upwork任务完成了一遍——而Devin完成任务可能用时6个多小时。

要知道,其背后公司Cognition AI手握10块IOI金牌的活招牌,还在推出Devin当月宣布成功融资2100万美金。

推特和YC上已经吵翻天了,让这件事的讨论度高居不下。

演示造假让demo看起来轻松达到意料之外的技术进步。

35年从业者逐帧验证

此次出来声张正义的Internet of Bugs,从事软件行业已经35年。他首先声明自己的立场:“我并不反对高科技,但我确实反对过度炒作”。

他自己也经常使用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。

此次则主要针对的是一些更为具体的说法。

比如之前Devin号称能够靠处理upwork任务来赚钱的。但在真正的演示中Devin并没有做到这一点。

不信?没关系,Internet of Bugs带着逐帧的证据来了。

总结如下:

Devin所处理的任务并非随机,而是精心挑选;

与客户实际需求有很大的出入;

实际操作过程,数次自己创造bug然后再修复;

很多毫无意义的操作,相当于几十年前在C语言中才用的方法;

首先,来到了演示视频的2.936秒处,在屏幕左上角有显示他们搜索过这个内容。因此,这不是所谓“随机”选择的任务。


再来看客户给到的具体需求。真正需求为“我想要利用这个库来进行推理。你需要提供详细的操作指南。我不想讨论完成这项工作预计需要的时间。”


但给到Devin的需求却是:我希望利用这个模型在这个库中进行推理。请自己弄明白。


最后视频末尾出现的Devin生成报告中,也没有提及客户实际需要的内容。


那么,这份工作的最终交付成果应该包括什么呢?


但Devin实际做了什么?

Devin第一次真正的尝试,是它修改了一个名为requirements.txt文件,其中规定了代码所依赖的库版本。视频中提到它正在更新代码,但实际上更像是修改配置文件。


然后根据需求,需要Devin能建立自己的推理能力,并仅需使用样例数据即可。但实际项目要比这个复杂得多。

结果很快,Devin就遇到了第一个命令行错误——打开图像失败、文件未找到、无此文件或目录等。但在光头哥实际复现时并没有出现,结果研究发现,代码仓库压根就不存在这个文件。

这相当于Devin自己创建了个bug,然后再修复bug。在接下来的操作中,Devin经历了很多次这样的“自建自修”。

不能说十分有用,只能说完全没有必要。

接下来,再来看看代码库中这样一个readme文件。正如视频所展示的那样,readme文件清晰地说明了该文件的功能和用法。在页面右侧,甚至还有一个小按钮,点击它就可以复制整条命令,然后粘贴到命令行窗口中,按下回车即可运行。

但Devin完全没能理解,而又是自创了个项目。而写的那段从缓冲区读取数据的代码十分糟糕。


于是Internet of Bugs发出了灵魂拷问:

“这不就是几十年前在C语言等中才用的方法吗???”

这种做法显然已经过时,正常人用Python谁还会再写这个代码。这种代码很难调试,它逻辑复杂,难以理解,很容易出现细微的错误。

此外,代码库中还存在一个真正的错误,但Devin既没有发现也没有修复。

然后Internet of Bugs用谷歌搜索,按照GitHub 上一条相关评论修改了代码,只花了1分07秒,问题就解决了。

最终Internet of Bugs总共花了35分55秒复现了Devin的工作,而Devin实际花了多长时间呢?

如果细看视频Demo,就会发现Devin处理工作前后有6个小时20分钟的间隔。

视频的前部分显示的是3月9日下午3:25 的时间戳,但后半部分却显示的是当天晚上9:41


而逐帧细看就有会发现一些奇怪且毫无意义的操作。

比如head -N 5 results.json | tail -N 5这个命令,它表示取这个JSON 文件的前五行,然后再取这些行的最后五行。

正确的做法应该是”head-5 results.json”。那个-N 是多余的。只要说-5就可以,不需要那些多余的东西。

最后Internet of Bugs锐评,AI现在生成的内容有很多都十分愚蠢,反倒会让事情变得更为复杂。

当看到它的任务列表时,会觉得:哇,Devin做了很多事情。但实际上可能并非如此。

网友:至少掌握了看起来很忙的技巧

对于此次Devin造假翻车,不少网友对现阶段AI产品炒作嗤之以鼻。


你对此这么看?

参考链接:
https://www.thepaper.cn/newsDetail_forward_27026926

您好,我是肥晨。
欢迎关注我获取前端学习资源,日常分享技术变革,生存法则;行业内幕,洞察先机。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/38695.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C语言】register 关键字

在C语言中,register关键字用于提示编译器将变量尽量存储在CPU的寄存器中,而不是在内存中。这是为了提高访问速度,因为寄存器的访问速度比内存快得多。使用register关键字的变量通常是频繁使用的局部变量。 基本用法 void example() {regist…

猫头虎分享[可灵AI」官方推荐的驯服指南-V1.0

猫头虎分享[可灵AI」官方推荐的驯服指南-V1.0 猫头虎是谁? 大家好,我是 猫头虎,别名猫头虎博主,擅长的技术领域包括云原生、前端、后端、运维和AI。我的博客主要分享技术教程、bug解决思路、开发工具教程、前沿科技资讯、产品评…

Git 基础-创建版本库 git init、添加到暂存区git add、查看状态git status、查看改动git diff

目录 1.创建版本库 git init 1.创建版本库 git init 在目录中创建新的 Git 仓库。 你可以在任何时候、任何目录中这么做,完全是本地化的。 在目录中执行 git init,就可以创建一个 Git 仓库了。 注意: 没事不要手动修改 .git 目录里面的文件,不…

安卓微商大师V3.4.0/高级版一键群发僵尸粉检测

一款高效获取客源,备受好评的微商工具,资源丰富,秒速获得客源,大量群客源,都是散客,携手创业,是做微商生意的首选工具。打开即是黑钻高级会员 赶快体验吧 很强大 链接:https://pan.…

Java程序设计课后习题(答案版) 期末复习

第一章 Java语言概述 一、选择题 下面哪种类型的文件可以在Java虚拟机中运行?( A ) A. class B. Java C. jre D. exe 如果JDK 的安装路径为“d:\jdk”,若想在命令窗口中任何当前路径下,都可以直接使用javac和java命令,需要将环境变量path设…

携手共筑爱的桥梁:引导接纳自闭症同学

在孩子的班级中,当自闭症儿童成为我们共同的一员时,作为老师和家长,我们肩负着特别的责任——引导孩子们以开放的心态接纳、善待并关爱他们。 首先,我们要以身作则,展现接纳与尊重。无论是老师还是家长,都…

笔记:Git学习之应用场景和使用经验

目标:整理Git工具的应用场景和使用经验 一、开发环境 Git是代码版本控制工具;Github是代码托管平台。 工具组合:VSCode Git 需要安装的软件:vscode、Git 其中vscode需要安装的插件:GitLens、Git History 二、应用…

仓库货物管理系统

摘 要 随着信息技术的迅猛发展,大数据已经成为推动各行各业变革的重要力量。特别是在物流仓储领域,大数据技术的应用不仅能够显著提升仓库货物管理的效率,还能够优化库存管理、减少成本、提高客户满意度。因此,基于大数据的仓库货…

webstorm 高效查看不同分支差异 摒弃你的git diff手动操作

背景 每次代码冲突或者版本发生异常时,排查不同版本时就是一个头大的问题,头大的点在于用 vscode 的 git diff 一点点地排查和比较,耗时耗力,版面展不开,commit 差异看不出来,每个页面的代码不同也不能快速…

2007-2023年36家商业银行绿色信贷、期末贷款总额、银行总资产等相关指标数据(2023年无缺失)

2007-2023年36家商业银行绿色信贷数据(2023年无缺失) 1.时间:2007-2023年,2023年无缺失 2.来源:银行年报和社会责任报告 3.指标:绿色信贷余额、期末贷款总额、绿色信贷比率、总资产收益率、流动性比率、拨备覆盖率、…

2002-2022年各省老年人口抚养比(人口抽样调查)数据

2002-2022年各省老年人口抚养比(人口抽样调查)数据 1、时间:2002-2022年 2、指标:老年人口抚养比 3、来源:国家统计局、统计年鉴 4、范围:31省, 5、缺失情况:无缺失,其中2010年的值取2009、…

华为 eNSP 模拟器 配置RIP实例 动态路由协议

1 实验拓扑 2 配置路由器 #R1 Huawei>sys [Huawei]sysname R1 [R1]interface GigabitEthernet 0/0/0 [R1-GigabitEthernet0/0/0]ip address 192.168.1.1 255.255.255.0 [R1-GigabitEthernet0/0/0]qu [R1]rip [R1-rip-1]network 192.168.1.0 [R1-rip-1]version 2 [R1-rip-…

ffmpeg在powershell和ubuntu终端下的不同格式

在win10下的powershell中,如果想运行一个exe文件,就不能再像cmd命令行一样用名字来直接运行了,否则会提示格式不对。 正确的做法是: . \ffmpeg.exe -re -i video-test.mpr -rtsp_transport tcp -vcodec h264 -f rtsp rtsp://您的…

MySQL 9.0 发布了!

从昨晚开始,在DBA群里大家就在讨论MySQL 9.0发布的事情,但是Release Note和官方文档都没有更新,所以今天早上一上班就赶紧瞅了下具体更新了哪些内容? 整体看来,基本没什么创新。下面是9.0新增或废弃的一些特性。 &…

“不喝鸡汤 不诉离殇”华火电燃灶用实力引领烹饪灶具发展

在这个快节奏的时代,我们常常被各种厨房电器的鸡汤所包围,并悄悄的告诉我们厨房生活是美好与温暖的,但面对现实中的挑战与困难时,常常表现出选择性失明;那些隐藏在传统厨房烹饪环境下的危机,就像是慢性的毒…

Java AI+若依框架项目开发 RuoYi-Vue(SpringBoot + Vue)

1.诺依的版本 本次选择RuoYI-Vue框架进行讲解 官网地址:RuoYi-Vue: 🎉 基于SpringBoot,Spring Security,JWT,Vue & Element 的前后端分离权限管理系统,同时提供了 Vue3 的版本 (gitee.com) 2.搭建后端…

vue中使用 json编辑器

<template><div class"stringTest"><vue-json-editorv-model"vstringData" //编辑器中的内容:showBtns"false" // 保存按钮mode"code"lang"zh":expanded-on-start"true"json-change&quo…

5.Android逆向协议-初识HTTP和HTTPS协议

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 内容参考于&#xff1a;微尘网校 上一个内容&#xff1a;4.Android逆向协议-详解二次打包失败解决方案 从现在开始正式进入协议分析了。 首先客户端与服务端之…

tkinter拖入txt文本并显示

tkinter拖入txt文本并显示 效果代码 效果 代码 import tkinter as tk from tkinter import scrolledtext from tkinterdnd2 import DND_FILES, TkinterDnDdef drop(event):file_path event.data.strip({})if file_path.endswith(.txt):with open(file_path, r, encodingutf-8…

Seatunnel本地模式快速测验

前言 SeaTunnel&#xff08;先前称为WaterDrop&#xff09;是一个分布式、高性能、易于扩展的数据集成平台&#xff0c;旨在实现海量数据的同步和转换。它支持多种数据处理引擎&#xff0c;包括Apache Spark和Apache Flink&#xff0c;并在某个版本中引入了自主研发的Zeta引擎…