FPGA设计中遇到的奇葩问题之“芯片也要看出身”

阿里云资深专家隐达分享了他十余年工作经历中的一段奇葩历程。文章诙谐幽默,用玄幻小说的写法分享技术问题,非常值得大家一读。

(一)昨夜西风凋碧树。独上高楼,望尽天涯路


2000年的时候,做设计基本都是使用Xilinx公司的Virtex和Virtex-E系列芯片。那时候Altera技术实力还比较弱,基于Altera的芯片做设计是要被大家diss的。某天晚上大概十点多了吧,我正如痴如醉的沉浸在编码的快感当中。主管悄无声息的站到了我身后,我从显示器中看到了隐约的影子,转头一看果然是他老人家。

主管神色凝重,眉头紧蹙。我在脑子里迅速回顾了一下自己最近的所作所为,确信没干什么罪大恶极、自绝于人民的坏事儿,用颤抖的语气小心翼翼的问:老大,您找我?老大的神色迅速地转换,分明在说:蠢货,你又不是什么萌妹子,要是没事儿你以为我老人家愿意屈尊站到你这儿么?after一个蓝衣女子般的风情万种的白眼之后,老大终于开腔了。

“我们学理科的都不信鬼神对吧?”大哥,你这是什么开场白?!我那会儿不过才工作两年多,纯洁的像一张黑不溜秋的白纸,根本识别不了您这是准备给我刨什么坑好吧,为啥你要给我出这样的难题?老大露出了一些不耐烦:“几个月之前到现在,有一批单板邪门儿了,有的工作正常,有的就不断的出乱码。经过大家夜以继日没白没黑呕心沥血玩儿命的加班定位之后,大家一致认为问题出在这块单板上的FPGA上”。早说嘛,FPGA我熟啊。“老大,问题既然都定位了,那就解决嘛”。老大露出了诧异的神情:我X,你这货是怎么混进我司的?回头老子要找当初面试你的人算账!老大深吸了一口气,带着“老子再忍你十秒钟的神情”继续说:“这个FPGA一共9000多接近一万行代码,最关键的是,设计这个FPGA的同事三周前就离职了。现在虽然确定了问题出在这个FPGA,但是究竟是什么问题还不知道。所以呢,大家商量了一下,决定暂时把你抽调出来,全力投入这个事情。一呢,要搞清楚到底是什么问题,二呢,把问题彻底解决掉”。

要不怎么说当年的我就是纯洁啊,要是放到现在,这肯定是一个绝佳的跟老大讨价还价、多给自己争取个仨瓜俩枣的好机会啊。彼时单纯(其实就是弱智)的我却觉得天大的展示自己身手的时刻终于到来了,于是欣然接受。老大神情轻松了一些,但还带着少许疑惑:这货不知道行不行,但愿不要把老子也坑了。然后溜溜达达的走了。

(二)衣带渐宽终不悔,为伊消得人憔悴


我一夜无眠,小心脏一直在忽冬忽冬滴乱跳。第二天我一头扎进了封闭的实验室。实验室里堆了好多单板,好的一堆,坏的一堆,然后各种仪器和电脑。整整一周,我都在实验室里瞎折腾,除了一遍又一遍的证实了问题现象确实如老大所描述的,然后就是看那9000多行的HDL代码。写代码的同事不知道是故意的还是习惯如此:注释少的可怜、设计文档和实际代码差异极大(文档在说水果里面桃子最好吃,代码写的是大飞机C919很威武)、变量的命名也毫无规律,后缀_addr的变量居然是数据总线,而后缀_data的变量才是地址总线。我心说:“哥啊,地球人都知道花花轿子人抬人。你我素昧平生、素不相识、萍水那个从未相逢,可为神马你就知道我要被派来收拾你的烂摊子,这么多花样来收拾我涅?”

一周毫无进展,我很沮丧。浑浑噩噩的过了周末(其实也就是周日一天),周一继续钻进实验室。开放办公区里莺歌燕语,其乐融融,就我一个人傻兮兮的在实验室里古佛青灯兼顾影自怜,相当称得上凄凄惨惨戚戚。中间老大时不时的过来关心我一下,其实就是监工外加检查进度。可是没进度可言:我根本不知道问题出在哪里,这么短的时间把小一万行HDL代码都看明白也不可能。如果我能的话,那我应该去做老大的老大了(那会儿大家都崇拜技术牛人,普遍觉得谁技术牛谁就应该做老大)。

一转眼就到周五下午了,我在实验室里垂头丧气。双手捂着脸,开始埋怨自己为什么接任务的时候才出现智商余额不足的fatal error。大显身手是彻底的forget about it了,弄不好倒可能因此把自己给葬送了。继而开始埋怨主管:我一直是顺民,挺听话也挺出活,你为啥要给我刨这么大的一个坑涅?百撕不得骑姐啊。一头雾水兼百无聊赖,我拿起一块单板,盯着那片FPGA。嗯,这里写着Malaysia,没想到Xilinx在大马还有工厂。换一块单板,嗯,还是Malaysia。这不是废话么,买一批至少也是几千片,当然都是Malaysia。正要仰天长叹“天亡我也,非我不能也”,忽然瞥见另一块单板的FPGA上印的似乎不是Malaysia,拿起一看,果然印的是Taiwan。终于找到一点有意思的事情做了,于是再拿一块,嗯,Taiwan,再拿一块,嗯大马。拿着拿着,忽然发现一个规律:从那堆坏板子里拿的都是印着Malaysia;从那堆好板子里拿的都是印着Taiwan。

(三)众里寻他千百度,蓦然回首,那人却在,灯火阑珊处

工程师都知道,寻找好板和坏板之间的“差异”是定位问题的利器之一啊。因此当时虽然没有欣喜若狂,但是也隐隐看到了一丝曙光。

我冲出实验室,一溜小跑去了焊板实验室。找到了焊板的同事,让他现场给我焊两块单板,一块必须用产自大马的FPGA,一块必须用产自台湾的FPGA。那个老兄很奇怪的看了我一眼,然后又一眼。后来我才想明白估计我是第一个在乎芯片产地的怪咖。

我就站在他旁边,看着他工作,觉得时间过得奇慢无比。拿到了焊好的两块板子,又以百米冲刺的速度杀回实验室,隐隐约约听到有同事在抱怨:发哪门子神经,刮这么大的风。我以迅雷不及掩耳盗铃之势,先把台湾板子安装好,上电启动、加载、运行,果然是好的;拆掉台湾,换上大马板子,上电启动、加载、运行,果然出误码了。问题确诊了!为了保险起见,我从坏板和好板堆里各取了两块单板进行了验证,现象是一致的。

此时距离下班也就十几分钟了,我赶紧去了老大的工位,强压着鸡冻滴小心情,向老大汇报:“老大,告诉生产那边,发货只能用产自台湾的芯片,马来西亚的坚决不能用。我怀疑产自马来西亚的芯片的容差小,产自台湾的芯片的容差比较大。而设计本身肯定存在时序打擦边球的情况,导致使用产自马来西亚芯片的单板会出误码,而使用产自台湾的芯片则没有问题。到底是哪里的时序存在擦边球的隐患,我还需要进一步熟悉代码,寻找之而修改之而长治久安也”。老大难得的露出了笑容:“嗯,不错不错!这两周辛苦了,回去好好休息,下周全力解决问题。啊,对了,你该刮胡子了。”

周末跟老婆(那时候还是女朋友)去搓了一顿大餐,逛街,看电影,累得半死,但是心情那是相当的愉快。

我从实验室回到了工位,在感受人间烟火气的同时,全力看代码。认真的看了一整天之后,我发现前同事对于“同步”、“组合逻辑嵌套层次不能过多”等设计原则完全不care,隐患到处都是,要想彻底的解决这些隐患,只有一个办法:推倒重来。我去找老大说明了想法,老大说:“要不要这么夸张?劳资派你去解决问题,你解决问题就是了,搞这么大工程出来,有必要么?”我说:“老大,我以一个工程师滴半生清誉担保:如果不推倒重来,问题根本不能彻底解决。”老大无奈的挥了挥手,说话的同时目露凶光兼咬牙切齿:“是否推倒你来定。但素,市场那边给出的预测是最多三个月内,这块单板就会迎来发货高峰,到那时无论如何也要保证FPGA不出任何问题。你有信心滴干活?”“饿夫考斯啊老大,没有金刚钻,不揽瓷器活啊”,我心说:“你要是答应给我加五百块工资,没准儿我敢承诺一半的时间就给你搞出来”。

结果不到三个月,我的全套重写的代码就完成了,编译、加载、测试:不论是产自台湾的芯片还是马来西亚的芯片,完全没问题。老大不放心,特地多找了几块焊着马来西亚芯片的板子一遍又一遍的测试,结果仍然是no problem at all。

老大笑靥如花(港版那个),眼睛眯成了一条缝儿:“小样儿,行啊!”我只顾嘿嘿傻笑,结果忘了趁热打铁跟老大提加薪。曾经有一个机会摆在我面前,我没有珍惜。如果有重来一次的机会,我特么会加一个十万光年的期限。

过了没多久,Xilinx公司也发来了报告:由于马来工厂的某个车间顶部一个窗户没关严,导致车间纯净度不够,所以那段时间生产的芯片尽管各项指标都在合格范围内,但是都在边缘,从而容差能力都比较低。公司已经发现并做了相应处理,之后生产的芯片从一致性方面跟台湾产的芯片没有区别了。

Well,这就是我从业生涯中碰到的“芯片也要看出身”的“灵异”事件。给我的印象是如此之深,18年后我仍然记得清清楚楚。问题解决是在2000年的9月份,第二年,我惨遭表扬,获得了某公司的最高荣誉:XXXX奖。

后记:

1. 真实问题定位的过程很痛苦,也比文中描述的要复杂,因为那批单板使用的FPGA芯片还有另外一个产地:韩国。在定位问题的过程中,台湾和韩国的芯片加载原同事的设计都没有问题,马来产的就不行。于是比对、比对、再比对,最终确定了问题出在马来产的芯片上。

2. 我重写后的设计完全不区分芯片的产地。采用原同事设计、已经发货的那批单板,使用产自台湾、韩国的芯片而暂时没出问题的,总量大概几千块吧,这些单板在条件发生变化时(比如温度变化、电压变化),出误码是必然的。好在那时候运营商对国产厂家都比较宽容,用服的同事找了各种机会,神不知鬼不觉的对这些单板上的FPGA重新加载了新版本,彻底消除了隐患。

3. 9000多行代码,我用了大概70个工作日进行了重写,计算开发效率,大约是130行/人天。实际上,我做过个人职业生涯的不完全统计:使用HDL开发FPGA,从全流程的角度来计算(从需求分析到最终发布),效率不会超过20行/人天,跟软件开发效率大致类似。当然,随着新的设计语言以及工具等方面的进步,开发效率会逐步提升是毫无疑问的。

4. 文档真的很重要、很重要、很重要。很多人会说:整个设计(模块)我闭着眼睛都能知道哪行代码是干嘛的,文档意义不大。但素,人的记忆是会衰退的。如果设计天衣无缝、没有任何问题,在整个生命周期里没有任何升级或者功能变动,那么文档也许没那么重要。但素,大家想一想,对于FPGA来说,上述条件全部满足的概率是不是和行星撞地球差不多?我几乎重写了整个设计文档,基本能保证文档描述的是西施,而设计至少是凤姐。

(完)

隐达,阿里云资深专家,花名的意思就是做人隐,做事达。业余时间喜欢看美剧和读书,尤其是历史书;还喜欢喝点小酒侃大山,喝酒只喝啤酒和威士忌;酒量比较差,但是酒品还过得去。我在某通信公司工作了18年,其中十年的大规模FPGA/ASIC开发和系统设计,刚刚加入阿里云,负责FPGA/ASIC异构计算,So happy to be Ali Ren,很荣欣能在云栖社区和大家一起交流,学习!

本文作者:隐达

原文链接

本文为云栖社区原创内容,未经允许不得转载

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/521757.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php msgid排重,如何应用php数组对百万数据停止排重

如何应用php数组对百万数据停止排重如何应用php数组对百万数据停止排重在往常的工作中,常常接到要对网站的会员停止站内信、手机短信、email停止群发信息的告诉,用户列表普通由别的同事提供,当中难免会有反复,为了避免反复发送&am…

FPGA资源平民化的新晋- F3 技术解析

摘要: FPGA (现场可编程门阵列)由于其硬件并行加速能力和可编程特性,在传统通信领域和IC设计领域大放异彩。一路走来,FPGA并非一个新兴的硬件器件,由于其开发门槛过高,硬件加速算法的发布和部署保护要求非常高&#xf…

Vue计算属性、方法、侦听器

文章目录一、基础计算模板二、计算属性computed三、方法methods四、侦听器watch五、总结六、源码地址一、基础计算模板 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Vue计算属性、方法、侦听器<…

python数据分析简答题_Python数据分析与数据可视化-中国大学mooc-试题题目及答案...

Python数据分析与数据可视化-中国大学mooc-试题题目及答案更多相关问题【简答题】城轨供电系统按功能划分为几部分&#xff1f;各有什么作用&#xff1f;【多选题】影响债券价格的因素有【单选题】关于注射剂的质量要求&#xff0c;叙述错误的是 prefix\"o\" ns\&quo…

漫画:五分钟看懂车联网

戳蓝字“CSDN云计算”关注我们哦&#xff01;福利扫描添加小编微信&#xff0c;备注“姓名公司职位”&#xff0c;加入【云计算学习交流群】&#xff0c;和志同道合的朋友们共同打卡学习&#xff01;推荐阅读&#xff1a;华为 | 泰山之巅 鲲鹏展翅 扶摇直上九万里聊聊我是如何在…

对数据科学家来说最重要的算法和统计模型

摘要&#xff1a; 本文提供了工业中常用的关键算法和统计技术的概要&#xff0c;以及与这些技术相关的短缺资源。作为一个在这个行业已经好几年的数据科学家&#xff0c;在LinkedIn和QuoLa上&#xff0c;我经常接触一些学生或者想转行的人&#xff0c;帮助他们进行机器学习的职…

JAVA ulimit,java-从linux中的jvm中查找硬打开和软打开文件限制(ulimit -n和ulimit -Hn)

我有一个问题,我需要从Java / groovy程序中找出Linux中进程的硬打开和软打开文件限制.当我从终端执行ulimit时,它将为硬打开文件限制和软打开文件限制提供单独的值.$ulimit -n1024$ulimit -Hn4096但是,如果我以常规方式执行它,它将忽略软限制并始终返回硬限制值.groovy> [ba…

计算属性的setter和getter

computed的属性不仅可以写一个get方法&#xff0c;通过其他的值算出一个新值&#xff1b;同时&#xff0c;也可以设置set方法&#xff0c;通过设置一个值&#xff0c;来改变他相关联的值&#xff01;而改变了相关联的值之后&#xff0c;又会引起fullName的重新计算&#xff0c;…

python制作远程桌面控制_Python 远程桌面协议RDPY简介

RDPY 是基于 Twisted Python 实现的微软 RDP 远程桌面协议。RDPY 提供了如下 RDP 和 VNC 支持&#xff1a;RDP Man In The Middle proxy which record sessionRDP HoneypotRDP screenshoterRDP clientVNC clientVNC screenshoterRSS Player目前能够找到的关于RDPY的中文介绍确实…

华为愿出售5G技术渴望对手;苹果将向印度投资10亿美元;华为全联接大会首发计算战略;腾讯自研轻量级物联网操作系统正式开源……...

戳蓝字“CSDN云计算”关注我们哦&#xff01;嗨&#xff0c;大家好&#xff0c;重磅君带来的【云重磅】特别栏目&#xff0c;如期而至&#xff0c;每周五第一时间为大家带来重磅新闻。把握技术风向标&#xff0c;了解行业应用与实践&#xff0c;就交给我重磅君吧&#xff01;重…

数组元素反序

和前面的字符串逆向输出有异曲同工之妙 第一位和最后一位交换位置&#xff0c;然后用比大小循环 那么接下来修改一下这个程序&#xff0c;我们接下来解释一下p的概念 画图解释&#xff1a; 在最前面的 定义的时候&#xff0c;我们将p&#xff08;0&#xff09;定义在了1上&…

如何计算Java对象所占内存的大小

摘要&#xff1a; 本文以如何计算Java对象占用内存大小为切入点&#xff0c;在讨论计算Java对象占用堆内存大小的方法的基础上&#xff0c;详细讨论了Java对象头格式并结合JDK源码对对象头中的协议字段做了介绍&#xff0c;涉及内存模型、锁原理、分代GC、OOP-Klass模型等内容。…

hilbert谱 matlab,怎么在matlab中做信号hilbert边际谱分析

摘要&#xff1a;传统的数字滤波器的设计过程复杂&#xff0c;计算工作量大&#xff0c;滤波特性调整困难&#xff0c;影响了它的应用。本文介绍了一种利用MATLAB信号处理工具箱(Signal Processing Toolbox)快速有效的设计由软件组成的常规数字滤波器的设计方法。给出了使用MAT…

时间序列数据的处理

摘要&#xff1a; 随着云计算和IoT的发展&#xff0c;时间序列数据的数据量急剧膨胀&#xff0c;高效的分析时间序列数据&#xff0c;使之产生业务价值成为一个热门话题。阿里巴巴数据库事业部的HiTSDB团队为您分享时间序列数据的计算分析的一般方法以及优化手段。演讲嘉宾简介…

saas java框架_XMReport-提供web项目Java套打解决方案

简介XMReport是国内首款支持在线编辑&#xff0c;维护的控件式报表产品。XMReport报表产品分为设计器与引擎两个部分&#xff0c;其中报表设计器是完全基于HTML5技术&#xff0c;提供优秀跨平台的支持&#xff0c;用户无需安装客户端或者插件&#xff0c;仅使用浏览器即可进行报…

只有程序员才能读懂的西游记

戳蓝字“CSDN云计算”关注我们哦&#xff01;这其实一个有关计算机网络协议的故事一、我佛造经传极乐话说我佛如来为度化天下苍生&#xff0c;有三藏真经&#xff0c;可劝人为善。就如图中所示&#xff0c;真经所藏之处&#xff0c;在于云端。佛祖所管辖之下&#xff0c;有四个…

Logtail从入门到精通(四):正则表达式Java日志采集实战

摘要&#xff1a; 为简化日志接入门槛&#xff0c;我们提供了极简模式的日志解析方式&#xff08;如[开启日志采集之旅]()中的介绍&#xff09;。为了更好的对日志进行分析&#xff0c;我们还提供了其他解析方式&#xff0c;例如&#xff1a;分隔符模式、完整正则模式、JSON模式…

延时跳转php代码,PHP JS HTML ASP页面跳转代码 延时跳转代码

1.PHP延时跳转代码//跳转到浏览界面header("Refresh:1;urlmachine_list.php");//不延时header("location: http://www.baidu.com");?>2.JavaScript 跳转window.location "http://www.baidu.com";document.location "http://www.baidu.…

Vue中的条件渲染

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Vue中的条件渲染</title><!--引入vue.js库--><script src"../vue.js"></script> </head><body> <d…

java带参方法上机一_Java带参方法的总结

定义一个带参方法语法&#xff1a;访问修饰符 加返回类型 加方法名 加(参数列表)参数可以带有一个参数 或多个参数 还可以用数组作为参数。’《用数组作为参数》1 实例 public void show(int []scores)这个参数没有返回值调用方法实例化对象对象点方法名 (score)-(实参)实…