日前,2022年信息技术自主创新高峰论坛在南京成功召开,来自政府、产业、各行业领域的领导、专家学者、企业代表齐聚长江之滨,共话信息产业自主创新发展。铁流谈谈会上几个亮点。
龙芯LA664追平AMD zen2
相对于一些技术引进CPU在引进海外技术后CPU IPC增长缓慢,性能提高基本依靠购买更好的EDA工具和买台积电更好的工艺。龙芯一直致力于提升CPU微结构设计水平来提升CPU的性能。没有盲目去堆核心数量。这种稳扎稳打的做法使龙芯在过去10年中IPC提升了3-4倍,在桌面CPU上成效立竿见影。
CPU的IPC在过去10年中提升了3-4倍,这使龙芯可以在制造工艺上落后技术引进的某ARM CPU一代的情况下,依然可以依靠CPU微结构设计水平做到性能持平或略优于技术引进的某ARM CPU。当龙芯与引进的某ARM CPU采用相同工艺时,龙芯可以凭借其IPC上的优势在性能上领先某ARM CPU。
3A6000和3A5000采用相同制造工艺,龙芯依靠其设计能力把CPU性能大幅提升。从此前公布的仿真成绩看,定点相对于3A5000提升30%,浮点相对于3A5000提升60%,这种提升是非常骇人的——如果仿真成绩与最终成绩相当,那么,3A6000 SPEC06单核定点Base分大于13/G,浮点Base分大于16/G,如果3A5000为2.5G至2.8G,那么,3A6000的 SPEC06单核定点Base分大于35,浮点将大于45。
从本次大会公布的信息看,在使用相同工艺的情况下,3A6000性能比3A5000提升40%—60%,芯片面积缩小20%,12nm的3A6000对标7nm的AMD Zen2。铁流做最保守估算,3A6000 SPEC06单核定点Base分为32分(@2.5G)至35分(@2.8G)。这个性能对于信创和日常使用而言都已经明显过剩了。
多核服务器CPU迎来爆发期
在服务CPU上,由于国内ARM CPU往往采用“堆核战术”,也就是用64核、128核堆出一款服务器CPU,这导致龙芯的四核CPU虽然在单核性能上更好,但在多核性能上不如ARM CPU。这使龙芯在服务器CPU市场竞争中处于不利地位。
3C5000是龙芯第一款16核CPU,采用完全自主的LoongArch指令架构,16核心单芯片unixbench分值9500以上,双精度计算能力达560GFlops,16核处理器峰值性能与典型ARM 64核处理器的峰值性能相当,并支持最高16路互连,搭配新一代龙芯7A2000桥片,PCIe吞吐带宽比上一代提升400%以上。就SPEC2006测试来看,单核定点浮点Base分均大于10/G,单芯片分值超过200。可满足通用计算、大型数据中心、云计算中心的计算需求。该处理器通过芯片级安全机制可为等保2.0、可信计算、国密算法替代、网络安全漏洞防护等提供CPU级内生支持。
3C5000最大特点是单核性能强,特别是unixbench这种看重单核和内存性能,多核加速比很低的测试,龙芯只用16核就能跑到9500,某ARM CPU即便有64核也跑不到这个成绩。从公开的数据来看,3C5000的性能在信创市场足够用了,而且16核的核心是使其部署比较灵活。龙芯3D5000研制成果,也就是把两个3C5000封装到一起的胶水32核芯片,主要针对一些对性能有更高要求的场景。
2K3000 3C6000 3D6000性能不俗
2K3000的内核相对于2K2000进行了增强,虽然2K2000和2K3000的核心都叫LA364,但其实是两代核心,IPC是不一样的,处理器核重新设计,发射宽度降低了,但是效率提高了,新处理器核可以对标A75水平,使用范围也不局限于工控。
2K3000主频达2.7Ghz,LG200 GPU也被集成进2K3000,由于芯片SOC化大幅提升了集成度,芯片面积、成本、功耗大幅度降低,届时龙芯主板价格要低于i3主板,根据计划,2K3000将在明年上半年流片。
铁流推测,2K3000 SPEC06定点成绩在24分以上(Base @2.7Ghz)。
2K3000一旦量产,将在性能、成本等方面领先当下的盘古900、D2000等ARM方案。作为参照,D2000 SPEC06定点成绩在15分左右(Base @2.3Ghz),盘古900的单核成绩还不如D2000。
3C6000是16核服务器芯片,内核是LA664,3D6000则是两片3C6000封装在一起构成32核服务器CPU,可以匹敌搭载Zen2核心的AMD EPIC。只要软件能跟上,商业市场已经没有性能短板了。
龙芯下一代7000系列CPU,进一步提升CPU核性能,IPC瞄准Zen3和12代酷睿,计划采用7nm工艺,SPEC06定点Base最保守估算是40分,届时,会有24-32核的3D7000(7nm) 和48-64核3E7000(两片封装)。
产学研协作推进产业生态
有鉴于龙芯没有大型3A游戏,就CPU性能而言,3A5000应对日常使用和单位办公已经是性能过剩了,3A6000则是进一步性能过剩,7000系列CPU则能进入商业市场竞争。对于龙芯而言,性能已经不是最大短板,软件生态和产业生态才是短板。
对此,龙芯措施是两手抓,一方面用二进制翻译兼容X86生态,另一方面推出自主编程框架。
LATX实现在龙芯linux平台上运行X86/Windows应用的目标,目前已经可以运行大量X86/Windows应用,预计还需要一年时间完善。以打印机来说,现在97%、98%以上的打印机龙芯不用迁移,可以直接用,这在X86和ARM上都没有做到,凡是windows有的驱动龙芯都能跑。还有少量的2%、3%的问题,年底之前将全部解决,也就是说在X86和ARM平台上肯定很多打印机认不了,但在龙芯的平台上,到明年开始可以保证100%的打印机都能识别。
自主CPU和操作系统的整机产品之所以需要无休止的迁移适配,主要是因为这些系统是不在自主平台上写的,现有的应用都是基于别人的编程框架编出来的,自主编程框架是自主操作的重要特征,目前国产操作系统都不是真正意义上的自主操作系统,只是开源操作系统的自主发行版,APP开发者使用的自主编程框架进行编程才能彻底解决无休止的适配问题,所以龙芯在明年争取推出自主编程框架。未来就像手机APP有苹果版和安卓版,未来电脑的系统有龙芯版和windows版,这样龙芯就有自己的生态了。
龙芯启动百芯计划基地,东南大学首席教授、江苏省集成电路学会理事长时龙兴在主题汇报中介绍了龙芯百芯计划项目。该项目旨在让高校学生进一步参与完成处理器芯片全流程设计,掌握核心科技基础技术。授权龙芯自主研发的IP核同样是百芯计划的一项重要内容。多年来,龙芯中科坚持自主研发核心IP,形成了包括系列化CPU IP核、GPU IP核、内存控制器及PHY、高速总线控制器及PHY等上百种IP核。苏州雄立科技基于龙芯ip开发了一系列芯片。
另外,龙芯积极与高校合作,教育部高等教育计算机类专业教育指导委员会指导清华大学、北京航天大学、西北工业大学、南开大学、中国科技大学等高校编写基于龙芯中科loongarch的指令集为基础的7门教材在上述高校于2023年教学使用。
龙芯与南京大学、东南大学、河海大学、南京航空航天大学等高校共建6个信创实验室,推动信创产品走进校园、走进课堂。龙芯信息技术应用创新实验室解决方案,涵盖信息技术、应用创新、集成电路、云计算、大数据、物联网、网络安全等多门课程、实验、赛事、认证等内容。龙芯中科还发布了“青少年造芯计划”公益项目。该项目由具有全国性公募资格的中国社会福利基金会社区发展基金和爱心人士共同发起,助力提高青少年信息技术创新能力和科技创新教育水平。
结语
铁流引用胡伟武老师的话作结尾:我自己觉得2022年起的2到3年是龙芯把自主研发的优势转化为性价比和软件生态优势的重要转折点,我希望今天会后的一两年内整个产业链形成这样的共识:
因为龙芯是自主研发而非引进技术,所以龙芯性能最高;
因为龙芯是自主研发而非引进技术,所以龙芯成本最低;
因为龙芯是自主研发而非引进技术,所以龙芯生态最好;
因为龙芯是自主研发而非引进技术,所以龙芯供应稳定。
我希望大家慢慢打破说龙芯是最基础,但生态和性能差一点,要在实践中两三年就能做到,因为能力已经形成了,枪杆子已经练成。