来源:摩尔精英
作为行业内专业的IT/CAD技术服务团队,摩尔精英IT/CAD事业部曾于2019年11月21日的南京ICCAD大会上发表的《芯片设计云计算白皮书1.0》中,初步探索了基于公有云的EDA计算平台的实现方案。随着进一步的探索和方案优化,我们今天将发布《芯片设计云技术白皮书2.0》,进一步升级迭代EDA云计算的实现方案。在这一稿白皮书中,将基于Azure云平台,呈现包括弹性算力、安全方案、EDA设计生态云模型等。
以下内容摘取《中国芯片设计云技术白皮书2.0》部分内容:
第二章 设计云平台中国市场规划
第二节 芯片设计云生态规划
对比于国外半导体发展轨迹来看,国外的半导体行业经过30多年发展,成就了一个个大公司,国外大公司的云计算之路的驱动力更多在于混合算力的需要,前面的案例中都显示了这一点。而国内的云计算之路的驱动力则更偏重于资源共享的需要。中国国内的芯片设计企业众多,规模小、阶段早,以云计算技术为基础,将IP资源和技术支持、PDK资源和技术支持、EDA资源和技术支持、IT基础架构资源和技术支持、CAD技术支持资源整合、标准化,打造生态型的设计云平台,极大地实现资源共享、技术共享、平台共享,加速中国半导体事业发展。
中国现在的半导体行业得天独厚,国内的半导体发展正处于一个“百舸争流千帆竞”的历史发展特定时期,充满机遇与挑战。当前芯片行业的特点,正由封闭模式转向半开放模式,市场投入以及政策支持,正加速中国当前出现越来越多的创业芯片公司,这些初创芯片公司都关注的是特定领域的芯片研发。在这样的大环境下,集大成的生态型设计云平台呼之欲出,以云平台的方式提供一个相对平等的环境,支持协作和共享,可以更灵活地帮助大量芯片公司共同发展。
根据对半导体行业的深入研究和调查,摩尔精英IT/CAD事业部对即将到来的国内半导体行业战略发展面临的云计算平台作出了战略规划,“拥抱云计算,打造适合中国国情的芯片设计云生态模型”。
设计生态云模型
2.1 统一云平台,集成五要素
以云计算为IT基础底层,整合行业核心资源,打造统一的芯片设计云平台,集成包括:IT基础架构层与技术服务、CAD管理与技术服务、EDA资源池与技术服务、IP资源池与技术服务、PDK资源池与技术服务等五大技术支持平台的整合型设计生态云平台。
设计、EDA、IP、PDK在云计算平台上可以各自成云,彼此安全隔离,数据共享可追溯,上传下载加密,形成安全高效的生态设计环境。
2.2 各自上云,永不落地
核心资源包括IP、PDK等,可以在云平台上,拥有各自供应商的私有云空间,数据对设计公司的开放与否,一方面依赖于传统合作协议与商务条约,另一方面依赖于云平台技术安全管控手段。不同角色的用户,例如IP供应商、晶圆厂、EDA公司,对各自的数据拥有完全的管理权限。重要数据在不同隔离区间进行传递,通过数据加密或指纹追踪技术,进行有效的安全监管,对核心数据资源的管控做到各自成云,永不落地。
2.3 云计算三层架构
基于云计算的IT架构包括IaaS层、PaaS层、SaaS层,分别管理物理层资源、物理资源敏捷运维、应用层资源以及应用层资源自助管理。
在设计生态云平台上,安全高效地整合了芯片设计开发所需的全部技术支撑,可以做到对众多芯片设计企业的平台化支持,帮助他们可以短时间内拥有更快更标准统一化的研发平台,从而帮助他们更为容易地加快芯片开发与迭代速度,为产品上市赢取时间。通过设计生态云统一化的平台,更多的IP、PDK和EDA资源可以快速汇集、并提供统一的技术支持窗口,这也能对国内EDA工具及IP的发展起到非常好的促进作用。
第三章 设计生态云技术架构详解
在前一章节中阐述的5个技术角色以及芯片设计公司,将在设计生态云上构成一个多租户的生态系统。相较于上一版白皮书的探讨,这次探讨的设计生态云从技术上呈现的主要特征为:
第一节 系统拓扑设计
一个多租户的云计算平台,需要以下六类角色的参与:
下图是一个完整包括这六类角色的系统拓扑图。
第二节 云计算基础架构层
云计算是在传统物理数据中心的基础上,通过虚拟化技术实现物理资源的多租户共享,从而提高资源的利用率。云计算基础设备服务即包括了计算,存储,网络三部分的服务。用户可以通过管理平台快速自助的获得所需要的计算能力。基础设施服务(IaaS)是芯片设计云的基础,解决了各设计公司的计算资源峰值缺口问题。
从本地进入到云端,随着环境的变化,对使用者,维护者以及云供应商都提出来全新的要求与课题。从混合云上讲,大部分大型设计公司,都有原有的自建机房,这部分计算资源在一定时期内还承担着主要的计算任务,云上资源在开始两三年还是以算力补充为主。如何管理好云上资源,做好与本地计算资源的协同,如何结合云供应商的产品能力以及企业自身的要求,对IT管理人员提出了新的要求。同时值得注意的是平台服务部分,从短期来看,对芯片设计云没有直接的使用价值,但是从长期看,利用平台服务(PaaS)可以快速实现基于数据的先进应用,如基于历史数据的设计优化建议,更完整的安全闭环管理等。
第三节 设计云管理平台
对于设计公司使用的设计环境可以理解为各种设计资源的有效结合,例如:硬件资源(服务器,存储,网络),软件资源(EDA工具,版本管理工具),其他资源(IP,PDK)等。随着设计工艺的发展,设计环境变得更加复杂。如何快速搭建和高效管理设计环境成为了现在CAD服务最挑战的课题。
设计云管理平台(DCMP,Design Cloud Management Platform)就是针对芯片设计环境而设计的资源管理平台,按照资源的类型用不同的模块进行管理,实现各种生态云上自住和管理各种设计资源:
3.1资源规划与实现——PaaS层
设计云管理平台的云资源管理(CMP)模块将会对接下面的IaaS层的各种资源,通过云管理接口来管理IaaS层的硬件资源。
CMP提供了对IaaS层各种资源的自助运维管理、资源监控和报警、日志管理以及利用AI技术提供智能化运维。通过CMP可以对平台上所有用户设计环境的基础架构进行标准化,降低环境管理的复杂度;并将运维中的重复工作通过脚本实现自助服务,把管理员从大量的重复劳动中解放出来;通过智能化运维能准确预测设计环境可能会碰到的问题,并在问题发生前采取相应的措施减少设计环境中断情况的发生。
同时,CMP还针对芯片设计行业的特点,提供计算集群管理功能、设计作业调度功能以及弹性算力管理功能等。
Cyclecloud是Azure云提供的强大的创建、管理、操作和优化HPC和大型计算群集的服务,此服务可以和作业调度系统结合在Azure上实现弹性算力的功能。
Azure CycleCloud旨在使企业IT组织能够向其最终用户提供安全灵活的云HPC计算环境。通过群集的动态扩展,企业可以以正确的时间和价格获得所需的资源。
Azure CycleCloud的自动化配置使IT部门能够专注于向业务用户提供服务。Azure CycleCloud是很方便在企业级用于协调和管理Azure上的高性能计算(HPC)环境的工具。借助CycleCloud,用户可以为HPC系统预配基础结构,部署熟悉的HPC调度程序,并自动扩展基础结构以在任何规模下高效地运行作业。通过CycleCloud,用户可以创建不同类型的文件系统,并将它们装载到计算群集节点,以支持HPC工作负载。
在芯片设计领域常用调度工具LSF与CycleCloud之间有着工程级的合作,CycleCloud可以协助LSF更高效的调度Azure云上资源。虽然今天利用LSF的Resource Connector,可以实现与不同公有云供应商的对接,然而使用CycleCloud依然有着许多的优势,首先是LSF与CycleCloud之间认真定义必要功能的接口,所以云上的特性都由Cyclecloud来管理与控制。今天的公有云每天都在发生着变化,CycleCloud做为微软原厂工具可以在第一时间支持这些新功能。其次在日常运维过程中,如果计算资源的调度出现了问题,运维人员只需要找到CycleCloud的原厂支持,来进行问题的定位与判断,而且所有CycleCloud支持都是相关领域的专家。同时微软也有专有的与LSF工程团队的沟通机制。相较直接对接计算资源的方案,当问题发生时,云提供商往往第一时间反馈给的是云上虚拟机的部门,很多支持工程师对于EDA或是高性能计算的模式与特点,以及工具都是一无所知的。
计算任务上云的最大好处是可以利用云资源进行动态调度,运维与研发团队可以根据项目的需要选择最省钱的方案或是用时最短的方案。同时由于云上资源以使用量计费,当面对庞大云计算资源管理时,对不再工作的计算资源需要即时停止是很重要的,对于管理运维人员也是很大的挑战。Cyclecloud正好帮助运维团队填补了这部分的能力,可以助力动态调度快速落地。
3.2资源管理规划与实现——SaaS层
设计云管理平台的设计资源管理(DMP)模块将会针对平台2大类租户:资源供给方和资源使用方分别对除了云提供的IaaS层资源之外的设计资源进行管理和监控,例如:账号,项目,IP,PDK,EDA工具、设计流程和设计环境等。
资源供给方
在此平台上,资源供给方主要指:IP供应商,晶圆厂,EDA公司,CAD技术服务公司。这些公司可以提供芯片设计环节中所需的IP,PDK,EDA工具,设计流程等。DMP可以让资源供给方将这些资源上传到云上,并通过一定的授权流程完成资源授权给到云上的资源使用方--设计公司,并使得资源供给方按照线上定价策略获取收益。统一的设计云资源管理平台将这些资源供给方的资源极大化整合,充分共享、自由交易,加快促进IP、EDA的销售过程和技术支持过程,从而加快上下游的通畅。在云上,所有租户都各自成云,数据的传输可以借用云上的安全中技术以及加密和指纹技术保证上传资源的安全。
资源使用方
资源使用方主要指设计公司,设计公司通过DMP可以快速和容易地获取更多的设计资源,在芯片设计早期利用云上的所有资源进行比较(例如:不同IP供应商提供的相同功能的IP,相同功能的不同EDA工具等),选择满足产品设计要求的IP/PDK/EDA/设计流程的最优组合,从而使得设计成本最优并提高产品成功率。设计公司的环境中一般还可以细分为2种角色---管理员和普通用户:管理员将通过DMP提供的自助运维功能对设计环境中的各种资源(账号、项目、IP、PDK、EDA工具、设计流程和设计环境)进行申请和搭建,并进行日常运维。DMP通过脚本自动化的方式将传统的ITCAD工作迁移到了云端,并实现了可视化和智能化。普通用户通过DMP提供的远程登陆台直接接入云端设计环境,云端设计环境的架构遵循私有云的安全架构,对用户来说是透明的迁移,不会改变任何设计使用习惯。并且用户可以通过DMP可视化地查询环境中的资源使用情况、项目进度以及管理自己的账户信息和数据,从而提升用户的使用体验。
第四节 平台安全方案
根据Gartner云安全评估报告显示(参见P25图表),在安全能力评估中微软得到了13个High,拿下整体安全能力全球第一。评估维度包括基础设施安全,云治理和合规,网络安全,应用和容器安全,数据安全,日志和预警,应用和工作负载保护等7大模块24项能力。无论国内还是国外的设计公司,在上云的过程中还十分关注安全问题。从安全上讲,由于设计云中进行仿真的原代码对设计公司都是机密而又重要知识产权的内容,如何进行数据安全的保证以及使用者的权限管控就成为一个十分重要的问题。
4.1 云计算安全基础
设计环境迁入公有云不仅仅意味着基础设施物理位置的变化,相较于传统私有数据中心,在管理上与运维上也提出了极大的挑战变化。
首先是对于安全职责将由云供应商与客户共同承担,如下图所示,云使用方的IT需要将更多精力放在应用层之上的安全,包括信息数据安全,身份管理以及应用层面安全,而云供应商负责应用层以下的基础安全。使用方应当多利用云供应商应提供的基于云的安全监控工具与服务,同时为了方便管理与维护,应当使用云供应商或是自建的统一平台,集中展示设计云平台中的计算,存储以及网络各方面安全以及性能问题,以及设计并实施相关的安全策略。同时需要注意随着地区与行业法规的日益完善,合规性也成为平台安全的重要一环。使用方需要可以利用云供应商或是第三方工具对所使用平台及系统进行快速便捷的合规性评价,并对不合规可以提出改善性建议。
其次对于更为复杂云端环境,安全包括基础设施安全,合规性,网络安全,应用安全,数据安全,身份管控与报警多个方面。2020年Gartner对各大共有公供应商就这些方面进行了安全评测,其中微软Azure以13项高安全排名第一,阿里云与AWS排名第二第三。同时对于IT运维管理人员需要注意,今天的安全不仅仅需要依靠各种安全规则进行被动安全管理,更需要依赖大数据的后台分析,进行主动防护。这对云供应商的数据收集与分析能力提出了极大的挑战。
这方面30多年来微软为全球用户提供超过200多种商业服务,积累了海量的数据和运营尽量。并从中获取的独特的安全见解。例如每月有4000亿份邮件,120亿个设备受到WindowsDefender扫描保护,微软后台可以清楚的了解到客户端受到的攻击是哪里发起的,是怎么扩展的。微软对安全的理解来自海量的数据和30多来的运营经验,利用这些经验,微软可以很容易的分析出正常用户的登录授权行为是怎么样的,异常的行为又是如何的以及用户密码被盗取的频率,保护着7亿5000万Azure用户的身份安全。智能安全图谱是在微软非常特别的东西,我们觉得是这个行业独一无二的。通过智能安全图谱我们把数万亿的信号整合起来,这些信号就不仅仅是孤立信息点,微软全球7500多位安全专家可以从对多个信号的分析整理,描述出攻击者的行为模式,保护没有受到攻击的节点。
最后我们要注意安全问题不仅仅来源于外部网络的攻击,也会借助相关人员的账号与设备进行攻击。在攻击云基础架构时,黑客通常会攻击多个资源,以尝试访问客户数据或公司机密。云杀链模型解释了攻击者如何试图通过四个步骤(发掘漏洞、访问、横向移动和操作)访问在公共云中运行的任何资源。
发掘漏洞是指攻击者寻找访问基础架构的机会地方。例如,攻击者知道面向客户的应用程序必须开放,合法用户才能访问它们。这些应用程序暴露在Internet上,因此容易受到攻击。攻击者将尝试攻击漏洞或利用公开应用程序中的弱凭据。在漏洞或基于恶意软件的攻击中,也存在危害用户凭据的暴露。
攻击者将尝试利用漏洞来访问公共云基础架构后,这可以通过有风险的用户凭据、实例或配置错误的资源完成。通过危害实例,攻击者可以通过利用漏洞(例如在面向公众的Web应用程序上)或利用弱凭据(如暴力强制面向公开的SSH服务器)来访问实例。如果没有安全控制,68%的违规需要数月或更长时间才能发现。
数据来源:Gartner
在横向移动阶段,攻击者会发现他们有权访问哪些资源以及该访问的范围。对实例的成功攻击使攻击者能够访问数据库和其他敏感信息。然后,攻击者会搜索其他凭据。如果没有安全工具来快速通知您攻击,组织平均需要 101 天才能发现漏洞。同时,在突破后 24-48 小时内,攻击者通常会完全控制网络。
攻击者在横向移动后采取的行动在很大程度上取决于他们在横向移动阶段能够访问的资源。攻击者可以采取导致数据泄露、数据丢失或发动其他攻击的操作。对于企业来说,数据丢失的平均财务影响现在达到123万美元。
基于此如何构建一个从设备到云的端到端的零信任安全体系,成为越来越多安全专家们的共识。下图展示了基于微软技术体系的,混合云的模式下的安全参考结构。其中设备侧通过SCCM对不同设备进行安全策略的设置,单个设备可以基于MicrosoftATP进行主动保护。设备到云的网络层面对链路以及接入点进行保护。云端产品与服务从开发阶段就严格遵守安全开发生命周期模式,提供完整的身份管控,数据加密,行为监控等一系列安全措施。安全运营中心提供了一个云原生的安全统一管理平台,运维人员可以从统一入口监控管理云端服务,并针对安全与合规性问题对云资源进行安全升级与管控。
4.2 数据传输和指纹技术
数据传输管理
管理员可以通过 DMP 的数据传输管理功能对设计数据传输进行自助管理:实现创建 / 更改 / 删除数据传输通道,自助配置数据传输通道的安全策略。支持人工审核的数据传输方式,提供人工审核流程并在数据传输申请批准后自助进行数据传输。对所有数据传输操作进行监控和日志记录,满足安全审计的需求。
普通用户可以通过DMP的数据传输管理功能传输通道信息进行查询,并能通过人工审核提交数据传输申请。
指纹技术
指纹技术是对预先定义的非结构化数据文件或者结构化数据库进行扫描,在对扫描内容进行指定指纹算法计算,生成指纹存放在指纹库中。当系统中有数据传输时,会将传输数据按照同样的方式处理生成指纹,并与指纹库中指纹进行对比得到指纹相似度。
指纹生成
指纹生成是对预处理过的文本按照选定的文本细粒度,使用相应的文件指纹算法计算文件指纹。文件指纹算法是指纹系统中至关重要的一个环节,其性能的优劣直接影响指纹系统的好坏。目前常用的文件指纹算法有MD5、SHA-1、Rabinhash、Simhash、Minhash等。不同的算法有不同的用处,可以根据实际需要选择不同的算法。
指纹选取
合适的或优秀的指纹选取策略可以在获得的指纹数量相对较少的情况下,取得更准确的检测结果。指纹选取是文件指纹系统中另一个至关重要的环节,如果指纹选取的不当,会导致选取的指纹不能充分代表文件本身,最终直接导致文档相似度检测时出现很大偏差,影响文件相似度的计算结果。常用的指纹选取策略主要包括全指纹选取、半指纹选取、哈希断点法和最小哈希值法等。
指纹验证
指纹验证,即指纹相似度计算是文件指纹匹配系统的最后一步。相似度计算主要对待检验文件指纹和文件指纹库中的文件指纹进行比对,并计算文件指纹值之间的匹配程度(文件相似度)。计算相似度的时候,不但要返回文件指纹与文件指纹库对比的相似度值,还要返回最相似的文件和最相似文件的相似度,以方便用户对文件匹配结果进行检查。
第四章 基于Azure的MVP
为了实现上述的“大三层平台规划”,摩尔精英这次结合 Azure 云的基础架构,开发了一个最小化可视产品 MVP,验证了设计云平台的技术可行性和基本功能。为此我们录制了一段MVP的视频供读者参考。
结语
一切都刚刚开始,一切都即将结束。自集成电路在1958年以来,芯片产业获得了指数级的增长。终端也从早期的大型机到PC、转移到移动设备,再到现在的万物互联时代。人类的日常工作和生活也随着这些技术的变迁而发生了翻天覆地的变化。而在芯片变革终端的同时,终端也在回馈半导体产业。无论是EDA等工具的发展,还是各种自动化设备的升级,无一不在推动着芯片产业往更强大的方向发展,以满足未来多样化的需求。现在,在芯片支撑下的云计算产业已经成为了当代数字社会的重要支撑。对于芯片产业而言,也开启了跑步融入云计算,提升设计和生产效率的时候。让我们一起携手共同迎接新时代的到来。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”