大模型备案全网最详细流程说明【附附件】

下图为最新的直至第五批深度合成服务算法备案信息的公告

        根据目前公开的国内大模型算法备案统计来看,首批境内深度合成服务算法备案清单,总共通过了五批。
        以第二批举例,境内深度合成服务算法备案清单,总共通过110家,其中25家上市公司、互联网大厂和独角兽企业成功申报算法备案72个,占比高达65%,29家新兴互联网公司成功申报算法备案38个,平均每家企业成功申报4个算法备案。而35家互联网小厂,总共仅有47个算法通过备案,仅占比31.2%,平均每家企业只成功申报1.3个算法。
       可见互联网小厂算法备案通过率不及大厂一半,大厂更重视安全合规、以及有资源力量可以快速对算法备案进行专业响应,反观小厂还在算法备案上犹豫,撰写申报材料能力有限,或者还在备案路上不断试错,延误时间,大模型备案相较算法备案来说要复杂的多。
本文共分为以下几个章节

 
一、大模型算法备案的强制性
二、生成式人工智能(大语言模型)安全评估要点
三、大模型备案必备材料+重点说明
四、大模型备案填报流程
五、大模型备案时间成本对比
六、备案建议
附录、过程性材料

一、大模型算法备案的强制性
1、强制要求备案
(1)《办法》第六条规定:利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。
(2)根据《算法推荐规定》第三十一条规定:算法推荐服务提供者违反该规定第二十四条,不履行或未按时履行算法备案义务的,应承担如下法律责任:警告、通报批评;罚款;刑事责任等(简化版)。
2、强制实现
(1)根据《算法推荐规定》第三十三条规定:具有舆论属性或者社会动员能力的算法推荐服务提供者通过隐瞒有关情况、提供虚假材料等不正当手段取得备案的,予以撤销备案,关闭网站、吊销相关业务许可证或吊销营业执照等处罚。
(2)算法备案不是审查制度,是通过事前手段对算法产品加强管理的方式,算法产品通过备案不意味着监管部门认可实质内容。在算法应用过程中,用户可以通过公开渠道查询到算法产品的备案信息,若发现互联网服务提供者实际提供的服务与其备案内容不符,可向监管部门投诉、举报。


二、生成式人工智能(大语言模型)安全评估要点
1、语料安全评估
(一)评估内容
(1)文本训练语料规模
训练语料存储规模,按文本格式存储时的语料大小。
训练语料数量,按词元 (Token) 计数。
(2)各类型语料规模
训练语料中的中文文本、英文文本、代码、图片、音频、
视频及其他语料的规模。
(3)训练语料来源
训练语料来源的组成情况,按照开源语料、自采语料、商业语料进行分类。
境外开源网站语料内中文文本、英文文本、代码、图片、音频、视频及其他语料的规模。
自采语料内中文文本、英文文本、代码、图片、音频、视频及其他语料的规模。
商业语料内中文文本、英文文本、代码、图片、音频、视频及其他语料的规模。
(4)语料标注数量
语料标注的数量,仅限文本和图片,按标注单元计数,
通常按条数、张数。
(5)标注人员情况
标注人员的数量,标注人员的类型,通常包括内部、外包。
标注人员培训时间、培训数量等情况。
(6)标注规则
按照《生成式人工智能服务管理暂行办法》第四条要求制定的标注规则。
(7)标注内容准确性核验
标注内容准确性人工核验比例。
(8)语料合法性
语料来源合法性情况。
语料是否包含侵害他人知识产权内容。
语料是否包含违法违规的个人信息内容。
(二)评估结论
评估结论应包括以下内容:
(1)语料是否符合《生成式人工智能服务管理暂行办法》相关规定,是否含有违反我国法律法规明确禁止的内容。
(2)语料中包含个人信息语料的数量、种类,是否符合《生成式人工智能服务管理暂行办法》规定。
(3)因语料产生知识产权纠纷的风险分析。
(4)防范语料安全风险的措施和建议。
2、模型安全评估
(1)语料内容评估
采用人工抽检,说明抽检数量与合格率。
采用关键词抽检,说明抽检数量与合格率。
采用分类模型抽检,说明抽检数量与合格率。
(2)生成内容评估
采用人工抽检,说明抽检数量与合格率。
采用关键词抽检,说明抽检数量与合格率。
采用分类模型抽检,说明抽检数量与合格率。
(3)涉知识产权、商业秘密的评估
评估方法、评判标准以及评估结果等。
(4)涉民族、信仰、性别等的评估
评估方法、评判标准以及评估结果等。
(5)涉透明性、准确性、可靠性等的评估
评估方法、评判标准以及评估结果等。
3、 安全措施评估
(1)模型适用人群、场合、用途
服务的适用人群,是否适用未成年人、学生等。
适用场合,是否适用关键信息基础设施、自动控制、医疗信息服务、心理咨询等。
服务范围,是否限定或未限定特定领域。
(2)服务过程中收集保存个人信息情况
服务过程中收集保存个人信息情况,包括个人信息的类型、数量、用途以及保存期限。
(3)收集个人信息征得个人同意情况
收集个人信息征得个人同意的方式。
(4)受理处理使用者查阅、复制、更正、补充、删除个人信息请求的情况
受理处理的条件以及途径方法。
(5)图片、视频标识情况
标识的样式,按1:1 比例贴入。
标识在图片、视频中的具体位置。
标识频度,如每帧、跳帧等。
(6)接受公众或使用者投诉举报情况
接受公众或使用者投诉举报的途径及反馈方式。
(7)服务协议情况
上述1至6内容是否已经写入模型服务协议。
(8)非法内容拦截措施
监看人员的数量。
预置关键词拦截情况,并提供预置关键词拦截列表。
分类模型的检测情况,说明分类模型研制情况和准确性。
(9)拒答率
拒绝回答或者以简单模板回答数量占总测试数量的比率。
(10)模型更新、升级
在何种情况下重新进行预训练,如较频繁发现生成非法


三、大模型备案必备材料+参考资料
必备材料清单
《算法备案承诺书》
《落实算法安全主体责任基本情况》
《算法安全自评估报告》
《拟公示内容》
《落实算法安全主体责任基本情况》,需要50页左右,《算法安全自评估报告》 100 页左右,包含附录各种证明材料。材料申报难度较高,一方面涉及专业问题非常全面,可能算法数据人员在实际工作中都未思考过,更不好回答;另一方面对于算法的详细描述质量,有较高的要求,非专业人员无法胜任报告的撰写。
1、《 算法安全自评估报告》
重点说明,需要明确以下4个点
(1)算法原理和逻辑
(2)数据来源合规性
(3)算法透明度和可解释性
(4)安全漏洞检测与应对
《算法安全自评估报告》是整个申报过程中最难和最重要的材料,总共160+种备案关键指标需要回答,且所有问题都必须要回答清楚,如果不理解问题表述,需要寻求专业求助,不能删除问题不回答,更不能随意回答,回答的详细程度和准确性决定算法备案是否通过。
撰写评估报告的难点主要在于三点:
一是要对算法进行全面的评估,包括安全性、可靠性、有效性等,同时需要与法务的参与,必须要符合法律法规;
二是数据的合规性,要有数据来源的开源授权协议或相关合作证明,确保数据在使用中符合相关行业法规和标准,避免违规操作;
三是风险预估与应对策略,对各种可能出现的风险进行评估,并进行对应的策略。
2、《落实算法安全主体责任基本情况》
这个文档的填写难度较高,需要明确3个重点
(1)如何做好信息安全监测
(2)如何做好内容安全监测
(3)如何做好用户个人信息安全监测
做好以上几点需要产品、研发算法、法务团队的密切配合,材料需要详细提供企业建立的算法安全相关组织和制度,但大多数公司还没有建立算法制度,网上的资料还少,其中制度又分为了自评估制度、监测制度、应急处置制度和违法违规处置等。
如有不清晰的,可以私信联系我,目前我们团队也对外提供咨询服务。
3、《xxx大模型算法”拟公示内容》【公示内容《拟公示内容》】
这部分信息主要在网页端的信息填报环节,这部分包括算法名称、算法基本原理、算法运行机制、算法应用场景、算法目的意图、算法公示情况(选填),一般一页word即可
4、申请公司营业执照副本彩色扫描件;
5、法定代表人身份证彩色扫描件+手机号+电子邮箱;
6、算法安全负责人身份证彩色扫描件+手机号+电子邮箱+工作证明(如工作证扫描件);
7、联系人身份证彩色扫描件+手机号+电子邮箱;法人、安全责任人、联系人 分别三人担任
8、算法机构设置(主要工作职责、任职要求、配备的规模、保障措施);
参考资料
1、《互联网信息服务深度合成管理规定》
2、《互联网信息服务算法推荐管理规定》
3、《生成式人工智能服务安全基本要求》
补充说明
《落实算法安全主体责任基本情况》《算法安全自评估报告》是非常重要并且比较繁琐的,需要画出流程图,描述各个产品研发过程、输入输出的算法原理、范围、来源、限制,算法的意图、算法的逻辑、使用的技术、数据结构、对数据安全保障和风险防范措施。程序的构造和原理主要包括计算机程序设计语言、算法设计、编码、调试、测试等技术。
如有不清晰的,可以私信联系我,目前我们团队也对外提供咨询服务。


四、大模型备案填报流程及重难点分析
1、填报入口
登陆互联网信息服务算法备案系统(以下简称备案系统)进 行填报,网址为 https://beian.cac.gov.cn。
系统首页如图 1 所示。


图 1 备案系统首页(示意图)
2、填报流程
填报人员需首先注册并登陆备案系统,具体步骤可参考该系 统信息公告中的《互联网信息服务算法备案系统使用手册》。登 录后的主页面如图 2 所示。


图 2 主页面(示意图)
深度合成备案填报包括三个步骤:一是填报主体信息;二是填报算法信息;三是关联产品及功能信息或填报技术服务方式;四是线下审核。
“深度合成服务提供者”(以下简称“服务提供者”)角色 的填报人员需关联产品及功能信息,“深度合成服务技术支持者” (以下简称“服务技术支持者”)角色的填报人员需填报技术服务方式。其中,“服务提供者”是指提供深度合成服务的组织、 个人;“服务技术支持者”是指为深度合成服务提供技术支持的 组织、个人。填报流程如图 3 所示。


图 3 填报流程(示意图)
(一)主体信息填报
填报人员可点击主页的“主体信息”进行主体信息填报,按 照备案主体的实际情况如实填写主体的基本信息、证件信息、法定代表人信息、算法安全责任人信息等内容,并下载附件模板,严格按照模板要求填写并上传《算法备案承诺书》和《落实算法安全主体责任基本情况》附件。主体信息填报页面如图 4 所示。


图 4 主体信息填报页面(示意图)
(二)算法信息填报
填报人员可点击主页的“备案信息”进行算法信息填报。算 法信息填报包括两个步骤:一是填写算法基础属性信息;二是填写算法详细属性信息。
(1)填写算法基础属性信息
填报人员需选择“生成合成(深度合成)”算法类型,根据实际情况选择“服务提供者”或“服务技术支持者”填报角色。 填报人员需下载页面中的模板,按照模板内容填写并上传《算法安全自评估报告》《拟公示内容》等附件。算法基础属性信息填报页面如图 5 所示。


图 5 算法基础属性信息填报页面(示意图)
(2) 填写算法详细属性信息
填报人员可参考当前填报页面右方的说明文字,根据实际情况填写算法数据、算法模型、算法策略和算法风险与防范机制等信息。填报时,如需中途退出,可点击页面下方的“保存至草稿箱”,保存当前已填写的内容,便于后续继续填写。算法详细属性信息填报页面如图 6 所示。


图 6 算法详细属性信息填报页面(示意图)
(三)产品及功能信息或技术服务信息填报
在关联产品及功能信息或填报技术服务方式时,“服务提供者”角色的填报人员需关联产品及功能信息,“服务技术支持者” 角色的填报人员需填报技术服务方式。
(1)关联产品及功能信息
“服务提供者”角色的填报人员需根据实际情况勾选应用当前备案算法的产品及功能。需要注意的是,若勾选产品,则表示当前备案算法应用于该产品下所有功能;若勾选功能访问路径,则表示当前备案算法应用于该路径下所有功能;若勾选特定功能,则表示当前备案算法仅应用于被勾选的功能。勾选产品页面如图 7 所示。


图 7 勾选产品页面(示意图)
若当前产品及功能信息不完善,即产品及功能不能覆盖当前备案算法的关联范围,填报人员可点击该界面下方的“保存至草 稿箱”按钮,返回主页并点击主页的“产品及功能信息”完善相应的产品及功能信息。产品及功能信息填报页面如图 8 所示。


图 8 产品及功能信息填报页面(示意图)
待产品及功能信息完善后,算法备案填报人员可通过草稿箱返回至“备案信息”页面继续进行算法信息填报。其中,草稿箱的进入方式有两种:一是点击主页右上角用户昵称,在下拉菜单中选择“草稿箱”;二是点击主页“备案信息”按钮,从备案信息界面中进入“草稿箱”。
(2)填报技术服务方式
“服务技术支持者”角色的填报人员需根据实际情况填写当前备案算法的技术服务方式信息,包括技术服务名称、技术访问方式、技术服务对象、技术服务频度等。填报技术服务方式页面如图 9 所示。


图 9 填报技术服务方式页面(示意图)
(四)提交备案信息
算法备案填报人员在确认填报信息无误后,应勾选页面下方的“我承诺上述填报信息真实有效”,并点击提交按钮,完成算法备案申报。确认信息页面如图 10 所示。


图 10 确认信息页面(示意图)
五、大模型备案时间成本对比

自己写提供备案服务
时间成本不确定。涉及学习时间和反复修改时间。学习难度大,需要从头学习并理解相关法规和要求,揣度得分要点。审核流程不够透明,需要反复试错,自己备案没有经验。自己写的话,备案审核时长平均8个月,驳回一次等3个月,可能会影响产品上线。2-3个月拿到备案号
人力成本需要同时具备算法研发、AI、安全、法务专业经验的人员。需要组织跨部门联合小组共同推进。只需要少量算法技术配合,公司资质配合等简单工作,一站式服务/指导
通过率不确定,可能会影响产品上线只要合规,一定可以通过
花费N个月*M个人*每月人力成本有意向可以沟通,远低于自己探索的成本


六、备案建议
1、是否需要专业指导
在详细了解算法备案申报要求和规则基础上,可选择自己做,如果不了解,会造成申报材料反复出错被打回,增加试错的时间成本,严重延缓获得备案号的时间。
寻求专业指导,要避免误区,算法备案属于技术型工作,并不属于法律相关服务。需要寻找有自主备案成功经验和相关行业背景的机构进行辅导服务。专业的事交给专业的而做,在时间效率上,专业机构无疑会更准确的立即监管要求,从而更好更快的完成算法备案工作。
2、提升通过率
没有绝对的通过率高低之分,备案取决于模型和数据是否合规合法,只要申报材料能完整、如实描述,有完整的制度、策略、流程规避安全风险,理论上都是可以通过的。区别在于一次性快速通过,还是多次修改最终通过。


附录、过程性材料【可赠送】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/43561.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python的异常处理(与C++对比学习)

一、C语言中错误的处理方式 用assert来判断一个表达式是否出错;在调用接口函数时,接口函数会设置errno,我们可以通过errno,strerror(errno)来拿到错误码和错误信息。在自定义函数中,我们设置函数错误信息处理的时候&a…

告别堆积,迎接清新:回收小程序,打造无废生活新选择

在快节奏的现代生活中,物质的丰富与便利似乎成为了我们日常的一部分,但随之而来的,是日益增长的废弃物堆积问题。街道边、社区里,甚至是我们的家中,废弃物品仿佛无孔不入,逐渐侵蚀着我们的生活空间与环境质…

基于Netty的自研流系统缓存实现挑战: 内存碎片与OOM困境

01 前言 Kafka 作为流处理平台,在实时流计算和在线业务场景,追尾读追求端到端低延迟。在离线批处理和削峰填谷场景,数据冷读追求高吞吐。两个场景都需要很好的数据缓存设计来支撑,Apache Kafka 的数据存储在本地文件&#xff0c…

pointnet2_ops_lib/.安装报错解决方案

问题 3D点云相关的代码例如pointnn、pointmlp都需要安装pointnet2_ops,可是基本上在安装pointnet2_ops时总会报错,终归原因是虚拟环境的cuda版本和安装的torch,torchvision, torchaudio版本不一致导致。 方案 这里以pointmlp&am…

Sharding-JDBC分库分表之SpringBoot主从配置

Sharding-JDBC系列 1、Sharding-JDBC分库分表的基本使用 2、Sharding-JDBC分库分表之SpringBoot分片策略 3、Sharding-JDBC分库分表之SpringBoot主从配置 前言 在开发中,如果对数据库的读和写都在一个数据服务器中操作,面对日益增加的访问量&#x…

解锁算力新极限,Xilinx UltraScale+赋能的高性能低延时FPGA加速卡

01、产品概述 AiHPC-V9P 是一款基于 AMD Virtex UltraScale FPGA VU9P 的 PCIe Gen3.0 x16 接口智能网卡,具有最大2*200GbE /或者16*10GbE(典型应用)接入容量的高性能低延时智能网卡。 对外接口支持两组QSFP-DD 最高25Gb/s x8Lane 光口接入&#xf…

数据库系统概论 | MySQL | 数据定义 | 单表查询 | 嵌套查询 | 连接查询 | 带有谓词的查询

数据定义 模式的定义与删除 定义模式与删除模式: CREATE SCHEMA S_C_SC; DROP SCHEMA S_C_SC;进入模式: USE S_C_SC;建立学生表: CREATE TABLE Student (Sno CHAR(8) PRIMARY KEY, Sname VARCHAR(20) UNIQUE, Ssex CHAR(6), Sbirthdate …

【Sql Server】sql server 2019设置远程访问,外网服务器需要设置好安全组入方向规则

大家好,我是全栈小5,欢迎来到《小5讲堂》。 这是《Sql Server》系列文章,每篇文章将以博主理解的角度展开讲解。 温馨提示:博主能力有限,理解水平有限,若有不对之处望指正! 目录 前言1、无法链接…

北斗防爆手持终端在化工厂的安全性能分析

北斗防爆手持终端在化工厂中的应用显著提升了安全性能,其卓越的防爆设计、高精度定位与监控功能、实时通信能力以及多功能集成特性,共同构筑了化工厂安全生产的坚实防线,确保了巡检人员与设备在复杂环境下的安全作业与高效管理。 北斗防爆手持…

AE-图层

目录 图层初体验 项目、合成和图层的关系 图层的通用参数 锚点(快捷键A) 位置(快捷键P) 缩放(快捷键S) 旋转(快捷键R) 不透明度(快捷键T) 向后平移锚…

实时监测、智能预警:电缆光纤测温系统|原理、应用与前景

实时监测、智能预警:电缆光纤测温系统|原理、应用与前景 电缆光纤测温系统,作为现代电力系统中不可或缺的一部分,以其独特的优势在电缆安全监控领域发挥着日益重要的作用。该系统利用光纤传感技术,实时监测电缆的运行温度&#x…

网站高性能架构设计——高性能缓存架构

从公众号转载,关注微信公众号掌握更多技术动态 --------------------------------------------------------------- 一、缓存基础 1.缓存简介 缓存提升性能的幅度,不只取决于存储介质的速度,还取决于缓存命中率。为了提高命中 率&#xff0c…

【博主推荐】HTML5好看的酷酷的个人简历、个人主页、个人网站源码

文章目录 1.设计来源1.1 主界面1.2 关于我界面1.3 我的项目界面1.4 我的经验界面1.5 我的技能界面1.6 我的文章界面1.7 联系我界面 2.效果和源码2.1 动态效果2.2 源代码 源码下载万套模板,程序开发,在线开发,在线沟通 作者:xcLeig…

智能猫砂盆怎么买才不踩雷?2024热门的三款智能猫砂盆分享!

上班外出来不及铲屎怎么办?那当然是入手一个智能猫砂盆啦。实不相瞒,以前我也是被手动铲屎长期折磨的可怜铲屎官,但上班出差哪有空一直盯着猫砂盆看呢?索性后面一不做二不休直接购入了智能猫砂盆。如果你也想将家里的普通猫砂盆换…

如何让 3D 数字孪生场景闪闪发光

今日图扑软件功能分享:我们将探讨 HT 系统如何通过分组管理灯光、裁切体和流光,以提高场景光影效果的精准度和整体可控性。 HT 中的灯光、裁切体、流光是会影响它所在区域一定范围内的其他节点的表现,如 场景中有个 A 灯光,默认情…

阿里云登陆Centos7

用自己电脑登陆Centos7太麻烦了,还要自己弄个虚拟机,一个电脑里面既有WIN又有LINUX,索性直接买个阿里云服务器,来学习Centos7。 购买 我是新用户,可以试用3个月,先用个3个月再说哈哈哈。 一系列操作之后…

电竞玩家的云端盛宴!四大云电脑平台:ToDesk、顺网云、青椒云、极云普惠云实测大比拼

本文目录 一、云电脑概念及市场需求二、云电竞性能测试2.1 ToDesk云电脑2.2 顺网云2.3 青椒云2.4 极云普惠云电脑 三、四大云电脑平台综合配置对比3.1 CPU处理器3.2 GPU显卡3.3 内存 四、总结 一、云电脑概念及市场需求 在数字化时代的推动下,云计算技术日益成熟&a…

关于嵌入式系统中的LED控制程序的一篇爽文

嵌入式系统中的LED控制程序 在嵌入式系统中控制LED是一个很常见的任务,可以用于指示状态、显示信息等。我们将使用C语言编写一个简单的LED控制程序,该程序将控制一个虚拟的LED,但可以根据需要将其扩展到实际的硬件上。 准备工作 在开始之前…

2024QS世界大学学科排名(各学科详细)

2024QS全球高校学科排名附榜单: 人文与艺术相关学科全球Top10 社会科学与管理相关学科全球Top10 自然科学相关学科全球Top10 工程与技术相关学科全球Top10 生命科学与医学相关学科全球Top10

Flutter 是如何实现的 ?

Flutter 是由 Google 开发的一个开源 UI 软件开发工具包,用于构建跨平台的应用程序。Flutter 的核心理念是提供一个高度可定制、快速和现代的 UI 框架,它允许开发者使用一套代码库构建 Android、iOS、Web 和桌面应用程序。以下是 Flutter 的一些关键实现…