2022 年 11 月 30 日一个很重要的标志事件就是chatgpt的出现,打开了生成式人工智能的开端。这也许会是一个历史性的时刻,今天是2025年4月,过去两年多,那个时刻目前回想还是对本人造成了冲击,一个完全有自主分析能力的生成式AI机器人。这也标志新一轮的技术突破开始了。
早期所有人都采用强化学习进行深度学习应用,但是在2021年开始,生成式的训练方式开始出现,行业内有一段时间出现,模拟生成缺陷的技术方案。但是这种方案最终没有发展起来,主要问题是主干网络的模型参数小,无法模拟更自然的缺陷数据。在这个过程中,技术人员对主干网络特征(早期是Resnet,目前是VIT)映射到相似的生成数据上,用来模拟缺陷数据方案。
模拟数据的输出,也是最早期生成式网络的开端。在2023年开始,这种以模型总结数据特征,并提炼数据信息特征,在通过编码映射为人类可以理解的信息成为主流。包括目前流行的DeepSeek,文心一言,豆包等模型。不同的是处理数据方式和采用的数据有差异,基本原理都是一致的。在研发过程中有一个特别重要的信息数据信息特征。
数据信息特征是高质量的人工标注数据通过强化学习得到的,目前公开的高质量数据特别多,也被大部分团队重复使用。所以从数据层面模型的能力都差不多,只是不同模型偏重的方向不一样。有对话,视觉,音频等,各种针对不同场景的模型。
同样在工业检测的应用中,我们也是采用的数据信息特征进行分析。完成生成式的AI用来检测工业缺陷。在使用过程中,目前主流的预训练视觉模型比如dinov2,CLIP等多模态模型,因为通过大数据的强化学习后,模型的特征提取主要基于范式的特征信息,而非指定的数据特征,这对生成过程中的数据容差特别重要。
通过预训练的大模型,生成基于当前输入的图片特征BackOne。获得最基本的范式特征信息,这些特征可以进行MLP拟合或者特征比对,输出缺陷区域,和缺陷类型。完成生成过程的检测
博主对这套大模型方案已经完成,可以在DY关注“军哥讲视觉”,或者WX搜索“军哥讲视觉”进行详细了解