深度学习训练时问题:调参/类别不平衡

1. 调参

  1. 快速迭代,过拟合:刚开始, 先上小规模数据, 模型往大了放, 只要不爆显存, 能用256个filter你就别用128个. 直接奔着过拟合去. 没错, 就是训练过拟合网络, 连测试集验证集这些都可以不用.为什么?+ 你要验证自己的训练脚本的流程对不对. 这一步小数据量, 生成速度快, 但是所有的脚本都是和未来大规模训练一致的(除了少跑点循环)+ 如果小数据量下, 你这么粗暴的大网络奔着过拟合去都没效果. 那么, 你要开始反思自己了, 模型的输入输出是不是有问题? 要不要检查自己的代码(永远不要怀疑工具库, 除非你动过代码)? 模型解决的问题定义是不是有问题? 你对应用场景的理解是不是有错? 不要怀疑NN的能力, 不要怀疑NN的能力, 不要怀疑NN的能力. 就我们调参狗能遇到的问题, NN没法拟合的, 这概率是有多小?+ 你可以不这么做, 但是等你数据准备了两天, 结果发现有问题要重新生成的时候, 你这周时间就酱油了.
  2. Loss设计要合理.+ 一般来说分类就是Softmax, 回归就是L2的loss. 但是要注意loss的错误范围(主要是回归), 你预测一个label是10000的值, 模型输出0, 你算算这loss多大, 这还是单变量的情况下. 一般结果都是nan. 所以不仅仅输入要做normalization, 输出也要这么弄.+ 多任务情况下, 各loss想法限制在一个量级上, 或者最终限制在一个量级上, 初期可以着重一个任务的loss
  3. 3. 观察loss胜于观察准确率 准确率虽然是评测指标, 但是训练过程中还是要注意loss的. 你会发现有些情况下, 准确率是突变的, 原来一直是0, 可能保持上千迭代, 然后突然变1. 要是因为这个你提前中断训练了, 只有老天替你惋惜了. 而loss是不会有这么诡异的情况发生的, 毕竟优化目标是loss. 给NN一点时间, 要根据任务留给NN的学习一定空间. 不能说前面一段时间没起色就不管了. 有些情况下就是前面一段时间看不出起色, 然后开始稳定学习.
  4. 4. 确认分类网络学习充分 分类网络就是学习类别之间的界限. 你会发现, 网络就是慢慢的从类别模糊到类别清晰的. 怎么发现? 看Softmax输出的概率的分布. 如果是二分类, 你会发现, 刚开始的网络预测都是在0.5上下, 很模糊. 随着学习过程, 网络预测会慢慢的移动到0,1这种极值附近. 所以, 如果你的网络预测分布靠中间, 再学习学习.
  5. 5. Learning Rate设置合理 + 太大,bert的lr微调用处不大,但如果从不可用到可用的调整还是可以的: loss爆炸, 或者nan
    • 太小: 半天loss没反映(但是, LR需要降低的情况也是这样, 这里可视化网络中间结果, 不是weights, 有效果, 俩者可视化结果是不一样的, 太小的话中间结果有点水波纹或者噪点的样子, 因为filter学习太慢的原因, 试过就会知道很明显)
    • 需要进一步降低了: loss在当前LR下一路降了下来, 但是半天不再降了.
      • 如果有个复杂点的任务, 刚开始, 是需要人肉盯着调LR的. 后面熟悉这个任务网络学习的特性后, 可以扔一边跑去了.
      • 如果上面的Loss设计那块你没法合理, 初始情况下容易爆, 先上一个小LR保证不爆, 等loss降下来了, 再慢慢升LR, 之后当然还会慢慢再降LR, 虽然这很蛋疼.
      • LR在可以工作的最大值下往小收一收, 免得ReLU把神经元弄死了. 当然, 我是个心急的人, 总爱设个大点的.
  6. 6 对比训练集和验证集的loss 判断过拟合, 训练是否足够, 是否需要early stop的依据, 这都是中规中矩的原则, 不多说了.
  7. 小心评价指标有问题

作者:Captain Jack
链接:https://www.zhihu.com/question/25097993/answer/127472322
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

CV调参

2.类别不平衡

类别不平衡
解决类不平衡的方法主要有三种,分别是欠采样,过采样和阈值移动(也叫调整权重)

问题:是否做到无偏采样

  • 实际平衡,采样导致不平衡,阈值仍为0.5
  • 实际不平衡,采样也不平衡,阈值可能并不是0.5

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481411.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

哈佛大学教授详解:深度学习和经典统计学差异?

来源:机器学习研究组订阅深度学习和简单的统计学是一回事吗?很多人可能都有这个疑问,毕竟二者连术语都有很多相似的地方。在这篇文章中,理论计算机科学家、哈佛大学知名教授 Boaz Barak 详细比较了深度学习与经典统计学的差异&…

【CTR优化】威尔逊区间

实际&#xff1a;正态分布 采样得到的&#xff1a;不一样 p^\hat{p}p^​:wilson p: 区间相等原则:&#xff08;假设&#xff09; P1/P2都是P,是实际值 做CTR优化时 p^\hat{p}p^​为计算所得CTR点击率/曝光率 优化后的为w- 疑问&#xff1a;why取w-?因为默认P<p(P1<p) …

数字科技与数字经济的数字大脑模型

本文2022年10月发表于中国科学报社《科学新闻》杂志作者&#xff1a;刘锋21世纪是数字科技和数字经济爆发的时代。从2000年开始&#xff0c;社交网络、web2.0等数字科技不断涌现&#xff0c;由此诞生的谷歌、亚马逊、腾讯、阿里巴巴、京东等科技企业构成了日益壮大的数字经济&a…

【hadoop3.2.1】windows10 docker学习环境创建,windows和容器bridge模式下联网,测试例子

本地机器&#xff1a;windows10 虚拟机&#xff1a;centOS7.9 docker创建hadoop学习环境 1.创建docker镜像&#xff08;hadoop&#xff09; 下载centos镜像: docker pull centos 启动一个容器&#xff1a;docker run -td --name base -i centos bash 进入容器&#xff0c;安装…

工信部专家:中国传感器最大的问题是什么?怎么解决?(最新观点)

来源&#xff1a;中国传感器与应用技术大会、河南省智能传感器行业协会、中国电子报、传感器专家网&#xff08;本文仅做综合整理&#xff09;11月11日-13日&#xff0c;首届中国传感器与应用技术大会在深圳市光明区隆重举行。会上&#xff0c;工信部电子元器件行业发展研究中心…

皮亚杰:数学结构和逻辑结构

来源&#xff1a;人机与认知实验室计算是封闭的事实结构&#xff0c;算计是开放的价值组合&#xff0c;计算计是开放性封闭的事实价值混合体——编者按群的概念如果不从检验数学结构开始&#xff0c;就不可能对结构主义进行批判性的陈述。其所以如此&#xff0c;不仅因为有逻辑…

大模型狂欢背后:AI基础设施的“老化”与改造工程

来源&#xff1a;OneFlow社区作者&#xff1a;River Riddle、Eric Johnson、Abdul Dakak翻译&#xff1a;胡燕君、杨婷机器学习模型逐渐发展成人们口中的“庞然大物”。全球顶尖的科技公司纷纷踏上“军备竞赛”之路&#xff0c;立志训练出规模最大的模型&#xff08;MUM、OPT、…

DeepMind 最新发文:AlphaZero 的黑箱打开了

来源&#xff1a;AI科技评论作者&#xff1a;李梅编辑&#xff1a;陈彩娴AlphaZero 表明神经网络可以学到人类可理解的表征。国际象棋一直是 AI 的试验场。70 年前&#xff0c;艾伦图灵猜想可以制造一台能够自我学习并不断从自身经验中获得改进的下棋机器。上世纪出现的“深蓝”…

陶哲轩:张益唐新论文存在一些技术问题,我已请他澄清

来源&#xff1a;梦晨 羿阁 发自 凹非寺量子位 | 公众号 QbitAI张益唐的零点猜想证明&#xff0c;该由谁来检验&#xff1f;不少人把目光投向陶哲轩。最新消息&#xff0c;陶哲轩已经读过张益唐的论文并做出点评&#xff1a;目前论文的基本正确性尚未得到确认。存在一些印刷错误…

MIT提出封闭式连续时间神经网络,解决大脑动力学问题可产生灵活的机器学习模型...

编辑/绿萝去年&#xff0c;麻省理工学院&#xff08;MIT&#xff09;的研究人员开发出了「液体」神经网络&#xff0c;其灵感来自小型物种的大脑&#xff0c;不仅能在训练阶段学习&#xff0c;而且还能持续不断地适应。可用于自动驾驶和飞行、大脑和心脏监测、天气预报和股票定…

自上而下的因果关系:数学结构与观察者

导语复杂性的基础是模块化的分层结构&#xff0c;导致基于较低级别网络的结构和功能的涌现级别。通俗而言&#xff0c;当需要执行复杂的任务时&#xff0c;可以将其分解为子任务&#xff0c;每个子任务都比整个项目更简单&#xff0c;需要更少的数据和更少的计算能力&#xff0…

从大脑中汲取灵感,能效提高了1000倍,新芯片拓展AI的可能性

来源&#xff1a;ScienceAI人工智能算法无法以目前的速度保持增长。像深度神经网络这样的算法——它受到大脑的松散启发&#xff0c;多层人工神经元通过称为权重的数值相互连接——每年都在变大。但如今&#xff0c;硬件改进已无法跟上运行这些海量算法所需的大量内存和处理能力…

5G/6G:构建一个更加互联智能的世界

来源&#xff1a;IEEE电气电子工程师在过去几年中&#xff0c;随着5G网络技术的兴起&#xff0c;5G基础建设与应用也日渐成熟。2023年&#xff0c;通信行业的发展步伐也并未放缓。在《IEEE全球调研&#xff1a;科技在2023年及未来的影响》中显示&#xff0c;当半数的受访者谈及…

Science 撤稿“天使粒子”论文,原始数据受质疑

海归学者发起的公益学术平台分享信息&#xff0c;整合资源交流学术&#xff0c;偶尔风月11月18日&#xff0c; Science 撤下了王康隆、张首晟等科学家完成的著名“天使粒子”论文。2021年3月 Nature 也撤回了代尔夫特理工大学的一篇“天使粒子”相关的论文。两篇重量级论文的倒…

2022年全球人工智能产业态势分析

来源&#xff1a;学术plus 作者&#xff1a;学术plus观察员 曹文&#xff0c;惠文审核&#xff1a;行业研究顾问 辛鑫&#xff0c;行雁国家战略风向1.1 全球主要国家密集发布政策举措&#xff0c;争夺人工智能领域优势2022年全球主要国家在人工智能领域的竞争仍然激烈。据英国牛…

你与植物人有何区别?意识与复杂性的新研究给你答案

来源&#xff1a;Mindverse Research作者&#xff1a;郭瑞东相比无意识的时间&#xff0c;当你有意识时&#xff0c;你会有怎样的直观感受&#xff1f;是觉得更加不可预测&#xff0c;还是能够用相距更长的事件进行描述&#xff1f;如果将有意识时的大脑活动记录下来&#xff0…

NeuroAI作者,冷泉港主任独家专访:忽视神经科学给我们的启示是愚蠢的

来源&#xff1a;智源社区采访&整理&#xff1a;李梦佳校对&#xff1a;熊宇轩神经科学究竟如何启发AI&#xff1f;不同路径如何殊途同归&#xff1f;智源社区采访了NeuroAI白皮书的第一署名作者&#xff0c;来自冷泉港实验室&#xff08;Cold Spring Harbor Laboratory&am…

AI再卷数学界,DSP新方法将机器证明成功率提高一倍

来源&#xff1a;机器之心编谷歌的吴宇怀 (Yuhuai Tony Wu)等研究者设计了一种叫做「Draft, Sketch, and Prove」 (DSP)的新方法将非形式化的数学证明转化为形式化的证明。实验结果显示&#xff0c;自动证明器在 miniF2F 上解决的问题比例从 20.9% 提高到了 38.9%。自动证明数学…

华人数学家死磕欧拉方程10年,用计算机找到了让它失效的“奇点”

来源&#xff1a;金磊 发自 凹非寺量子位 | 公众号 QbitAI专研长达10年&#xff0c;论文足足177页。华人数学家通过计算机&#xff0c;找到了让著名欧拉方程失效的“奇点”。△图源&#xff1a;Quanta Magazine欧拉方程&#xff0c;是250年前&#xff08;1755年&#xff09;由瑞…

张益唐零点问题论文会是什么结果?

关注 哆嗒数学网 每天获得更多数学趣文最近&#xff0c;菲尔兹奖得主在他的一篇旧博文的评论区对张益唐关于朗道-西格尔猜想的论文进行了评论。大概意思是&#xff0c;论文还没被确认是正确的&#xff0c;因为文章已经发现的各种问题&#xff0c;其中一些问题还是阻碍验证的过程…