《深度学习的数学》这本书再合适不过了。作者罗纳德.T.纽塞尔(Ronald T. Kneusel),拥有超过 20年的机器学习行业经验。 本书适合有一定深度学习基础、了解Python编程语言的读者阅读,也可作为用于拓展深度学习理论的参考书。
为什么这么说?看看书中的都讲了哪些内容:
- 概率论
- 概率论进阶
- 统计学
- 线性代数
- 线性代数进阶
- 微分
- 矩阵微分
- 经网络中的数据流
- 反向传播
- 梯度下降
本书就是为希望更了解深度学习底层数学基础的朋友们准备的。与其他数学书不同,本书 围绕深度学习展开,阐述了深度学习背后的核心数学概念,包括统计学、线性代数、微分等, 并且包含了很多人容易忽略的矩阵微分。另外,本书的示例是以Python 代码而不是严格理论证 明的形式展开的,这使得它们特别适合深度学习的从业者(特别是初学者)使用,尤其是那些 希望通过学习底层数学知识来更好地了解深度学习原理,从而改进训练算法和模型的朋友。
深度学习的核心概念涉及自然科学、工程技术和数学。各家公司一直在试图给出其正式定 义,但难以涵盖方方面面,以至于当他们想招聘该领域头部人才的时候,只好将职位要求描述 得非常宽泛。与此类似,这一领域的学术课程,往往需要跨不同学科,才能让学生习得所需的 技能。尽管在实战中,运用深度学习技术需要跨不同领域的学科知识,但其核心仍建立在数学理论的基础上,包括概率论、统计学、线性代数和微分。至于对这些数学基础理论要掌握和理 解到什么程度,就要看你希望对深度学习技术精通到何种程度了。
本书致力于为深度神经网络的工作人员在实施算法的过程中遇到的各种挑战提供解决方案。他们通常遇到的挑战在于如何有效地利用现有方案解决问题,比如去哪里找寻源代码、如何设置工作环境来运行代码、如何进行单元测试,以及最终如何用业务数据训练模型来解决实 际问题。这些深度神经网络可能有数千万甚至上亿的参数需要学习,而且即便是精通算法的研 究员,也需要在有充足训练样本的情况下,通过精细化的调参才能实现有效优化,达到对数据的良好表征。初次(第二次、第三次也一样)实现模型的时候,他们通常会经历痛苦的网络最 优结构的搜索过程,而只有具备对底层数学原理的高水平理解的人才能胜任这些工作。
而当算法人员开始对整个方案进行整合的时候,他们就要进一步提高专业度,不仅要熟悉 本领域的知识,也要理解深度学习的底层基础模块。此时,他们所面临的挑战将不只是简单的 算法实现,而且需要运用核心概念对目标领域的问题建模。挑战再次降临!他们可能面临梯度爆炸的问题,也可能为了更好地对问题建模而不得不修改损失函数,却又发现损失函数不可微 (也就无法进行梯度计算),抑或在训练模型的时候发现优化算法效率太低。本书为这些人填补了空白。通过清楚地阐述深度学习所需的核心数学概念,本书可以帮助他们解决这些困难。
关于本书
这虽然是一本关于数学的书,但其中不会有大量公式证明和练习题,我们主要通过代码来 阐述各种概念。深度学习是一门应用学科,所以你需要在实践中理解其内涵。我们将用代码填 补数学理论和应用实践之间的空白。
本书内容安排有序,首先介绍基础理论,然后引出更高级的数学内容,最后用实际的深度 学习算法让你将之前掌握的内容融会贯通。建议你按照书中的内容顺序阅读,如果遇到已经非常熟悉的内容,你可以直接跳过。
第1章:搭建舞台
该章对工作环境以及深度学习中的常用组件进行配置。
第2章:概率论
概率论影响深度学习的方方面面,它是理解神经网络训练过程的关键。作为本书概率论的 前半部分,该章介绍该领域的基础知识点。
第3章:概率论进阶
单靠一章难以覆盖重要的概率论的全部内容,该章继续探索概率论中与深度学习相关的知 识点,包括概率分布和贝叶斯定理。
第4章:统计学
统计学对理解数据和评估模型非常重要,而且概率论也离不开统计学,要理解深度学习, 就不得不理解统计学。
第5章:线性代数
线性代数是一门关于向量和矩阵的学科,而深度学习就以线性代数为核心。实现神经网络 本身就是在运用向量和矩阵进行运算,所以理解相关概念和运算方法非常关键。
第6章:线性代数进阶
该章继续讨论线性代数知识,内容聚焦于矩阵的相关核心内容。
第7章:微分
或许训练神经网络的最核心理论基础就是梯度。要想理解和使用梯度,就必须掌握如何对 函数求导。该章介绍求导和梯度的理论基础。
第8章:矩阵微分
在深度学习中,求导往往是针对向量和矩阵进行的。该章把导数的概念扩展到这些对象上。 第9章:神经网络中的数据流
要想理解神经网络如何对向量和矩阵进行运算,就必须理解数据在神经网络中是如何流转 的。该章讨论这些内容。
第10章:反向传播
成功训练神经网络离不开两个关键算法:反向传播和梯度下降。该章通过介绍反向传播, 帮助你对前面所学知识加以应用。
第11章:梯度下降
梯度下降使用反向传播过程中计算得出的梯度来训练神经网络。该章从简单的一维函数开 始探讨梯度下降, 一步步讲到全连接网络的情况。除此之外,该章还会介绍并对比梯度下降的 各种变体。
附录:学无止境
本书虽然略过了概率论、统计学、线性代数和微分中的很多知识点,但附录部分会给你提供进一步学习相关领域的资源。