第2 部分:数学分析中的基本概念
(Concepts in Analysis)
8. 可微性(Differentiability)
本章讨论梯度(gradients)/斜率(slopes)和切线(tangent),指出常见的误解并解释如何避免这些误解。将可微性的定义与图形表示联系起来,展示如何将其应用于简单函数,并演示函数可能无法微分的方式。然后讨论均值定理(mean value theorem)和Taylor定理,并将它们与图形和证明联系起来。
8.1 何谓可微性(What is differentiability)?
本章是关于可微性的(differentiability),而不是关于微分的(differentiation)。你可能已经学习了几年的微分,没有人怀疑你区分标准函数的能国、或使用公式区分你从未见过的其他函数的能力(尽管你可能想确保你能快速准确地做到这一点——数学家会期待这一点)。在本科数学中,你将至少有一门课程,在其中你将学习区分更复杂函数的更高级的技术。然而,分析不是那样的一门课程。
在分析中,我们对进行微分的兴趣不大,我们更感兴趣的是函数可微分的真正含义。你可能对此考虑了很多,或者你可能考虑过一点,但后来因为考试中没有这方面内容而忘记了,或者你可能从未想过——也许你只是学会了使用导数表进行微分。无论是哪种情况,本章的一个目标是加强你对可微性的直观和规范化思考方式的了解,并确保你对两者之间的联系有很好的理解。我们将从直观的方法切入,回顾第 2.8 节中简要提出的思想。
粗略地估计,如果函数在某点具有一定的梯度或斜率,则该函数在该点是可微的(英国人说“梯度”,美国人说“斜率”——我是英国人,所以我将始终使用“梯度”)。同样,如果在某点上画一条切线是有意义的,则该函数在某点是可微的。例如,考虑由 f (x) = 3x 给出的线性函数 f : ℝ ⟶ ℝ。此函数在任何地方都有梯度 3。您可能没有过多考虑线性函数的切线,因为切线只有在图形是曲线而不是直线时才真正有趣。但是,这个线性图的切线与图形本身相同(要了解这在代数上是如何工作的,请选择一个点并按照您通常的方法来寻找切线)。当然,讨论这样的函数的梯度是有意义的。
接下来,考虑一个非线性函数,假设 f : ℝ ⟶ ℝ 由 给出。显然,适用于形如 y = mx + c 函数的梯度概念不适用于此函数。(注:在英国是 y = mx + c ,在美国是 y = mx + b,我不知道为什么。) 但是,直观的扩展确实有效。该图是弯曲的,但如果我们想象对其进行一次又一次放大,我们发现,其看起来越来越像一条直线。它实际上从来都不是一条直线,但大多数人会很高兴地说,在“极限”下,可以在图上画一条合理的切线:我们会对这条线在某一点处在其值和梯度都分别相同的意义上“匹配”函数感到满意。
因此,对于一个像 这样的函数,该图是弯曲的,但讨论梯度具有直观意义。我们不能讨论图的梯度(就像我们可以对 f (x) = 3x那样),因为梯度一直在变化。但我们可以讨论在某一点的梯度,这就足够了。
然而,并非所有函数都是这样的。例如,考虑由 f (x) = | x | 给出的函数 f : ℝ ⟶ ℝ 。在大多数点上,它都有一个合理的梯度:在 0 的左侧,梯度为 -1;在0的右侧,梯度为 1。但在点 x = 0 处呢?如果我们放大那里会发生什么?会有些不同:我们可以随意放大,而图形永远不会看起来更直。它总是有一个“角”,而且这个角永远不会变得不那么尖锐。因此,说图形在零处有梯度是没有意义的,我们无法绘制一条与图形“匹配”的切线。
这就是可微性的意义所在。通俗地说,如果在某点指定梯度是有意义的,因此可以认为在该点有一条有意义的切线,那么该函数在该点是可微的。如果函数在某点有一个“角”,那么该函数在该点是不可微的。这掩盖了许多技术细节和更复杂的考量,但我希望你将可微性视为一个有意义的概念,这是一个不错的起点。
8.2 常见误解(Some common misconceptions)
在我们讨论可微性的定义之前,我想提请大家注意一些关于导数和切线的常见误解。你可能没有任何这些误解,但它们是诱人的思维方式,在本科生中很常见。所以我们将研究它们为什么是错误的,并将它们排除在外。
首先,面对图上无有意义切线的点,人们有时会忍不住画一条。在“角”处,他们可能会画一条位于两边切线中间的“切线”,甚至画几条“切线”,就好像想象线在从图的一部分移动到另一部分时围绕该点旋转一样。根据公认的数学理论,这是错误的。在任何一点,图要么有一个有意义的梯度(因此有一条有意义的切线),要么没有。
其次,回想一下,我在第 2.6 节中讨论了草图可能产生误导的方式。梯度也会发生类似的情况。大部分的人们,当他们手绘由 给出的函数 f : ℝ ⟶ ℝ 图像时,画出了像这样的东西(注:实际上,很多人忽略了 x < 0 这段图,请不要这样做):
这使得图像在点 x = 2π 处看起来非常陡峭。然而,最大梯度实际上只有 1(为什么?)。按相同比例的轴绘制的函数 f 的图像实际上如下所示:
原始草图没有问题——我们可以用我们喜欢的任何轴比例来绘制图像——但我们应该确保我们对图像的解释是基于函数的性质,而不是让对函数的直觉受到略微误导的图像的影响。
第三,有些学生首先遇到切线不是与函数有关,而是与圆有关的情况。圆的切线只在一个点与圆相交,并且不会在切点处与圆相交(它在两个方向上都在圆的“外部”)。看一张图片就可以明白这一点:
这两种情况(译注:指与圆的接触点的两侧)都不适用于切线与函数图的关系。切线完全有可能在多个点与函数图相交,并且有可能在切点或其他某个点与函数图相交。例如,再次考虑函数由 给出的函数 f : ℝ ⟶ ℝ 。你能确定切线在切点处与曲线相交的点吗?在其他某个点相交?在无数个其他点相交?可能没有人明确地从圆过度将圆的图像推广为函数图像——没有学生会内心独白说“圆和函数是一样的,所以切线一定不会与函数图相交。”但重要的是要记住,在一个数学领域建立起来的理解可能并不适用于另一个数学领域。
第四,零导数的混淆可能会加剧这一问题。大多数学生对 “函数 的导数在 x = 0 处为零”这样的陈述没有问题。然而,当我们开始讨论(比如)由 g(x) = 5 给出的函数 g : ℝ ⟶ ℝ 的导数时,相当多的人会感到困惑。我认为这种混淆至少有三个不可靠的概念。有些人不太确定 g(x) = 5 是否真的是一个函数。毕竟,5 只是一个数,而一个函数“应该包含 xs”。同样,可能没有人明确地这样认为,但人们无论如何都会感到不安,因为表达式似乎与他们所期望的不同。这种混淆有时可以通过更好的记法来消除。若我们记为
由 g(x) = 5 给出的函数 g : ℝ ⟶ ℝ (对于任意x∈ℝ ),
则看起来似乎要好一些。
其他人认为“你无法区分一个数”。从技术上讲,这是正确的,但不是他们所指的那种。我们无法区分一个数——它不是正确的对象类型——但我们可以区分一个函数,该函数在任何地方都以该数为值,例如 g(x) = 5 的情况。g 的导数在任何地方都为零,因为 g 是一个常数函数,所以它的图是“平坦的”。事实上,大多数对此感到困惑的人在“区分 5”时不会遇到任何问题,例如,由 给出的函数 h:ℝ ⟶ ℝ 。他们确实知道“常数微分为零”,他们只是(不知不觉地和不必要地)被整个函数为常数的情况所困扰。
最后,这可能是“零就是无物”误解抬头的一个例子。即使在查看常数函数的图像时,人们有时也会想说它“没有导数”,我想,这是因为他们将零导数误解为没有导数。很容易看出这种说法的来源:我们首先通过计算世界上的物体来了解数,零只羊和没有羊是一样的。但从数学上讲,零不是“无物”,它是一个完美的数。如果你愿意说一个函数的导数是3,你就应该愿意说另一个函数的导数是0。
这些概念问题中的任何一个或全部都可能导致人们不愿意在点 x = 0 处为函数 画一条水平切线。在这种情况下,我们还面临一个额外的问题。对于 f : ℝ ⟶ ℝ,例如,由 给出,x = 0 左侧的梯度为负,而右侧的梯度为正,因此,如果我们从左向右移动,就必须经过一个梯度瞬间为零的点(假设梯度“平稳”地变化,这是合理的,每个人都会直观地这样做)。在另一方面,对于 ,x = 0 左侧的梯度为正,而右侧的梯度也为正,因此我们无法获得相同的逻辑优势:我们无法推断梯度在某个点“一定为零”。
有时它会在某个点为零,但很容易看出,懒惰的绘图可能会导致人们无法将其导数为零在图上表现出来。
因此,为了正确思考导数,我们需要以更全面、更正式的意义来理解它们。不过,首先要快速评述一下。精明的读者会注意到,到目前为止,本章中的每个函数都是连续的。在第 7 章中遇到了各种非连续函数后,您可能想知道可微性的概念在这些情况下如何应用。特别是,您可能已经注意到,如果函数在该点不连续,则“角”的概念毫无意义。现在尝试思考梯度和切线如何应用于非连续函数。一旦我们探讨了可微性的定义之后,我将回到这个问题。
8.3 可微性定义(Differentiability: the definition)
我不会简单地介绍可微性的定义,而是会展示它是如何作为梯度概念的自然延伸而产生的,以及它与第 8.2 节中建立的非正式思想之间的关系。我们将像以前一样从线性函数开始。如果你愿意,你可以想象 f (x) = 3x,但我将绘制没有那么具体程度的图表。按非正式描述,梯度是“若我们向右移动一个单位,那么我们会向上移动多少个单位?”这个问题的答案(其中向下的单位算作负的向上单位)。
然而,恰好向右移动一个单位有点限制,我们不必执着这样做。由于比率的运作机制,如果我们在图表上取任意两点并问“垂直(向上)变化与水平(向右)变化的比率是多少?”,我们得到相同的数(美国人在经济学上将此称为“升程比(rise over run)”(译注:“rise”指“上升”,“over”指“除以,相比”),“run”指“行进距离,行程”)。
添加标签将有助于我们进行概括,并且有两种常用符号。第一种涉及“主要”点 a 和邻点 x ;第二种涉及“主要”点 x 和邻点 x + h 。标记所有适当的 f 值,我们可以写下梯度的相应表达式:
如果 x 在 a 的左边(或者 h 为负),会发生什么情况?我们应该得到相同的梯度答案,事实也确实如此。我将留给您自己验证——如果您不确定,可以用代数方法确认,例如用函数 f (x) = 3x 。
概括来说,我们可以将所有相同的标签放在曲线图上(我将继续展示这两种标签系统):
连接点 (a, f (a)) 和 (x, f (x)) 的线不再是图形的切线(注:至少一般来说并非如此——你能绘制出一幅图像,其中的图像是弯曲的,但这个过程确实会在某个点产生一条切线吗?),因此我们给它起了一个不同的名字,称之为割线(a secant line)。但是,如果我们将 x 移近 a,割线就会“更接近”切线(这里我需要几个图表,所以我只使用一个标签系统):
这是数学家使用的思想。我们想象移动点越来越接近主点,并拖动割线,直到在极限情况下,割线“变成”切线。为了体现这一点,我们记为
或 。
在第一个表达式中,左边通常可以大声地读作“a的f 撇 ( f prime of a )”(译注:a处的导数);在第二个表达式中,左边读作“df 除以dx 并计算于a(df by dx evaluated at a)”。在两种情况下,右边都读作
“当x趋近于a时 x的f 减去a的f 除以x 减去a 的极限值(the limit as x tends to a of f of x minus f of a over x minus a)”。
您可能想验证一下,是否可以使用其他标签系统写出相同的信息。
然而,我们还没有完成。这些公式给了我们导数,但在分析中,我们真正感兴趣的是可微性。因此,你实际上会看到如下定义之一:
定义:当且仅当 存在时,函数 f 在 a 点处可微。
定义: (假设这个极限存在)。
请注意,第一点不是关于极限的值,而是关于极限的存在。第二点确实定义了导数,但是,由于分析不是关于计算值,而是关于建立可微性等属性,所以“假设这个极限存在”这句话是关键:没有它们,定义就不完整。无论哪种情况,如果有人要求你给出可微性的定义,而你只给出了代数形式的极限部分,那么你就没有写出完整的定义。
8.4 应用可微性定义(Apply the definition)
可微性就是关于极限是否存在的问题。因此,我们可以通过观察这种极限如何不存在来学到很多东西,这意味着函数在给定点不可微。不过,首先,我们将把这个定义应用到一些熟悉的可微函数上,以确认导数的结果符合我们的预期。
考虑由 给出的函数 f : ℝ ⟶ ℝ 。使用涉及 x 和 x + h 的公式,我将这样写出该函数具有导数 f (x) = 2 x + 3 的证明(阅读该证明时,请记住第 3.5 节中的自我解释训练)。
断言:若 则 。
证明:对 ∀ x∈ℝ 我们有
。
因此,∀ x∈ℝ 我们有
。
关于这个记法,有几点需要注意。首先,有两个明确的陈述,即方程对所有 x∈ℝ 都成立。这是一个很好的做法,因为在某些情况下,不同的 x 值会产生不同的结果,而且这对读者来说也是一种礼貌——最好有太多的地方来指定我们在讨论什么,而不是太少。其次,证明在讨论其极限之前,先给出了差商(difference quotient) (f (x + h) – f (x))/h 的所有代数。我总是建议学生以这种方式进行,因为人们经常会犯错误。特别是,他们倾向于将“lim”放在第一个表达式前面,然后忘记掉,所以他们写的东西是这样的:
。
这种等式根本不成立:左边的极限不等于右边的表达式。这种错误常常因为作者在最后记得并在最后一个表达式前面加上一个“lim”而加剧,但中间的表达式却没有加上它。我并不是在高高在上地说教——这正是我自己犯的错误,我发现避免它的最简单方法是先把所有的代数运算都先解决掉,然后再讨论极限(从技术意义上讲,结果也更好,因为我们直到最后才真正确认极限是否存在)。第三,这里没有特别的理由使用定义的第二种表述,用另一种标记系统尝试它将是一个很好的练习。最后,学习代数应该可以清楚地知道,对于多项式来说,抵消总是可能的,这样所有的导数都会像我们预期的那样出现。
话虽如此,但我现在将使用另一个版本的定义来确认由 给出的函数 f : ℝ ⟶ ℝ 在零点处有导数零,因为我想强调两件有用的事情。
首先,我们可以单独考虑点 a = 0:
断言:若 则 。
证明:注意到 ∀ x∈ℝ 我们有
。
因此, 。
这很简单快捷,它表明如果我们只对某一点的导数感兴趣,我们不需要应用定义来获得整个函数的导数。在这种情况下,很多东西都是零,这使得计算变得很快。
或者,我们可以计算出 a 处的广义导数,然后将其应用于 a = 0 的情况。我现在就这样做,以演示一种使用多项式进行除法的快速方法。注意到
。
我注意到,很多人都学过使用相当费力的长除法来处理此类表达式,但我的 Alevel 老师教了我一种更快的方法。下面是具体方法。
问题在于,我们需要通过用什么乘以 (x - a) 以获得 ?换句话说,在下列表达式中的“something”应填入什么?
。
我们可以通过思考在括号里放什么来解决这个问题。为了获得 项,我们需要一个 项:
但现在展开右边乘式将得到一个项 。我们不想要这项,因此我们构造一项 来抵消这一项,我们可以这样做:
。
现在展开右边乘式将得到一个项 。同样,我们不想要其中一个,所以我们可以再次将其处理掉。这样恰好给了我们最终的表达式;这样就不存在余项了,因为带来了方便,(x - a) 正好是 的一个乘法因子:
这种多项式除法方法省去了很多麻烦。如果你想练习一下具体的数值情况,尝试用 (x - 2) 除 (然后看看你是否可以用同样的方式完全分解这个表达式)。
当我们除以一个不是因数的单项式时会发生什么?余项如何得出?
回到我们的例子,我们现在可以写出关于 g 的导数的一般证明。
断言:若 则对 ∀ a∈ℝ 有 。
证明:对于 ∀ a∈ℝ 我们有
。
因此,对于 ∀ a∈ℝ , 。
请注意我在声明和证明中如何处理普遍性。你能想到其他方法来做到这一点吗?还请注意,我们可以添加另一行称“特别是, 。
关于 n 的高次幂的一般结果可以表述为一个定理:
定理:若 n∈ℕ 且 是由 给出的函数。则 。
这通常基于 n 使用归纳法和微分的乘积法则来证明。我将把它留到你的课程中,但如果你知道归纳证明,你可能想现在就试一试。
我将用与图像相关的意义的评述来结束本节。称 的导数是
这到底是什么意思?当我问这个问题时,学生们常常会感到困惑,因为他们只是“知道”导数,要么他们很久没有想过它的意义,要么他们根本没有想过它的意义。
从局部角度考虑,这意味着对于任何已知点 x,g的图像上该点的梯度由该点的导数的值体现。例如,g在 -4 处的梯度为 (一个较大的正数)。
从整体上看,想象一下从左到右沿着 g 的图行进。首先,图向上急剧倾斜——这反映在 的高正值上。g 的斜率逐渐减小,直到瞬间为零——这反映在 的图上取值为零。然后 g 的斜率再次增加,起初很慢,但随后更快——这反映在 的值再次增加的事实上,起初很慢,但随后更快。
当然,g 和 在零点处相交只是巧合。 函数 的图像具有相同的导数,因此考虑这一点可能也很有用。那么,对于函数 ,类似的描述是什么?我之所以问这些问题,是因为学生们通常知道很多导数,但却忘记了它们的含义,如果他们曾经知道的话。如果你不需要提醒,那就更好了。
8.5 不可微(Non-differentiability)
第 8.4 节中考虑的函数是可微的,并且它们的导数都可以用一个公式来表达。因此,说“函数的导数”这样的话是有意义的,将微分视为一个更高级的过程,它将函数作为输入并返回其他函数作为输出。但是,请记住,可微性的定义并不适用于所有函数;它告诉我们一个函数在某个点是否可微。在考虑其他函数时,这一点变得更加重要,因为许多函数在某些点可微,但在其他点不可微。
如第 8.1 节所述,经典示例是由f (x) = | x |给出的函数 f :ℝ ⟶ ℝ 。我们可以通过证明差商趋向于不同的极限(取决于我们趋近于 0 的方向)来证明此函数在 0 点处不可微(下面的证明涉及符号 “ ”,可以大声地读作“x 从上方趋向于零”)。
断言:由 f (x) = | x |给出的函数 f :ℝ ⟶ ℝ 在 0 点处不可微。
证明:
若 x > 0 则 。因此, 。
若 x < 0 则 。因此,。
1 ≠ -1 ,因此, 不存在。
在证明过程中,看到 | x | 被 –x 取代,你是否感到一时困惑?很多人都有这种感觉。这种替换发生在 x < 0 的情况下,并且它是有效的,因为 | x | 的正式定义如下:
如果您之前没有见过这种情况,请检查它是否与您当前对 |x| 的理解相对应(例如,尝试 x = –2),并在考虑这一点的情况下再次阅读证明。
在我们讨论 f (x) = |x| 时,值得回顾一下第 7 章。回想一下,f (x) = |x|在零处连续,这意味着(除其他外)它在零处有一个极限。这难道不与我们刚才所说的相矛盾吗?不,因为我们讨论的是两个不同的极限。在处理连续性时,我们考虑函数值的极限:
定义:当且仅当 存在且等于 f (a)时,f (x)在 a点处连续。
在处理可微性时,我们考虑差商的极限:
定义:当且仅当 存在时,f (x)在 a点处可微。
这些极限并不相同。请确保记住这一点。
另外,请注意,一般来说,如果我们从不同侧面接近某个点时得到不同的“梯度”,那么该点的导数就不存在,这种推理是正确的。然而,这种推理有一个不幸的副作用,那就是它倾向于让人们相信像这样的函数在点 a 处的导数为零:
很容易看出这是如何发生的:图像两侧都是“平坦的”,因此无论我们从左侧还是右侧接近 a,导数似乎都为零。然而,这是非常错误的,我们可以通过正确标记所有内容并将这种想法与定义更仔细地联系起来来发现这一点。首先,请注意 f (a) 是两个值中较低的一个,以标准方式用填充的斑点表示。如果我们标记 a、a 右侧的点 x 以及 f (x) 和 f (a),我们可以看到实际发生的情况。当 x 从上方接近 a 时,割线的梯度趋向于无穷大——绝对不是零。
以下是与这个思想相关的一个定理:
定理:若 f 在 a点处可微,则 f 在 a 点处连续。
真命题的逆否命题(contrapositive)总是真命题(注:条件语句“若 A 则 B”的逆否命题是“若非 B 则非 A”。有关条件语句、逆否命题、反否命题和逆否命题的更详细讨论,请参阅过渡到证明教科书或<<如何学习数学>>(How to Study for/as a Mathematics, Degree/Major)第 4.6 节),而本定理的逆否命题是:如果 f 在 a 处不连续,则 f 在 a 处不可微。上图中的函数在 a 处不连续,因此它在那里不可微。
相反,真命题的逆命题(converse)不一定是真命题。该定理的逆命题是,如果 f 在 a 处连续,则 f 在 a 处可微。这是错误的:由f (x) = | x |给出的函数 f :ℝ ⟶ ℝ构成反例。还值得回顾一下第 7 章中的这些函数:
第一个函数在零点处不连续,因此它在零点处不可微。第二个函数在零点处连续,但在那里不可微,所有学生都应该警惕这样的例子。老师通常会展示这样的函数,并要求学生说出它存在的导数。粗心的学生忽略了可微分性问题,写下了以下内容:
更细心的学生会意识到该函数在零点处不可微,因此写下:
确保你能看出为何后者正确。
那么第三个函数呢?它在零点处连续,在零点处可微。从左边趋近于零点时,函数值和差商都等于零。从右边趋近于零点时,函数值和差商都趋近于零。用代数方法检查这一点是个好主意;这样做可以解决第 7.3 节末尾提出的问题。
8.6 可微函数定理(Theorems involving differentiable functions)
在分析中,你会遇到许多涉及可微性的定理。有些定理可能会一起呈现为这样的定理:
定理(导数的代数运算)(algebra for derivatives)
若 c∈ℝ 且 f : ℝ ⟶ ℝ 和 g : ℝ ⟶ ℝ 在 a∈ℝ处可微。则
(1) f + g 在 a 处可微且 [求和法则];
(2) cf 在 a 处可微且 [常数倍数法则]。
有些学生觉得我们写下来很奇怪,因为 和 显然是相同的。但这实际上是一个关于运算顺序的定理。在 中,函数相加,然后对和求导。在
中,对函数求导,然后将结果相加。在更广泛的数学中,交换运算顺序而不改变运算结果的迹象并不明显。该定理称,只要所有导数都得到合理的定义,对导数来说切换顺序有效。
我喜欢用这个定理来打消学生的自满情绪。在讲座中,我会写下上述两部分,然后相加。
(3) fg 在 a 处可微且 然后我让全班大声说出“等号”后面是什么。几乎每个同学都会说" " 。显然这是错误的。正如你多年来所知,乘积法则实际上指的是
(3) fg在 a 处可微且 。
这让所有人都警醒。
证明乘积法则需要一个很好的技巧(注:参见 <<如何学习数学>>( How to Study for/as a Mathematics, Degree/Major)第6.6节),但所有这些结果的证明都涉及直接使用定义,而且它们在逻辑上要求不高,所以我不会在这里花太多篇幅来介绍它们。然而,一旦它们被建立,它们就可以用来证明每个多项式函数在任何地方都是可微的。你可能想思考这样的证明会如何进行。
在这里,我们将研究一些导致分析结论更大的定理,从Rolle定理和均值定理(通常缩写为 MVT)开始。
Rolle定理:
若 f:[a,b] ⟶ ℝ 在[a,b]上连续并在(a,b)上可微,且 f (a) = f (b)。则 ∃ c ∈(a,b) 使得 。
均值定理(Mean Value Theorem):
若 f : [a,b] ⟶ ℝ 在[a,b]上连续并在(a,b)上可微。则 ∃ c ∈(a,b) 使得 。
Rolle定理在第 2.6 节中进行了讨论。不过,先不要回头——首先尝试绘制一个图表来展示每个定理的含义。对于均值定理,如何表示结论似乎并不明显,但如果你正确地标记了所有内容,你应该能够弄清楚定理的含义,并直观地看到为什么它一定是正确的(我将在下面解释,但最好自己尝试一下)。
完成上述操作后,需要注意的一点是,Rolle定理是均值定理的一个特例——它是 f (a) = f (b) 的情况,因此 f (b)–f (a) = 0 。因此,我们通常使用巧妙的技巧来证明均值定理,将其简化为Rolle定理。以下是均值定理及其标准证明。现在阅读它,应用第 3.5 节中的自我解释训练(如有必要,请先复习该训练——请记住,当人们正确应用它时,他们会理解得更多)。
均值定理(Mean Value Theorem):
若 f: [a,b] ⟶ ℝ 在[a,b]上连续并在(a,b)上可微。则 ∃ c ∈(a,b) 使得 。
证明:假设 f:[a,b] ⟶ ℝ 在[a,b]上连续并在(a,b)上可微。通过
定义 d:[a,b] ⟶ ℝ 。
现在, 是一个以 x 为自变量的多项式。根据连续函数和可微函数的求和法则和常量倍数法则,d 在[a,b ]上连续并在(a,b)上可微。
注意到 。此外,
以及
。
因此,在 [a,b]上对 d 应用 Rolle 定理。则 ∃ c ∈(a,b) 使得 ,即使得 。因此,∃ c ∈(a,b) 使得 为所求。
如果你仔细阅读证明,你会发现代数部分其实相当简单。因为 a、b、f (a) 和 f (b) 都是数,所以很多东西都是常数,这意味着区分函数 d 变得很简单。然而,你可能会发现 d 的引入有点令人费解。很多学生都这么认为,因为 d 看起来很复杂,而且似乎不知从何而来。但是,如果你以更全面的方式思考证明,你应该看到 d 被用于巧妙的技巧(注:如果您自己没有发明这样的技巧,也不要担心——作为分析专业的学生,您的工作是理解和运用标准证明中出现的巧妙思想):转换为函数 d 允许我们应用Rolle定理;转换回来得到关于 f 的期望结果。要应用Rolle定理,我们需要确定其所有前提都得到满足,证明明确地证明了这一点,从而建立了两个定理之间的联系。当然,要证明Rolle定理需要做不同的工作——我将把它留给你的课程。
以这种方式思考逻辑和代数是理解证明的一种方式。但我认为使用图表来了解它为什么有效也很令人满意。要对 MVT 执行此操作,请注意定理中出现的表达式 ( f (b) – f (a))/( b – a) 是连接点 (a, f (a)) 和 (b, f (b)) 的直线的梯度。因此,该定理指的是,只要前提成立,a 和 b 之间就有一个点 c,其中 f 的梯度等于这条直线的梯度。
此外,等式
是通过 (a, f (a)) 和 (b, f (b)) 的直线的斜率(值得花几分钟来弄清楚为什么)。因此,d(x) 给出了 f (x) 和这条线之间的垂直差,我们可以勾勒出已经函数 f 的 d 的样子。这样做可以清楚地看出,在 f 的图形与直线相交的点处,d的值为零;特别是这发生在端点 a 和 b 处。
我建议您现在再读一遍证明,并参考这些图表来强化您的自我解释。
正如你所知,我喜欢逻辑论证与图表相联系所带来的洞察力。我特别喜欢这些图表,因为它们不仅让我看到定理一定是正确的,而且还让我看到证明是如何进行的。有些定理和证明不适合这种推理——例如,通常很难绘制反证法的图表,因为它们必然涉及从错误的假设出发。你可能不像我那么喜欢图表。但我认为这通常值得一试。
在本节的最后,我们将研究 MVT 的一些有趣应用。例如,该定理允许我们建立如下内容:
定理:若 f : ℝ ⟶ ℝ 可微,且对于 ∀ x∈ℝ , 。则 f 是一个常量函数。
停下来想一想。它并没有说如果函数是常数,那么梯度总是零。这很容易从定义中直接证明(想想如何证明)。这个定理是那个说法的逆命题(注:第 2.9 节讨论了条件语句、其逆语句以及相关的逻辑问题):它说如果梯度为零,那么函数是常数。对你来说,情况可能很明显。但对于大多数人来说,如何证明它并不明显,部分原因是恒定性(constancy)是一个全局属性,并不容易从梯度到函数值进行论证。MVT 提供了一种处理这个问题的方法,即通过中间点的导数将函数值相互关联。
像这样重写 MVT 会有所帮助,以便将注意力集中在 f (a) 和 f (b) 之间的差异上(您可能已经看到这有何帮助):
均值定理(Mean Value Theorem):
若 f :[a,b] ⟶ ℝ 在[a,b]上连续并在(a,b)上可微。则 ∃ c ∈(a,b) 使得 。
以下是关于恒常性的定理,附有证明。向自己解释一下,并思考如何向其他学生描述整体策略。
定理:若 f : ℝ ⟶ ℝ 可微,且对于 ∀ x∈ℝ , 。则 f 是一个常量函数。
证明:考虑 ∀ a∈ℝ 并假设 x∈ℝ 且 x > a 。则 f 在 (a,x) 上可微。此外,由于对于 ∀ x∈ℝ ,f 可微 ,则 f 一定在 [a,x] 上连续,因为在某点可微就意味着在此点连续。因此,根据 MVT ,∃ c ∈(a,x) 使得 。但根据定理的前提条件, 。因此,对于 ∀ x > a ,有 f (x) = f (a) 。类似的论证可以证明对于 ∀ x < a ,有 f (x) = f (a) 。因此,对于 ∀ x∈ℝ ,有 f (x) = f (a) ,即 f (x) 是常量函数。
这个证明援引了但并没有明确说明 x < a 情况的“类似论证”。援引类似论证非常常见,通常是在作者确信读者能够填补缺失的步骤时进行的。作为一名学生,通常值得尝试——这样做提供了另一种方法来确保您理解证明的工作原理。
在这种情况下,可以构造一个类似的完整证明来证明——如果函数的梯度始终为正,则该函数必定是递增的。您可能想知道如何做到这一点。
8.7 Taylor定理(Taylor’s theorem)
这最后一节主要内容是关于Taylor定理,这是学生们觉得很难的东西之一——它涉及很多符号和一些相当长的等式,所以看起来很吓人,人们经常试图避开它。然而,如果以正确的方式思考,它并不那么复杂,而且它阐述了一些奇妙的东西。在本节中,我想确保你理解它,这样当它出现在你的课程中时,你就能体会到它的价值。
要理解Taylor定理,理解Taylor多项式的概念会有所帮助。假设我们有一个函数f : ℝ ⟶ ℝ和一个固定的兴趣点 a。那么 f 在 a 处的 n 次Taylor多项式为
你明白我的意思,符号看起来很复杂。其实不然。事实上,多项式中的每一项都具有相同的形式,因为 指的是 f 在 a 点处的 n 阶导数(注:人们在写这些的时候经常粗心大意,常忽略括号并写志诸如 这样的东西。但 是f (a) 的立方,而 是在 f 在 a 点处的 3阶导数。他们根本不是同一回事—— 一如既往地,准确为要)。确保你能够理解这种模式。
仔细观察,你还会发现该公式给出了 x 的一个多项式,并且该多项式的次数为 n。这是因为很多东西都是常数:a 是常数,这意味着 f (a) 是常数 ,因此 也是常数,故而 也是常数,等等。所以整个东西就是一堆常数乘以 x 的幂,x 的最高幂是 n。这意味着 是 x 的函数:对于每一个 x∈ℝ 值,我们可以计算所有项的值并将它们相加,并且 会随着 x 的变化而变化。
因此,Taylor多项式的结构相当简单,但它为什么有趣呢?它之所以有趣,是因为它允许我们用多项式来逼近函数 f 。我将使用由 和固定点 a = 2π/3 给出的函数f : ℝ ⟶ ℝ 来演示这意味着什么。我们将从 n 较小的Taylor多项式开始。
一阶 Taylor多项式是
。
在上式中代入 和 a = 2π/3 就给出:
。
学生倾向于将最后一个表达式相乘,但我建议不要这样做。通常在处理Taylor多项式时,我们希望保持结构可见,以使此版本的读者能够看到它与通式的关系。
寻找Taylor多项式通常很简单,因为它只涉及微分和代换。但它意味着什么?图表可以提供帮助。通过绘制 f 和 的图像可以看出,在点 a = 2π/3 处的一阶Taylor多项式是 f 在 a = 2π/3 处的切线:
事实上,一次Taylor多项式总是点 a 处的切线。对于一般情况,一种看待这个问题的方法是重新排列 以得到
,
从而突出了 在 x 处的值与 f 在 a 点处的梯度之间的关系:
此外,我发现注意到(非正式地), 和 f 的图像在a处具有相同的值且具有相同的导数的意义上“匹配”,这很有用。
您认为二阶Taylor多项式会发生什么?它与 f 的图形“匹配”,因为它在 a 处具有相同的值,并且在 a 处具有相同的导数,并且在 a 处具有相同的二阶导数。一般的二阶Taylor多项式是
在上式中代入 和 a = 2π/3 (同样,保持结构不变而不是展开乘式)就给出:
。
这次绘制的图像给出:
你可能猜到如果我们继续进行下去会发生什么。这是3 阶Taylor多项式的图像:
这是 30 阶Taylor多项式的图。
事实证明,通过取越来越多的项,我们可以得到尽可能如我们所愿地好的逼近值,尽我们所愿地远离 a 。如果我们可以取无限多个项,那么图像将完美匹配。我想你会认同这很酷。如果你意识到这一点,那么你就能够很好地理解Talor定理。
Taylor定理:设 I 为包含 a 和 x 的开区间。假设 f 在 I 上可微 n 次,且 在 I 上连续。则 a 和 x 之间存在 c,使得
。
这看起来再次令人生畏,但如果我们看一下所有的符号,它具有以下结构:
Taylor定理:令一系列条件成立(注:这些条件是合理的。例如,如果我们希望公式中的导数存在,则我们需要函数可微 n + 1 次)。则
f (x) = Taylor多项式 + 余项。
余项是有道理的,因为定理说函数值等于 n 阶Taylor多项式加上余项。仔细观察余项会发现,如果 n 很大且 x - a 很小(这迫使 x - c 很小——为什么?),则余项会很小。换句话说,对于接近 a 的 x 和较大的 n 值,近似值会更好。因此,考虑到您在本节中阅读的材料,该定理应该是合理的。
事实上,Taylor定理可以用多种方式来表述,余项的表达式略有不同。但所有表达式都具有这些共同的性质,这意味着可以认为该定理是告诉我们,如何通过使余项变小来使多项式逼近函数。记住这一点,你会发现研究Taylor定理是直观的。
8.8 展望(Look ahead)
在典型的分析课程中,可微性的工作将涵盖本章的内容,并提供更多示例和所有定理的证明。学习可微性对于观察理论的建立特别有用(如第 3.2 节所述):极值定理(见第 7.11 节)用于证明Rolle定理,Rolle定理用于证明均值定理,均值定理用于证明Taylor定理。事实上,这本书的重点意味着我采取了自上而下的方法,陈述定理然后解释如何理解它们,但你的老师可能会采取自下而上的方法,这样首先进行相关推理,然后定理作为其自然结果出现。
不管怎样,你都会发现,连续函数和可微函数的和与积法则随处可见。而且,你可能会在链式法则(你已经知道)、L'Hôpital[ˌloʊpiːˈtɑːl](译注:法国数学家)法则(你可能在微积分中遇到过)的研究中运用这些思想中的部分或全部,以及当二阶导数测试没有提供任何信息时识别局部最大值和最小值的方法。你还可以研究关于特定点的特定函数的Taylor级数,以及Taylor多项式不能给出良好近似的函数。
在多变量微积分课程中,你将把可微性和导数的概念推广到两个或多个变量的函数——现在试着思考一下,对于定义曲面而不是曲线的函数,可微性应该意味着什么。在向量微积分中,你将学习如何将这些思想应用于不同的坐标系以及偏微分方程的解。
回到分析,您还将了解可微性和可积性之间的联系。对于可微函数,这种联系听起来很简单——微分和积分是逆运算。但这到底意味着什么?对于不可微函数会发生什么?这些问题需要适当考虑可积性的含义,它们将在下一章中得到解决。
内容来源:
<<how to think about analysis>> lara alcock ,Mathematics Education Centre, Loughborough University,Oxford University Press。