前言
高斯在处理正态分布的首次提出似然,后来英国物理学家,费歇尔
概率是抛硬币之前,根据环境推断概率
似然则相反,根据结果推论环境
P是关于x的函数,比如x为正面朝上的结果,或者反面朝上的结果,比如x=正面朝上的时候,概率 θ \theta θ是多少
L是关于 θ \theta θ的函数,就是说某一个概率值下,最有可能出现的结果
极大似然估计是根据已知的观察数据来推断模型参数的过程,根据x的结果推断 θ \theta θ,,结果x最有可能发生。
举例来说
函数在 θ \theta θ未0.7的时候取得最大值
当 θ \theta θ为多少时,出现7次正面,3次反面
总结
我觉得可以这样理解:
似然函数描述的是当前已经取得的样本的概率分布F,F是 θ \theta θ的函数,因为 θ \theta θ是未知的,所以F的具体值由 θ \theta θ的取值来确定。 那么, θ \theta θ取哪个值才能“最恰当”的描述我们取得的这组样本呢? 因为我只有手头这些样本,既然就这么巧就拿到了这些,我就认为出现手头这些样本的概率是最大的。似然函数描述的是手头这些样本的概率,最大化似然函数 f ( θ ) f(\theta) f(θ),就可以得到 θ \theta θ值了。 关键在于,我们就这么巧,拿到的手头这些样本,那么手头这些样本出现的概率就是最大的, 可以这样理解极大似然!
比如上文中,只有 θ = 0.7 \theta=0.7 θ=0.7的时候, f ( θ ) f(\theta) f(θ)的值最大。
那么这个函数是怎么推导出来的,或者说是谁发现这个函数有这个性质呢?留给你
上面只有两个概率分布,那么多个概率分布呢,比如筛子6个面。
最大熵模型中的对数似然函数的解释
怕你看不懂,解释一下,下面的 x 1 , x 2 , x 3 . . . x_1,x_2,x_3... x1,x2,x3...指的是我们上面筛子中的1-6中的某个点(其余案例阔以按照这个扩散), θ \theta θ 就是出现这个点数的概率。
比如十次,1-6出现的次数依次是,5,1,1,1,1,1
那么最大似然就是:
L p = 0. 5 5 ∗ 0. 1 1 ∗ 0. 1 1 ∗ 0. 1 1 ∗ 0. 1 1 ∗ 0. 1 1 L_p=0.5^5*0.1^1*0.1^1*0.1^1*0.1^1*0.1^1 Lp=0.55∗0.11∗0.11∗0.11∗0.11∗0.11,这样的时候L最大。