1.什么是小概率事件?
小概率事件是指在一次随机试验中发生概率非常低的事件。一般来说,小概率事件的发生概率远低于一定的阈值,通常取0.05或0.01。在统计学中,这些阈值被称为显著性水平(significance level),一般用α表示。
P值(P-value)是统计学中用于衡量样本数据对原假设的支持程度的一个指标。在假设检验中,P值表示在原假设为真的情况下,观察到的样本数据或更极端情况出现的概率。
如果观察到的P值小于显著性水平(通常是0.05或0.01),我们通常会拒绝原假设,认为观察到的样本数据在给定的显著性水平下是统计上显著的,即我们有足够的证据拒绝原假设,接受备择假设。这意味着我们认为观察到的样本数据对应的事件是小概率事件,即在原假设为真的情况下,观察到这种极端情况的概率非常低。
总之,小概率事件指的是在一次随机试验中发生概率非常低的事件,而P值则是在统计学中用于衡量样本数据对原假设的支持程度的一个指标。
2.什么是概率独立性?
概率独立性是指两个或多个事件之间的发生不受彼此影响的情况。简而言之,如果事件A 的发生与否不会对事件B 的发生概率产生影响,或者反之亦然,则称事件A 和事件 B 是概率独立的。
具体来说,如果事件A 的发生概率与事件 B的发生概率之间不存在任何关系,并且知道事件A 是否发生对于预测事件B 的发生没有任何帮助,那么我们就可以说事件A 和事件 B 是概率独立的。
概率独立性是概率论中的一个重要概念,它在许多领域都有广泛的应用,例如统计学、生物学、经济学等。在实际问题中,概率独立性通常是假设条件之一,用于简化问题的分析和计算。
突发性婴儿猝死综合征(SIDS)与英国法律的故事,涉及到概率独立性的问题。
SIDS是指在婴儿睡眠期间突然死亡的情况,发生概率非常低,大概在八千五百分之一,原因至今未明。我们认为发生SIDS是小概率事件。如果小概率事件频繁发生,那么就要怀疑背后有什么样的故事。英国的警方跟法庭认为。如果一个家庭先后发生多起婴儿猝死的事件,那么就可以是疏忽致死而非自然死亡,就要追究家庭的责任。这个就是小概率事件的应用,因此英国著名的儿科医生就用这个观点来做专家证人。他认为一个家庭连续出现两个SIDS的概率是:
但英国皇家统计协会指出,同一个家庭,猝死的婴儿之间,它并不是一个独立随机事件,而是存在一个关联。比如说基因,同一个家庭生的婴儿,他的基因可能有高度的相似性,从而让一个已经遭受打击的家庭再次遭受打击。所以上述计算方法是不成立的。因为这个原因,2004年,英国政府宣布对258起已经结案的家长谋杀婴儿案件重新进行审理。
3.统计学中有哪些常见的数据类型?
在统计学中,常见的数据类型包括以下几种:
(1) 定性数据(Qualitative Data):也称为分类数据,是描述性质或特征的数据,通常是非数字型的。定性数据可以进一步分为名义数据和有序数据。
-
名义数据:数据之间没有顺序或等级关系,仅表示分类或标签。例如:性别、颜色、品牌等。
-
有序数据:数据之间存在一定的顺序或等级关系,但没有固定的数值差距。例如:教育程度(小学、初中、高中)。
(2) 定量数据(Quantitative Data):也称为数值数据,是用数字表示的数据,用于量化特征或属性。
-
连续型数据:可以取任意值的数据,通常表示测量的结果。例如:身高、体重、温度等。
-
离散型数据:只能取有限个数值的数据,通常表示计数结果。例如:家庭成员数、学生人数等。
这些数据类型在统计学中用于描述和分析不同类型的数据,并采用不同的统计方法和技术进行处理和解释。
4.定量数据的分布形式?
定量数据的分布形式通常可以分为对称分布和非对称分布两种。
(1)对称分布(Symmetric Distribution):在对称分布中,数据的分布形状相对均匀,以中心点对称分布。也就是说,数据在中心点(均值)的两侧是对称的。典型的对称分布包括正态分布(也称为高斯分布)和均匀分布。
-正态分布:正态分布是最常见的对称分布,其形状呈钟形曲线,两侧尾部逐渐变细。在正态分布中,均值、中位数和众数重合,且相等。
-均匀分布:在均匀分布中,数据在给定的范围内等可能地分布,没有出现任何偏向某个方向的情况。
(2)非对称分布(Skewed Distribution):在非对称分布中,数据的分布形状不对称,呈现出一个尾部比另一个长或短的情况。非对称分布可以进一步分为正偏态分布和负偏态分布。
-正偏态分布(右偏态):在正偏态分布中,数据的尾部向右延伸,即数据分布的右侧尾部比左侧更长。也就是说,大部分数据分布在左侧,而右侧存在少量极端值。均值大于中位数,且众数位于最左侧。
-负偏态分布(左偏态):在负偏态分布中,数据的尾部向左延伸,即数据分布的左侧尾部比右侧更长。也就是说,大部分数据分布在右侧,而左侧存在少量极端值。均值小于中位数,且众数位于最右侧。
对称分布和非对称分布形态的特征对于数据分析和解释具有重要意义,可以帮助我们了解数据的分布情况及其可能的影响。
老张选健身班的故事可以说明数据分布形式的重要性:
48岁的老张想选一个成员们年龄和自己年龄相仿的健身班,分别有以下三个班的平均年龄:17岁,25岁和38岁。老张自然而然地选择了平均年龄为38岁的班级。结果一去上课傻眼了,班上绝大部分学员年龄都在20左右。但是有几位祖师爷的年龄远远超过20岁,在这里,平均年龄被这几位祖师爷拉大了。祖师爷的年龄在这里显得很不协调,虽然均值是38岁,但班上没有一个人在38岁上下。
为什么会这样呢,因为班级的年龄分布是非对称分布而不是正态分布,此时的均值不等于中位数和众数。
5.对称分布数据和非对称分布数据,如何描述数据的集中度?
对称分布数据描述数据集中度:
(1) 均值(Mean):
-
对称分布数据的均值通常位于分布的中心,因为数据在均值两侧是对称的。
-
均值可以作为数据集中度的一个指标,但需要注意异常值对均值的影响。
(2)中位数(Median):
-
对称分布数据的中位数与均值相等,因为数据在中心对称,中位数是将数据分为两等分的数值。
-
中位数是对称分布数据集中度的一个稳健指标,不受异常值的影响。
(3) 众数(Mode):
-
对称分布数据的众数与均值和中位数相等,因为数据在分布形状上呈现对称的特点。
-
众数是数据集中出现频率最高的数值。
(4)标准差(Standard Deviation):
- 标准差是数据集各数据点与均值之间的平均偏差的平方根,它能够反映数据的离散程度。标准差越大,数据集的分散程度越高,集中度越低;标准差越小,数据集的分散程度越低,集中度越高。
非对称分布数据的描述数据集中度:
(1) 中位数(Median):
-
非对称分布数据的中位数是更稳健的集中度指标,因为它不受异常值的影响。
-
中位数反映了数据集中度的中心位置,通常比均值更适用于描述非对称分布数据的集中度。
(2) 四分位数(Quartiles):四分位数将数据集分为四个等分,有三个数,分别是第一四分位数(Q1)、第二四分位数(Q2)、第三四分位数(Q3)。第一四分位数和第三四分位数能够帮助我们了解数据的分布情况和集中度。
综上所述,对称分布数据和非对称分布数据在描述数据集中度时,采用的统计指标和解释可能存在差异。对称分布数据的均值、中位数和众数通常一致,而非对称分布数据则需要更谨慎地选择适当的集中度指标,以更准确地描述数据的中心位置。这些方法可以帮助我们了解数据集中度的不同方面,从而更好地理解数据的分布特征和数据集的形态。
打印机报修的故事可以帮助我们理解判断数据集中度的重要性:
假设你是一家打印机生产商的分析员,你的老板给了你去年一年公司销售的57334台打印机的报修情况,同时给了你对手公司994773台打印机的报修情况,让你对比两家打印机的质量。你很快分析完了,对手每台打印机在保修期内平均反馈问题2.8个,而你的公司平均反馈问题是9.1个,数据结果显示你公司的产品质量不如对手公司。分析完之后你就把信息发给老板了,刷起了手机,碰巧就看了这篇推文,里面提到如果数据不是对称分布,那么平均数不能够代表数据集中度,而且平均数很容易受到异常值的影响。
你马上开始分析两组数据的中位数,发现对手公司的中位数是2,而你公司的中位数是1,这说明在你公司的数据中有异常值抬高了平均数。你很快找到了问题所在,原来是你公司有一个批次的产品质量不稳定,被频繁报修,而其他批次的产品质量没有问题。也就是说公司不需要更新或者重组整个生产流程和设备,只需要找到那一个批次产品的问题就行了。也说明你公司的产品并不比对手公司差。