逻辑回归:Ln(P/(1-P)=-3+0.06X+0.05X2-0.02X3X1
岭回归的扰动性越大,模型越不容易受到共线性的影响;
LOSSO只是缓解了
由于共线性导致的估计误差的问题,而不是解决共线性 ;
AUC值接近0.5
时,我们认为这个模型是无效的;
T检验不可以用来检验待分析的原有若干变量是否适合做因子分析 ;
因子旋转用最大方差旋转是一种正交旋转
;
因子分析得到的因子是有较强的解释性;
因子分析通常通过调整
主成分在原始变量的权重来发现主成分所代表的含义;
主成分分析中,若使用特征值分解法
,其在代数上将原随机向量的协方差阵换成对接方阵;
单因素分析中,组内误差和反映的是随机因素
的影响;
置信区间用以评价估计的可靠性
;
单个
正太总体方差检验选择的统计量是卡方检验;
事中验证:交叉验证
;
标签是一种用来描述业务实体特征的·数据形式·;
数据仓库是面向主题、的,而不是属性 ;
数据完整性约束的规则是:实体完整性、参照完整性、用户定义完整性;
五问法的发问角度包括:制造、检验、体系;
根因分析中问题原因头脑风暴
包括:是一种非矩阵、名义群组技术、配对比较;
残差图中模型方差齐性假设
满足:残差不应随因变量拟合值的增大而变化;
在趋势分解法中,时间序列的成分与观测值的关系:加法、乘法模型,没有减法模型 ;
按照远近程度来聚类
需明确两个距离:欧式距离、兰氏距离;
线性回归的估计方法是最小二乘法
;
逻辑回归的估计方法是最大似然估计
;
神经网络比逻辑回归更容易过拟合;
条形图不能检测异常值;
属于数据标准化的方法有:Z-score标准化、区间缩放、向量单位化;
时间序列数据:某一个个体随时间变化产生的数据;
截面数据:许多个个体在同一个时间下由于个体不同而产生的数据;
面板数据:许多个个体,由于个体不同以及时间棉花而缠身的数据;
移动平均模型MA(q):自相关(ACF)q阶截尾,偏自相关(PACF)拖尾; 平稳
自回归模型AR§’:自相关拖尾,偏自相关截尾; 平稳
自回归移动平均模型ARMA(p,q):自相关系数拖尾,偏自相关系数拖尾; 平稳
ARIMA(p,d,q):自相关截尾,偏自相关拖尾; 非平稳
案例: 40% 30% 30%
0.2 0.6 0.2 线下店长预测未来一个月销量:24000.2+16000.6+10000.2=1640 最可能销量加权值:15000.4+18000.3+16000.3=1620
综合三人判断,预测年度销量:1640+18000.3+16400.3=1648*12=19776
信度为预测3中场景销量,这组数据的标准差的倒数(n-1)