目录
- 1.序列模型
- 序列数据
- 统计工具
- 自回归模型
- 马尔可夫模型
- 因果关系
- 前向算法举例(根据过去的事件推测未来的事件)
- 方案 A -马尔科夫假设
- 方案 B -潜变量模型
- 总结
- 代码实现 使用马尔科夫假设 训练一个MLP
- 2.文本预处理
- 常见的文本预处理步骤
- 代码实现
- 3.语言模型
- **使用计数来建模**
- N 元语法
- N 元语法的好处
1.序列模型
序列数据
- 实际中很多数据是有时序结构的
- 电影的评价随时间变化而变化
- 锚定(anchoring)效应:拿奖后评分上升,直到奖项被忘记
- 享乐适应(hedonic adaption):看了很多好电影后,人民的期望会变高
- 季节性:贺岁片,暑期档
- 导演,演员的负面新闻导致评分变低
- 音乐,语言,文本和视频都是连续的
- 标题“狗咬人”远没有“人咬狗”那么惊讶
- 大地震发生后,很可能会有几次较小的余震
- 人的互动是连续的,从网上吵架可以看出
- 预测明天的股价要比填补昨天遗失的股价的困难
统计工具
**不独立的随机变量:**变量之间存在某种关联(在此之前都是假设独立的随机变量,变量之间是没有关联的)
- 黄色表示从 x1 一直到 xT 的方向(xi 的概率依赖于 x1,…,x(i-1) 的概率,i >= 2 ),也就是说如果想要知道一个时序序列 T 时刻发生的事情,则需要知道在 T 时刻之前所有时刻发生的事