离散特征处理
离散特征:性别,国籍,英文单词,物品id,用户id
处理:
建立字典:eg:china = 1
向量化:eg:one-hot /embedding(低维稠密向量)
one-hot--适合低维度
例如:
性别:男,女
字典:男 = 1,女 = 2
one-hot:
未知[0 , 0]
男 [1 , 0]
女 [0 , 1]
one-hot局限:
例1: nlp中,对单词编码,维度上万
例2:推荐系统中,对物品id编码,上亿笔记
类别数量很大时,不用one-hot
embedding(嵌入)
例子:国籍embeddding
参数数量:向量维度 * 类别数量
embedding : 4 * 200 = 800
embedding层:参数以矩阵形式保存,大小为:向量维度 * 类别数量
输入:序号,eg:美国序号为2
输出:向量,eg:美国对应参数矩阵第二列
神经网络关键在于embedding层,对它的优化是一个关键点
one-hot和embedding关系
embedding = one-hot * 参数矩阵
矩阵补充(目前不常用)
-------未完成----