学习笔记CB012: LSTM 简单实现、完整实现、torch、小说训练word2vec lstm机器人

摘要: 真正掌握一种算法,最实际的方法,完全手写出来。 LSTM(Long Short Tem Memory)特殊递归神经网络,神经元保存历史记忆,解决自然语言处理统计方法只能考虑最近n个词语而忽略更久前词语的问题。

真正掌握一种算法,最实际的方法,完全手写出来。

LSTM(Long Short Tem Memory)特殊递归神经网络,神经元保存历史记忆,解决自然语言处理统计方法只能考虑最近n个词语而忽略更久前词语的问题。用途:word representation(embedding)(词语向量)、sequence to sequence learning(输入句子预测句子)、机器翻译、语音识别等。

100多行原始python代码实现基于LSTM二进制加法器。https://iamtrask.github.io/2015/11/15/anyone-can-code-lstm/ ,翻译http://blog.csdn.net/zzukun/article/details/49968129 :

import copy, numpy as np
np.random.seed(0)

最开始引入numpy库,矩阵操作。

def sigmoid(x):output = 1/(1+np.exp(-x))return output

声明sigmoid激活函数,神经网络基础内容,常用激活函数sigmoid、tan、relu等,sigmoid取值范围[0, 1],tan取值范围[-1,1],x是向量,返回output是向量。

def sigmoid_output_to_derivative(output):return output*(1-output)

声明sigmoid求导函数。
加法器思路:二进制加法是二进制位相加,记录满二进一进位,训练时随机c=a+b样本,输入a、b输出c是整个lstm预测过程,训练由a、b二进制向c各种转换矩阵和权重,神经网络。

int2binary = {}

声明词典,由整型数字转成二进制,存起来不用随时计算,提前存好读取更快。

binary_dim = 8

largest_number = pow(2,binary_dim)
声明二进制数字维度,8,二进制能表达最大整数2^8=256,largest_number。

binary = np.unpackbits(np.array([range(largest_number)],dtype=np.uint8).T,axis=1)
for i in range(largest_number):int2binary[i] = binary[i]

预先把整数到二进制转换词典存起来。

alpha = 0.1
input_dim = 2
hidden_dim = 16
output_dim = 1

设置参数,alpha是学习速度,input_dim是输入层向量维度,输入a、b两个数,是2,hidden_dim是隐藏层向量维度,隐藏层神经元个数,output_dim是输出层向量维度,输出一个c,是1维。从输入层到隐藏层权重矩阵是216维,从隐藏层到输出层权重矩阵是161维,隐藏层到隐藏层权重矩阵是16*16维:

synapse_0 = 2*np.random.random((input_dim,hidden_dim)) - 1
synapse_1 = 2*np.random.random((hidden_dim,output_dim)) - 1
synapse_h = 2*np.random.random((hidden_dim,hidden_dim)) - 1

2x-1,np.random.random生成从0到1之间随机浮点数,2x-1使其取值范围在[-1, 1]。

synapse_0_update = np.zeros_like(synapse_0)
synapse_1_update = np.zeros_like(synapse_1)
synapse_h_update = np.zeros_like(synapse_h)

声明三个矩阵更新,Delta。

for j in range(10000):

进行10000次迭代。

a_int = np.random.randint(largest_number/2)
a = int2binary[a_int]
b_int = np.random.randint(largest_number/2)
b = int2binary[b_int]
c_int = a_int + b_int
c = int2binary[c_int]

随机生成样本,包含二进制a、b、c,c=a+b,a_int、b_int、c_int分别是a、b、c对应整数格式。

d = np.zeros_like(c)

d存模型对c预测值。

overallError = 0

全局误差,观察模型效果。
layer_2_deltas = list()
存储第二层(输出层)残差,输出层残差计算公式推导公式http://deeplearning.stanford.edu/wiki/index.php/%E5%8F%8D%E5%90%91%E4%BC%A0%E5%AF%BC%E7%AE%97%E6%B3%95 。

layer_1_values = list()
layer_1_values.append(np.zeros(hidden_dim))

存储第一层(隐藏层)输出值,赋0值作为上一个时间值。

for position in range(binary_dim):

遍历二进制每一位。

X = np.array([[a[binary_dim - position - 1],b[binary_dim - position - 1]]])
y = np.array([[c[binary_dim - position - 1]]]).T

X和y分别是样本输入和输出二进制值第position位,X对于每个样本有两个值,分别是a和b对应第position位。把样本拆成每个二进制位用于训练,二进制加法存在进位标记正好适合利用LSTM长短期记忆训练,每个样本8个二进制位是一个时间序列。

layer_1 = sigmoid(np.dot(X,synapse_0) + np.dot(layer_1_values[-1],synapse_h))

公式Ct = sigma(W0·Xt + Wh·Ct-1)

layer_2 = sigmoid(np.dot(layer_1,synapse_1))

这里使用的公式是C2 = sigma(W1·C1),

layer_2_error = y - layer_2

计算预测值和真实值误差。

layer_2_deltas.append((layer_2_error)*sigmoid_output_to_derivative(layer_2))

反向传导,计算delta,添加到数组layer_2_deltas

overallError += np.abs(layer_2_error[0])

计算累加总误差,用于展示和观察。

d[binary_dim - position - 1] = np.round(layer_2[0][0])

存储预测position位输出值。

layer_1_values.append(copy.deepcopy(layer_1))

存储中间过程生成隐藏层值。

future_layer_1_delta = np.zeros(hidden_dim)

存储下一个时间周期隐藏层历史记忆值,先赋一个空值。

for position in range(binary_dim):

遍历二进制每一位。

X = np.array([[a[position],b[position]]])

取出X值,从大位开始更新,反向传导按时序逆着一级一级更新。

layer_1 = layer_1_values[-position-1]

取出位对应隐藏层输出。

prev_layer_1 = layer_1_values[-position-2]

取出位对应隐藏层上一时序输出。

layer_2_delta = layer_2_deltas[-position-1]

取出位对应输出层delta。

layer_1_delta = (future_layer_1_delta.dot(synapse_h.T) + layer_2_delta.dot(synapse_1.T)) * sigmoid_output_to_derivative(layer_1)

神经网络反向传导公式,加上隐藏层?值。

synapse_1_update += np.atleast_2d(layer_1).T.dot(layer_2_delta)

累加权重矩阵更新,对权重(权重矩阵)偏导等于本层输出与下一层delta点乘。

synapse_h_update += np.atleast_2d(prev_layer_1).T.dot(layer_1_delta)

前一时序隐藏层权重矩阵更新,前一时序隐藏层输出与本时序delta点乘。

synapse_0_update += X.T.dot(layer_1_delta)

输入层权重矩阵更新。

future_layer_1_delta = layer_1_delta

记录本时序隐藏层delta。

synapse_0 += synapse_0_update * alpha
synapse_1 += synapse_1_update * alpha
synapse_h += synapse_h_update * alpha

权重矩阵更新。

synapse_0_update *= 0
synapse_1_update *= 0
synapse_h_update *= 0

更新变量归零。

if(j % 1000 == 0):print "Error:" + str(overallError)print "Pred:" + str(d)print "True:" + str(c)out = 0for index,x in enumerate(reversed(d)):out += x*pow(2,index)print str(a_int) + " + " + str(b_int) + " = " + str(out)print "------------"

每训练1000个样本输出总误差信息,运行时看收敛过程。
LSTM最简单实现,没有考虑偏置变量,只有两个神经元。

完整LSTM python实现。完全参照论文great intro paper实现,代码来源https://github.com/nicodjimenez/lstm ,作者解释http://nicodjimenez.github.io/2014/08/08/lstm.html ,具体过程参考http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 图。

import random
import numpy as np
import mathdef sigmoid(x):return 1. / (1 + np.exp(-x))

声明sigmoid函数。

def rand_arr(a, b, *args):np.random.seed(0)return np.random.rand(*args) * (b - a) + a

生成随机矩阵,取值范围[a,b),shape用args指定。

class LstmParam:def __init__(self, mem_cell_ct, x_dim):self.mem_cell_ct = mem_cell_ctself.x_dim = x_dimconcat_len = x_dim + mem_cell_ct# weight matricesself.wg = rand_arr(-0.1, 0.1, mem_cell_ct, concat_len)self.wi = rand_arr(-0.1, 0.1, mem_cell_ct, concat_len)self.wf = rand_arr(-0.1, 0.1, mem_cell_ct, concat_len)self.wo = rand_arr(-0.1, 0.1, mem_cell_ct, concat_len)# bias termsself.bg = rand_arr(-0.1, 0.1, mem_cell_ct)self.bi = rand_arr(-0.1, 0.1, mem_cell_ct)self.bf = rand_arr(-0.1, 0.1, mem_cell_ct)self.bo = rand_arr(-0.1, 0.1, mem_cell_ct)# diffs (derivative of loss function w.r.t. all parameters)self.wg_diff = np.zeros((mem_cell_ct, concat_len))self.wi_diff = np.zeros((mem_cell_ct, concat_len))self.wf_diff = np.zeros((mem_cell_ct, concat_len))self.wo_diff = np.zeros((mem_cell_ct, concat_len))self.bg_diff = np.zeros(mem_cell_ct)self.bi_diff = np.zeros(mem_cell_ct)self.bf_diff = np.zeros(mem_cell_ct)self.bo_diff = np.zeros(mem_cell_ct)

LstmParam类传递参数,mem_cell_ct是lstm神经元数目,x_dim是输入数据维度,concat_len是mem_cell_ct与x_dim长度和,wg是输入节点权重矩阵,wi是输入门权重矩阵,wf是忘记门权重矩阵,wo是输出门权重矩阵,bg、bi、bf、bo分别是输入节点、输入门、忘记门、输出门偏置,wg_diff、wi_diff、wf_diff、wo_diff分别是输入节点、输入门、忘记门、输出门权重损失,bg_diff、bi_diff、bf_diff、bo_diff分别是输入节点、输入门、忘记门、输出门偏置损失,初始化按照矩阵维度初始化,损失矩阵归零。

    def apply_diff(self, lr = 1):self.wg -= lr * self.wg_diffself.wi -= lr * self.wi_diffself.wf -= lr * self.wf_diffself.wo -= lr * self.wo_diffself.bg -= lr * self.bg_diffself.bi -= lr * self.bi_diffself.bf -= lr * self.bf_diffself.bo -= lr * self.bo_diff# reset diffs to zeroself.wg_diff = np.zeros_like(self.wg)self.wi_diff = np.zeros_like(self.wi)self.wf_diff = np.zeros_like(self.wf)self.wo_diff = np.zeros_like(self.wo)self.bg_diff = np.zeros_like(self.bg)self.bi_diff = np.zeros_like(self.bi)self.bf_diff = np.zeros_like(self.bf)self.bo_diff = np.zeros_like(self.bo)

定义权重更新过程,先减损失,再把损失矩阵归零。

class LstmState:def __init__(self, mem_cell_ct, x_dim):self.g = np.zeros(mem_cell_ct)self.i = np.zeros(mem_cell_ct)self.f = np.zeros(mem_cell_ct)self.o = np.zeros(mem_cell_ct)self.s = np.zeros(mem_cell_ct)self.h = np.zeros(mem_cell_ct)self.bottom_diff_h = np.zeros_like(self.h)self.bottom_diff_s = np.zeros_like(self.s)self.bottom_diff_x = np.zeros(x_dim)

LstmState存储LSTM神经元状态,包括g、i、f、o、s、h,s是内部状态矩阵(记忆),h是隐藏层神经元输出矩阵。

class LstmNode:def __init__(self, lstm_param, lstm_state):# store reference to parameters and to activationsself.state = lstm_stateself.param = lstm_param# non-recurrent input to nodeself.x = None# non-recurrent input concatenated with recurrent inputself.xc = None

LstmNode对应样本输入,x是输入样本x,xc是用hstack把x和递归输入节点拼接矩阵(hstack是横拼矩阵,vstack是纵拼矩阵)。

    def bottom_data_is(self, x, s_prev = None, h_prev = None):# if this is the first lstm node in the networkif s_prev == None: s_prev = np.zeros_like(self.state.s)if h_prev == None: h_prev = np.zeros_like(self.state.h)# save data for use in backpropself.s_prev = s_prevself.h_prev = h_prev# concatenate x(t) and h(t-1)xc = np.hstack((x,  h_prev))self.state.g = np.tanh(np.dot(self.param.wg, xc) + self.param.bg)self.state.i = sigmoid(np.dot(self.param.wi, xc) + self.param.bi)self.state.f = sigmoid(np.dot(self.param.wf, xc) + self.param.bf)self.state.o = sigmoid(np.dot(self.param.wo, xc) + self.param.bo)self.state.s = self.state.g * self.state.i + s_prev * self.state.fself.state.h = self.state.s * self.state.oself.x = xself.xc = xc

bottom和top是两个方向,输入样本从底部输入,反向传导从顶部向底部传导,bottom_data_is是输入样本过程,把x和先前输入拼接成矩阵,用公式wx+b分别计算g、i、f、o值,激活函数tanh和sigmoid。
每个时序神经网络有四个神经网络层(激活函数),最左边忘记门,直接生效到记忆C,第二个输入门,依赖输入样本数据,按照一定“比例”影响记忆C,“比例”通过第三个层(tanh)实现,取值范围是[-1,1]可以正向影响也可以负向影响,最后一个输出门,每一时序产生输出既依赖输入样本x和上一时序输出,还依赖记忆C,设计模仿生物神经元记忆功能。

    def top_diff_is(self, top_diff_h, top_diff_s):# notice that top_diff_s is carried along the constant error carouselds = self.state.o * top_diff_h + top_diff_sdo = self.state.s * top_diff_hdi = self.state.g * dsdg = self.state.i * dsdf = self.s_prev * ds# diffs w.r.t. vector inside sigma / tanh functiondi_input = (1. - self.state.i) * self.state.i * didf_input = (1. - self.state.f) * self.state.f * dfdo_input = (1. - self.state.o) * self.state.o * dodg_input = (1. - self.state.g ** 2) * dg# diffs w.r.t. inputsself.param.wi_diff += np.outer(di_input, self.xc)self.param.wf_diff += np.outer(df_input, self.xc)self.param.wo_diff += np.outer(do_input, self.xc)self.param.wg_diff += np.outer(dg_input, self.xc)self.param.bi_diff += di_inputself.param.bf_diff += df_inputself.param.bo_diff += do_inputself.param.bg_diff += dg_input# compute bottom diffdxc = np.zeros_like(self.xc)dxc += np.dot(self.param.wi.T, di_input)dxc += np.dot(self.param.wf.T, df_input)dxc += np.dot(self.param.wo.T, do_input)dxc += np.dot(self.param.wg.T, dg_input)# save bottom diffsself.state.bottom_diff_s = ds * self.state.fself.state.bottom_diff_x = dxc[:self.param.x_dim]self.state.bottom_diff_h = dxc[self.param.x_dim:]

反向传导,整个训练过程核心。假设在t时刻lstm输出预测值h(t),实际输出值是y(t),之间差别是损失,假设损失函数为l(t) = f(h(t), y(t)) = ||h(t) - y(t)||^2,欧式距离,整体损失函数是L(t) = ∑l(t),t从1到T,T表示整个事件序列最大长度。最终目标是用梯度下降法让L(t)最小化,找到一个最优权重w使得L(t)最小,当w发生微小变化L(t)不再变化,达到局部最优,即L对w偏导梯度为0。
dL/dw表示当w发生单位变化L变化多少,dh(t)/dw表示当w发生单位变化h(t)变化多少,dL/dh(t)表示当h(t)发生单位变化时L变化多少,(dL/dh(t)) * (dh(t)/dw)表示第t时序第i个记忆单元w发生单位变化L变化多少,把所有由1到M的i和所有由1到T的t累加是整体dL/dw。

第i个记忆单元,h(t)发生单位变化,整个从1到T时序所有局部损失l的累加和,是dL/dh(t),h(t)只影响从t到T时序局部损失l。

假设L(t)表示从t到T损失和,L(t) = ∑l(s)。

h(t)对w导数。

L(t) = l(t) + L(t+1),dL(t)/dh(t) = dl(t)/dh(t) + dL(t+1)/dh(t),用下一时序导数得出当前时序导数,规律推导,计算T时刻导数往前推,在T时刻,dL(T)/dh(T) = dl(T)/dh(T)。

class LstmNetwork():def __init__(self, lstm_param):self.lstm_param = lstm_paramself.lstm_node_list = []# input sequenceself.x_list = []def y_list_is(self, y_list, loss_layer):"""Updates diffs by setting target sequencewith corresponding loss layer.Will *NOT* update parameters.  To update parameters,call self.lstm_param.apply_diff()"""assert len(y_list) == len(self.x_list)idx = len(self.x_list) - 1# first node only gets diffs from label ...loss = loss_layer.loss(self.lstm_node_list[idx].state.h, y_list[idx])diff_h = loss_layer.bottom_diff(self.lstm_node_list[idx].state.h, y_list[idx])# here s is not affecting loss due to h(t+1), hence we set equal to zerodiff_s = np.zeros(self.lstm_param.mem_cell_ct)self.lstm_node_list[idx].top_diff_is(diff_h, diff_s)idx -= 1### ... following nodes also get diffs from next nodes, hence we add diffs to diff_h### we also propagate error along constant error carousel using diff_swhile idx >= 0:loss += loss_layer.loss(self.lstm_node_list[idx].state.h, y_list[idx])diff_h = loss_layer.bottom_diff(self.lstm_node_list[idx].state.h, y_list[idx])diff_h += self.lstm_node_list[idx + 1].state.bottom_diff_hdiff_s = self.lstm_node_list[idx + 1].state.bottom_diff_sself.lstm_node_list[idx].top_diff_is(diff_h, diff_s)idx -= 1return loss

diff_h(预测结果误差发生单位变化损失L多少,dL(t)/dh(t)数值计算),由idx从T往前遍历到1,计算loss_layer.bottom_diff和下一个时序bottom_diff_h和作为diff_h(第一次遍历即T不加bottom_diff_h)。
loss_layer.bottom_diff:

    def bottom_diff(self, pred, label):diff = np.zeros_like(pred)diff[0] = 2 * (pred[0] - label)return diff

l(t) = f(h(t), y(t)) = ||h(t) - y(t)||^2导数l'(t) = 2 * (h(t) - y(t))
。当s(t)发生变化,L(t)变化来源s(t)影响h(t)和h(t+1),影响L(t)。
h(t+1)不会影响l(t)。
左边式子(dL(t)/dh(t)) * (dh(t)/ds(t)),由t+1到t来逐级反推dL(t)/ds(t)。
神经元self.state.h = self.state.s self.state.o,h(t) = s(t) o(t),dh(t)/ds(t) = o(t),dL(t)/dh(t)是top_diff_h。

top_diff_is,Bottom means input to the layer, top means output of the layer. Caffe also uses this terminology. bottom表示神经网络层输入,top表示神经网络层输出,和caffe概念一致。
def top_diff_is(self, top_diff_h, top_diff_s):
top_diff_h表示当前t时序dL(t)/dh(t), top_diff_s表示t+1时序记忆单元dL(t)/ds(t)。

        ds = self.state.o * top_diff_h + top_diff_sdo = self.state.s * top_diff_hdi = self.state.g * dsdg = self.state.i * dsdf = self.s_prev * ds

前缀d表达误差L对某一项导数(directive)。
ds是在根据公式dL(t)/ds(t)计算当前t时序dL(t)/ds(t)。
do是计算dL(t)/do(t),h(t) = s(t) o(t),dh(t)/do(t) = s(t),dL(t)/do(t) = (dL(t)/dh(t)) (dh(t)/do(t)) = top_diff_h * s(t)。
di是计算dL(t)/di(t)。s(t) = f(t) s(t-1) + i(t) g(t)。dL(t)/di(t) = (dL(t)/ds(t)) (ds(t)/di(t)) = ds g(t)。
dg是计算dL(t)/dg(t),dL(t)/dg(t) = (dL(t)/ds(t)) (ds(t)/dg(t)) = ds i(t)。
df是计算dL(t)/df(t),dL(t)/df(t) = (dL(t)/ds(t)) (ds(t)/df(t)) = ds s(t-1)。

        di_input = (1. - self.state.i) * self.state.i * didf_input = (1. - self.state.f) * self.state.f * dfdo_input = (1. - self.state.o) * self.state.o * dodg_input = (1. - self.state.g ** 2) * dg

sigmoid函数导数,tanh函数导数。di_input,(1. - self.state.i) * self.state.i,sigmoid导数,当i神经元输入发生单位变化时输出值有多大变化,再乘di表示当i神经元输入发生单位变化时误差L(t)发生多大变化,dL(t)/d i_input(t)。

        self.param.wi_diff += np.outer(di_input, self.xc)self.param.wf_diff += np.outer(df_input, self.xc)self.param.wo_diff += np.outer(do_input, self.xc)self.param.wg_diff += np.outer(dg_input, self.xc)self.param.bi_diff += di_inputself.param.bf_diff += df_inputself.param.bo_diff += do_inputself.param.bg_diff += dg_input

w_diff是权重矩阵误差,b_diff是偏置误差,用于更新。

        dxc = np.zeros_like(self.xc)dxc += np.dot(self.param.wi.T, di_input)dxc += np.dot(self.param.wf.T, df_input)dxc += np.dot(self.param.wo.T, do_input)dxc += np.dot(self.param.wg.T, dg_input)

累加输入xdiff,x在四处起作用,四处diff加和后作xdiff。

        self.state.bottom_diff_s = ds * self.state.fself.state.bottom_diff_x = dxc[:self.param.x_dim]self.state.bottom_diff_h = dxc[self.param.x_dim:]

bottom_diff_s是在t-1时序上s变化和t时序上s变化时f倍关系。dxc是x和h横向合并矩阵,分别取两部分diff信息bottom_diff_x和bottom_diff_h。

def x_list_clear(self):self.x_list = []def x_list_add(self, x):self.x_list.append(x)if len(self.x_list) > len(self.lstm_node_list):# need to add new lstm node, create new state memlstm_state = LstmState(self.lstm_param.mem_cell_ct, self.lstm_param.x_dim)self.lstm_node_list.append(LstmNode(self.lstm_param, lstm_state))# get index of most recent x inputidx = len(self.x_list) - 1if idx == 0:# no recurrent inputs yetself.lstm_node_list[idx].bottom_data_is(x)else:s_prev = self.lstm_node_list[idx - 1].state.sh_prev = self.lstm_node_list[idx - 1].state.hself.lstm_node_list[idx].bottom_data_is(x, s_prev, h_prev)

添加训练样本,输入x数据。

def example_0():# learns to repeat simple sequence from random inputsnp.random.seed(0)# parameters for input data dimension and lstm cell countmem_cell_ct = 100x_dim = 50concat_len = x_dim + mem_cell_ctlstm_param = LstmParam(mem_cell_ct, x_dim)lstm_net = LstmNetwork(lstm_param)y_list = [-0.5,0.2,0.1, -0.5]input_val_arr = [np.random.random(x_dim) for _ in y_list]for cur_iter in range(100):print "cur iter: ", cur_iterfor ind in range(len(y_list)):lstm_net.x_list_add(input_val_arr[ind])print "y_pred[%d] : %f" % (ind, lstm_net.lstm_node_list[ind].state.h[0])loss = lstm_net.y_list_is(y_list, ToyLossLayer)print "loss: ", losslstm_param.apply_diff(lr=0.1)lstm_net.x_list_clear()

初始化LstmParam,指定记忆存储单元数为100,指定输入样本x维度是50。初始化LstmNetwork训练模型,生成4组各50个随机数,分别以[-0.5,0.2,0.1, -0.5]作为y值训练,每次喂50个随机数和一个y值,迭代100次。
lstm输入一串连续质数预估下一个质数。小测试,生成100以内质数,循环拿出50个质数序列作x,第51个质数作y,拿出10个样本参与训练1w次,均方误差由0.17973最终达到了1.05172e-06,几乎完全正确:

import numpy as np
import sysfrom lstm import LstmParam, LstmNetworkclass ToyLossLayer:"""Computes square loss with first element of hidden layer array."""
    @classmethoddef loss(self, pred, label):return (pred[0] - label) ** 2    @classmethoddef bottom_diff(self, pred, label):diff = np.zeros_like(pred)diff[0] = 2 * (pred[0] - label)return diffclass Primes:def __init__(self):self.primes = list()for i in range(2, 100):is_prime = Truefor j in range(2, i-1):if i % j == 0:is_prime = Falseif is_prime:self.primes.append(i)self.primes_count = len(self.primes)def get_sample(self, x_dim, y_dim, index):result = np.zeros((x_dim+y_dim))for i in range(index, index + x_dim + y_dim):result[i-index] = self.primes[i%self.primes_count]/100.0return resultdef example_0():mem_cell_ct = 100x_dim = 50concat_len = x_dim + mem_cell_ctlstm_param = LstmParam(mem_cell_ct, x_dim)lstm_net = LstmNetwork(lstm_param)primes = Primes()x_list = []y_list = []for i in range(0, 10):sample = primes.get_sample(x_dim, 1, i)x = sample[0:x_dim]y = sample[x_dim:x_dim+1].tolist()[0]x_list.append(x)y_list.append(y)for cur_iter in range(10000):if cur_iter % 1000 == 0:print "y_list=", y_listfor ind in range(len(y_list)):lstm_net.x_list_add(x_list[ind])if cur_iter % 1000 == 0:print "y_pred[%d] : %f" % (ind, lstm_net.lstm_node_list[ind].state.h[0])loss = lstm_net.y_list_is(y_list, ToyLossLayer)if cur_iter % 1000 == 0:print "loss: ", losslstm_param.apply_diff(lr=0.01)lstm_net.x_list_clear()if __name__ == "__main__":example_0()

质数列表全都除以100,这个代码训练数据必须是小于1数值。

torch是深度学习框架。1)tensorflow,谷歌主推,时下最火,小型试验和大型计算都可以,基于python,缺点是上手相对较难,速度一般;2)torch,facebook主推,用于小型试验,开源应用较多,基于lua,上手较快,网上文档较全,缺点是lua语言相对冷门;3)mxnet,Amazon主推,主要用于大型计算,基于python和R,缺点是网上开源项目较少;4)caffe,facebook主推,用于大型计算,基于c++、python,缺点是开发不是很方便;5)theano,速度一般,基于python,评价很好。

torch github上lstm实现项目比较多。

在mac上安装torch。https://github.com/torch/torch7/wiki/Cheatsheet#installing-and-running-torch 。

git clone https://github.com/torch/distro.git ~/torch --recursive
cd ~/torch; bash install-deps;
./install.sh

qt安装不成功问题,自己单独安装。

brew install cartr/qt4/qt

安装后需要手工加到~/.bash_profile中。

. ~/torch/install/bin/torch-activate

source ~/.bash_profile后执行th使用torch。
安装itorch,安装依赖

brew install zeromq
brew install openssl
luarocks install luacrypto OPENSSL_DIR=/usr/local/opt/openssl/git clone https://github.com/facebook/iTorch.git
cd iTorch
luarocks make 

用卷积神经网络实现图像识别。
创建pattern_recognition.lua:

require 'nn'
require 'paths'
if (not paths.filep("cifar10torchsmall.zip")) thenos.execute('wget -c https://s3.amazonaws.com/torch7/data/cifar10torchsmall.zip')os.execute('unzip cifar10torchsmall.zip')
end
trainset = torch.load('cifar10-train.t7')
testset = torch.load('cifar10-test.t7')
classes = {'airplane', 'automobile', 'bird', 'cat',
'deer', 'dog', 'frog', 'horse', 'ship', 'truck'}
setmetatable(trainset,
{__index = function(t, i)return {t.data[i], t.label[i]}
end}
);
trainset.data = trainset.data:double() -- convert the data from a ByteTensor to a DoubleTensor.function trainset:size()return self.data:size(1)
end
mean = {} -- store the mean, to normalize the test set in the future
stdv  = {} -- store the standard-deviation for the future
for i=1,3 do -- over each image channelmean[i] = trainset.data[{ {}, {i}, {}, {}  }]:mean() -- mean estimationprint('Channel ' .. i .. ', Mean: ' .. mean[i])trainset.data[{ {}, {i}, {}, {}  }]:add(-mean[i]) -- mean subtractionstdv[i] = trainset.data[{ {}, {i}, {}, {}  }]:std() -- std estimationprint('Channel ' .. i .. ', Standard Deviation: ' .. stdv[i])trainset.data[{ {}, {i}, {}, {}  }]:div(stdv[i]) -- std scaling
end
net = nn.Sequential()
net:add(nn.SpatialConvolution(3, 6, 5, 5)) -- 3 input image channels, 6 output channels, 5x5 convolution kernel
net:add(nn.ReLU())                       -- non-linearity
net:add(nn.SpatialMaxPooling(2,2,2,2))     -- A max-pooling operation that looks at 2x2 windows and finds the max.
net:add(nn.SpatialConvolution(6, 16, 5, 5))
net:add(nn.ReLU())                       -- non-linearity
net:add(nn.SpatialMaxPooling(2,2,2,2))
net:add(nn.View(16*5*5))                    -- reshapes from a 3D tensor of 16x5x5 into 1D tensor of 16*5*5
net:add(nn.Linear(16*5*5, 120))             -- fully connected layer (matrix multiplication between input and weights)
net:add(nn.ReLU())                       -- non-linearity
net:add(nn.Linear(120, 84))
net:add(nn.ReLU())                       -- non-linearity
net:add(nn.Linear(84, 10))                   -- 10 is the number of outputs of the network (in this case, 10 digits)
net:add(nn.LogSoftMax())                     -- converts the output to a log-probability. Useful for classification problems
criterion = nn.ClassNLLCriterion()
trainer = nn.StochasticGradient(net, criterion)
trainer.learningRate = 0.001
trainer.maxIteration = 5
trainer:train(trainset)
testset.data = testset.data:double()   -- convert from Byte tensor to Double tensor
for i=1,3 do -- over each image channeltestset.data[{ {}, {i}, {}, {}  }]:add(-mean[i]) -- mean subtractiontestset.data[{ {}, {i}, {}, {}  }]:div(stdv[i]) -- std scaling
end
predicted = net:forward(testset.data[100])
print(classes[testset.label[100]])
print(predicted:exp())
for i=1,predicted:size(1) doprint(classes[i], predicted[i])
end
correct = 0
for i=1,10000 dolocal groundtruth = testset.label[i]local prediction = net:forward(testset.data[i])local confidences, indices = torch.sort(prediction, true)  -- true means sort in descending orderif groundtruth == indices[1] thencorrect = correct + 1end
endprint(correct, 100*correct/10000 .. ' % ')
class_performance = {0, 0, 0, 0, 0, 0, 0, 0, 0, 0}
for i=1,10000 dolocal groundtruth = testset.label[i]local prediction = net:forward(testset.data[i])local confidences, indices = torch.sort(prediction, true)  -- true means sort in descending orderif groundtruth == indices[1] thenclass_performance[groundtruth] = class_performance[groundtruth] + 1end
endfor i=1,#classes doprint(classes[i], 100*class_performance[i]/1000 .. ' %')
end

执行th pattern_recognition.lua。

首先下载cifar10torchsmall.zip样本,有50000张训练用图片,10000张测试用图片,分别都标注,包括airplane、automobile等10种分类,对trainset绑定__index和size方法,兼容nn.Sequential使用,绑定函数看lua教程:http://tylerneylon.com/a/learn-lua/ ,trainset数据正规化,数据转成均值为1方差为1的double类型张量。初始化卷积神经网络模型,包括两层卷积、两层池化、一个全连接以及一个softmax层,进行训练,学习率为0.001,迭代5次,模型训练好后对测试机第100号图片做预测,打印出整体正确率以及每种分类准确率。https://github.com/soumith/cvpr2015/blob/master/Deep%20Learning%20with%20Torch.ipynb 。

torch可以方便支持gpu计算,需要对代码做修改。

比较流行的seq2seq基本都用lstm组成编码器解码器模型实现,开源实现大都基于one-hot embedding(没有词向量表达信息量大)。word2vec词向量 seq2seq模型,只有一个lstm单元机器人。

下载《甄环传》小说原文。上网随便百度“甄环传 txt”,下载下来,把文件转码成utf-8编码,把windows回车符都替换成n,以便后续处理。

对甄环传切词。切词工具word_segment.py到github下载,地址在https://github.com/warmheartli/ChatBotCourse/blob/master/word_segment.py 。

python ./word_segment.py zhenhuanzhuan.txt zhenhuanzhuan.segment

生成词向量。用word2vec,word2vec源码 https://github.com/warmheartli/ChatBotCourse/tree/master/word2vec 。make编译即可执行。

./word2vec -train ./zhenhuanzhuan.segment -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15

生成一个vectors.bin文件,基于甄环传原文生成的词向量文件。

训练代码。

# -*- coding: utf-8 -*-import sys
import math
import tflearn
import chardet
import numpy as np
import structseq = []max_w = 50
float_size = 4
word_vector_dict = {}def load_vectors(input):"""从vectors.bin加载词向量,返回一个word_vector_dict的词典,key是词,value是200维的向量"""print "begin load vectors"input_file = open(input, "rb")# 获取词表数目及向量维度words_and_size = input_file.readline()words_and_size = words_and_size.strip()words = long(words_and_size.split(' ')[0])size = long(words_and_size.split(' ')[1])print "words =", wordsprint "size =", sizefor b in range(0, words):a = 0word = ''# 读取一个词while True:c = input_file.read(1)word = word + cif False == c or c == ' ':breakif a < max_w and c != 'n':a = a + 1word = word.strip()vector = []for index in range(0, size):m = input_file.read(float_size)(weight,) = struct.unpack('f', m)vector.append(weight)# 将词及其对应的向量存到dict中word_vector_dict[word.decode('utf-8')] = vectorinput_file.close()print "load vectors finish"def init_seq():"""读取切好词的文本文件,加载全部词序列"""file_object = open('zhenhuanzhuan.segment', 'r')vocab_dict = {}while True:line = file_object.readline()if line:for word in line.decode('utf-8').split(' '):if word_vector_dict.has_key(word):seq.append(word_vector_dict[word])else:breakfile_object.close()def vector_sqrtlen(vector):len = 0for item in vector:len += item * itemlen = math.sqrt(len)return lendef vector_cosine(v1, v2):if len(v1) != len(v2):sys.exit(1)sqrtlen1 = vector_sqrtlen(v1)sqrtlen2 = vector_sqrtlen(v2)value = 0for item1, item2 in zip(v1, v2):value += item1 * item2return value / (sqrtlen1*sqrtlen2)def vector2word(vector):max_cos = -10000match_word = ''for word in word_vector_dict:v = word_vector_dict[word]cosine = vector_cosine(vector, v)if cosine > max_cos:max_cos = cosinematch_word = wordreturn (match_word, max_cos)def main():load_vectors("./vectors.bin")init_seq()xlist = []ylist = []test_X = None#for i in range(len(seq)-100):for i in range(10):sequence = seq[i:i+20]xlist.append(sequence)ylist.append(seq[i+20])if test_X is None:test_X = np.array(sequence)(match_word, max_cos) = vector2word(seq[i+20])print "right answer=", match_word, max_cosX = np.array(xlist)Y = np.array(ylist)net = tflearn.input_data([None, 20, 200])net = tflearn.lstm(net, 200)net = tflearn.fully_connected(net, 200, activation='linear')net = tflearn.regression(net, optimizer='sgd', learning_rate=0.1,loss='mean_square')model = tflearn.DNN(net)model.fit(X, Y, n_epoch=500, batch_size=10,snapshot_epoch=False,show_metric=True)model.save("model")predict = model.predict([test_X])#print predict#for v in test_X:#    print vector2word(v)(match_word, max_cos) = vector2word(predict[0])print "predict=", match_word, max_cosmain()

load_vectors从vectors.bin加载词向量,init_seq加载甄环传切词文本并存到一个序列里,vector2word求距离某向量最近词,模型只有一个lstm单元。
经过500个epoch训练,均方损失降到0.33673,以0.941794432002余弦相似度预测出下一个字。

强大gpu,调整参数,整篇文章都训练,修改代码predict部分,不断输出下一个字,自动吐出甄环体。基于tflearn实现,tflearn官方文档examples实现seq2seq直接调用tensorflow中的tensorflow/python/ops/seq2seq.py,基于one-hot embedding方法,一定没有词向量效果好。


本文作者:利炳根

原文链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/521812.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(需求实战_03)_shell脚本 sftp协议下载文件

文章目录一、需求文档说明二、脚本解释/说明三、脚本内容3.1. 案例脚本3.2. 案例脚本升级一、需求文档说明 序号要求说明①协议使用sftp协议远程下载②文件类型.zip③文件名UPDATA④远程下载目录PEDP/⑤本服务器下载存放目录/app/xmldata/Lists 二、脚本解释/说明 脚本拆解释…

JAVA实现onvif的ptz控制_使用Onvif协议进行设备PTZ云台控制

接上一篇使用Onvif协议最重要的应用就是对设备进行PTZ云台控制&#xff0c;PTZ控制包含转动、变焦等&#xff0c;这里我们主要讨论常用的转动和变焦(也就是放大缩小)流程要进行设备PTZ控制&#xff0c;我们首先需要获取到设备的Device Service Address和此设备的用户名密码前两…

DataWorks支持PyODPS类型任务

摘要&#xff1a; 昨天&#xff0c;DataWorks推出了PYODPS任务类型&#xff0c;集成了Maxcompute的Python SDK&#xff0c;可在DataWorks的PYODPS节点上直接编辑Python代码操作Maxcompute&#xff0c;也可以设置调度任务来处理数据&#xff0c;提高数据开发效率。昨天&#xff…

vue base64图片不显示_技巧 | word中插入的图片显示不完整怎么办?

已经好久没有更新了&#xff0c;都快忘记有这个公众号存在了~这几个月发生了很多事情&#xff0c;工作上的任务也迟迟没有减轻&#xff0c;之前保持的日记也已经很久没有写了。但是觉得要是没有什么用什么方式将脑袋中时不时飘过的念头记录下来的话&#xff0c;过段时间就会完全…

重磅 | 华为发布绝杀计算战略!投15亿美元打造开放生态,全球最快AI训练集群Atlas 900,绝了!...

戳蓝字“CSDN云计算”关注我们哦&#xff01; 文 | 阿晶、丹丹、王银发于上海华为HC大会现场出品 | CSDN云计算&#xff08;ID&#xff1a;CSDNcloud&#xff09; 科技的不断发展正逐步加速智能世界的到来。一直&#xff0c;华为致力于提供经济且充裕的算力&#xff0c;力图像使…

python制作圆形按钮_C#圆形按钮,非常漂亮动态

【实例简介】C#圆形按钮&#xff0c;非常漂亮动态 Button,有源代码和例子&#xff0c;这是网上很少有的&#xff0c;兄弟们快下载呀&#xff01;【实例截图】【核心代码】PulseButton└── PulseButton├── Backup│ ├── PulseButton│ │ ├── ClassDiagram1.cd…

(需求实战_04)_定时压缩昨天指定文件并删除

文章目录一、需求文档说明二、脚本设置三、脚本内容一、需求文档说明 序号要求说明①协议使用sftp协议远程下载②文件类型.zip③文件名acd_UPIDDGWL④远程下载目录PEDP/⑤本服务器下载存放目录/ablacklist/xmldata/Lists 二、脚本设置 命令释义说明crontab -e编辑crontab8 0 …

90后实习生,是如何成长为阿里云分布式NoSQL领域专家

摘要&#xff1a; 我是亦征&#xff0c;本名王怀远&#xff0c;现在是阿里云存储服务团队的研发&#xff0c;正值五四青年节&#xff0c;受云栖社区邀请&#xff0c;来分享下自己的成长故事。从5年前第一次进入阿里云实习到如今&#xff0c;我一直都在表格存储TableStore团队&a…

AI新时代-大神教你使用python+Opencv完成人脸解锁(附源码)

摘要&#xff1a; 好吧&#xff0c;伙计们&#xff0c;我回来了。说我拖更不写文章的可以过来用你的小拳拳狠命地捶我胸口.... 那么今天我们来讲关于使用pythonopencvface来实现人脸验证及人脸解锁。代码量同样不多&#xff0c;你可以将这些代码运用在其它一些智能领域&#xf…

java foreach并行_使用foreach在Java中迭代并行数组的漂亮方法

Sean Adkinso..9这是一个有趣的练习.我创建了一个名为ParallelList的对象,它接受可变数量的类型化列表,并且可以遍历每个索引处的值(作为值列表返回):public class ParallelList implements Iterable> {private final List> lists;public ParallelList(List... lists) {t…

zTree笔记,设置无法勾选父节点(禁用父节点)和父节点禁用时回显选中子节点时关联父节点状态

名称链接zTree APIhttp://www.treejs.cn/v3/api.phpzTree Demohttp://www.treejs.cn/v3/demo.php#_101 最近又用到了zTree&#xff0c;虽然zTree的APi已经很全很方便很易懂了&#xff0c;但是难免有的方法找不到。为了方便他人方便自己&#xff0c;做下笔记记录下 zTree笔记1 …

你需要知道的那些 redis 数据结构(前篇)

戳蓝字“CSDN云计算”关注我们哦&#xff01; 作者 | 饿了么物流技术团队来源 | CSDN 企业博客redis 对于团队中的同学们来说是非常熟悉的存在了&#xff0c;我们常用它来做缓存、或是实现分布式锁等等。对于其 api 中提供的几种数据结构&#xff0c;大家也使用得得心应手。api…

Tensorflow快餐教程(6) - 矩阵分解

摘要&#xff1a; 特征分解&#xff0c;奇异值分解&#xff0c;Moore-Penrose广义逆矩阵分解特征向量和特征值我们在《线性代数》课学过方阵的特征向量和特征值。定义&#xff1a;设A∈FnnA∈Fnn是n阶方阵。如果存在非零向量X∈Fn1X∈Fn1使AXλXAXλX对某个常数λ∈Fλ∈F成立&…

ZTree的全选 反选 全不选 取消 清空

全选 //全选$(#c_all).on(click,function (e) {var zTree $.fn.zTree.getZTreeObj("treeMenu");//得到tree对象 treeMenu是我的treeidvar node zTree.getNodes();//得到全部节点var nodes zTree.transformToArray(node);//全部节点转换成数组arrayvar checkNode …

对数周期天线hfss建模_HFSS也有金手指,FADDM招式详解

FADDM(Finite Array Domain Decomposition Method)即有限大阵区域分解法是HFSS针对周期阵列天线的一种高效仿真方法,这种方法不仅能提升天线阵列建模和求解的效率&#xff0c;还能保证仿真结果的精准度。FADDM的优势同样的硬件可求解更大规模的阵列与在HFSS全模型求解具有同样精…

Tensorflow快餐教程(7) - 梯度下降

摘要&#xff1a; 梯度下降梯度下降学习完基础知识和矩阵运算之后&#xff0c;我们再回头看下第一节讲的线性回归的代码&#xff1a;import tensorflow as tf import numpy as nptrX np.linspace(-1, 1, 101) trY 2 * trX np.random.randn(*trX.shape) * 0.33 # 创建一些线性…

php网页执行流程,PHP程序的执行流程

PHP程序的执行流程为了以后能开发PHP扩展&#xff0c;就一定要了解PHP的执行顺序。这篇文章就是为C开发PHP扩展做铺垫。Web环境我们假设为Apache。在编译PHP的时候,为了能够让Apache支持PHP&#xff0c;我们会生成一个mod_php5.so的模块。Apache加载这个模块&#xff0c;在url访…

腾讯物联网操作系统正式开源,最小体积仅1.8 KB

9月18日&#xff0c;腾讯宣布将开源自主研发的轻量级物联网实时操作系统TencentOS tiny。相比市场上其它系统&#xff0c;腾讯TencentOS tiny在资源占用、设备成本、功耗管理以及安全稳定等层面极具竞争力。该系统的开源可大幅降低物联网应用开发成本&#xff0c;提升开发效率&…

云栖大讲堂Java基础入门(三)- 阿里巴巴Java开发手册介绍

摘要&#xff1a; 本文带大家简单理解阿里巴巴Java开发手册中的规约内容以及P3C项目&#xff0c;可以帮助开发者扫描出所有潜在的代码隐患。在中间也聊了一些对于不同语言设计的理解&#xff0c;如何去看待语言的设计&#xff0c;其实是我们去学习一个语言的核心。演讲嘉宾简介…

你的数据安全么?Hadoop再曝安全漏洞| 黑客利用Hadoop Yarn资源管理系统未授权访问漏洞进行攻击

摘要&#xff1a; 4月30日&#xff0c;阿里云发现&#xff0c;俄罗斯黑客利用Hadoop Yarn资源管理系统REST API未授权访问漏洞进行攻击。 Hadoop是一款由Apache基金会推出的分布式系统框架&#xff0c;它通过著名的 MapReduce 算法进行分布式处理&#xff0c;Yarn是Hadoop集群的…