1.定义指针变量
float *host_Weights; // 锁页内存
float *dev_Weights; // 设备端内存
2.分配内存
cudaHostAlloc((void**)&host_Weights, numInputs * sizeof(float), cudaHostAllocDefault); // 用锁页内存,可以有效加快数据传递速度
cudaMalloc((void**)& dev_Weights, numInputs* sizeof(float)); // 设备端内存
3.主机端内存的使用
for (int kk = 0; kk < numInputs; kk++)
{host_Weights[kk] = bpnn->mNeuronLayers[i]->mWeights[j][kk];
}
4.内存的拷贝(同步拷贝)
cudaMemcpy(dev_Weights,host_Weights,numInputs*sizeof(float),cudaMemcpyHostToDevice); // dev_Weights是目标,host_Weights是源
5.核函数的使用
getNeuron << <1, 1>> > (dev_ Weights); // dev_Weights是指针,所以前面不加位
6.核函数的形参
__global__ void getNeuron(float *dev_Weights)
{// dev_Weights使用时按照指针使用
}
7.内存的销毁
cudaFree(dev_Weights);
cudaFreeHost(host_Weights);