Matlab并行计算实践
需要对上万张图像进行OCR识别。OCR算法原型用Matlab脚本实现,对每张图逐行逐字符识别,整体计算时间很长。找多核多CPU并行执行的方案
Matlab有并行工具箱。可以使用parfor对循环进行并行处理,parfor要求循环之间的运算独立不相关;另一种方式用SPMD模式,类似多线程/多进程方式,每个后台计算单位(worker)都有唯一标识(labindex),类似openmp里的线程id或是mpi里的rank, 同时可以获取worker数量(numlabs), 对多数应用,通过{labindex,numlabs}信息即可对整体计算进行任务划分,每个worker对应一个任务,所有任务完成后,可将计算结果进行合并,最终获取最后结果。SPMD模式还可以支持worker之间的信息交换,暂时没有用到
Matlab中用parpool命令启动worker池环境! 命令细节查看parpool文档
逻辑示意
有nPNG张图片,放在工作目录下,需要对每张图片进行单独OCR识别,结果写到文本文件内,图片识别顺序不重要。
%.... 初始化...%获取所有png图片列表
pngs =dir(strcat(imgDir,'\*.png');
nPng=length(pngs);spmd%worker的ranklabindex %outfile,fp都是worker私有的outfile=['spmd.dir/outfile.txt' num2str(labindex,'%02d')];fp=fopen(outfile,'wt+');%依据labindex,numlabs对数据集进行worker之间任务划分for i=labindex:numlabs:nPngpng=strcat(pngs(i).folder, '\', pngs(i).name);%...图像前处理...ocr(png,fp,...);end fclose(fp);
end %.....收尾汇总....