卷积神经网络语音识别_用于物体识别的3D卷积神经网络

本文提出了一种基于CNN的3D物体识别方法,能够从3D图像表示中识别3D物体,并在比较了不同的体素时的准确性。已有文献中,3D CNN使用3D点云数据集或者RGBD图像来构建3D CNNs,但是CNN也可以用于直接识别物体体积表示的体素。本文中,我们提出了3D CAD物体检测。

相关工作

  1. 3D形状描述符。现代3D物体识别模型起始于60年代,早期的识别框架基于几何模型。然而,大多数识别工作基于手工提取的特征描述符,例如点特征直方图,3D形状上下文等。CNN第一次用于识别3D物体识别时用于识别RGBD图像,其中深度作为额外的输入通道。基于深度的方法在概念上非常类似于基于二维的识别方法。深度仅作为CNN的第四个通道,使用3D合成模型作为CNN的输入。然而,使用深度通道和颜色通道产生2.5D,不能提供物体的全部几何信息。近年来,研究者尝试了基于多视图和体积信息来更好的形状描述符。
  2. 卷积神经网络。CNNs是为图像和音频信号等二维数据而设计的。它广泛应用于各种计算机视觉任务和数据科学中。CNN在基于二维图像的任务中被广泛使用的原因是可以获得大量的基准数据集,与手工制作的特征相比,这些大型数据集有助于生成更好的图像描述符。本文将相似的特征学习方法应用于三维数据而不是二维数据。
  3. 三维数据上的卷积神经网络. 近年来,随着基于距离和三维CAD数据集的可用性,研究人员获得了与二维图像相比的图像中物体的附加信息。在深度网络中,采用动作、多视图和基于体积的方法来表示三维数据。将基于运动的CNN结构成功地应用于动作识别任务中。Wu等人开发了第一个基于体积数据的CNN架构,即3DShapeNets。3DShapeNets使用一个深度信念网络来表示三维几何形状,将其表示为三维体素网格上二进制变量的概率分布。他们也用他们的方法从深度图中完成形状。然而,我们的工作灵感来自VoxNet,它是由Maturana & Shere设计的。VoxNet由一个简单而有效的CNN组成,接受类似于Wu等人的输入体素网格。3D ShapeNets和VoxelNet提供了最先进的结果。另外值得注意的作品还有Shi等人提出的全景视图[22]和Su等人提出的多视图CNN。

数据集

近年来,已有一些3D数据集可用。但是,这些数据集没有像包含2D图像的ImageNet1数据集那样大。有许多合理大小的三维数据集。大多数三维数据集是基于点云的,这些点云是通过距离扫描器获取的,比如ModelNet2、Sydney Urban Objects3、SUN-3D4。ModelNet数据集用于训练和测试提出的CNN模型。ModelNet数据集包含来自662个不同对象类的127,915张CAD三维图像。ModelNet40是ModelNet的一个子集,它是3D对象识别的基准,并分为9843个训练图像和2468个测试图像中使用。在实验中,我们还在ModelNet10上测试了我们的网络。ModelNet10有10个对象类别,它是ModelNet40的一个子集。在实验中,我们还在ModelNet10上测试了我们的网络。ModelNet10有10个对象类别,它是ModelNet40的一个子集。

方法

通过从目标类中选择最相似的特征,实现了三维CNN中的目标识别。对象识别过程可分为两部分,即三维对象的数据表示和CNN对表示数据的训练。我们在提出的架构中使用了三维体数据表示。大多数研究人员使用体素或点云方法来表示体积数据。我们在CNNs中使用了基于体素的数据表示。体素是在二进制“occupation grid”的帮助下生成的。与二维数据集相比,dataset提供的模型数量较少,因此,为了利用网络,我们向模型提供了沿重力方向30°的旋转。所有的体素都是由ModelNet 数据集中提供的网格模型渲染到12个不同的方向后生成的。本文所提出的网络是Voxnet的改进版本。我们使用了两种不同的网络进行培训。

网络模型1

Network-1包括三个卷积层和两个完全连接的层。大多数研究人员使用的体素大小等于或小于32×32×32。但是,我们认为32×32×32像素对于一个物体的准确预测是非常少的。在二维图像任务中,实验表明小于227×227的迭代对二维图像中的目标识别任务效果不佳。为了充分利用网络,我们使用体素有32×32×32、64×64×64、128×128×128三种不同尺寸。体素中的许多像素表示空单元,产生大量不必要的矩阵乘法(零值矩阵)。为了降低这一成本,我们使用5×5×5的核来代替体积CNNs中常用的3×3×3卷积核。卷积(layer)操作后使用ReLU和max-pooling(大小为2×2×2)层。池化层来减少过多参数的过拟合。为了避免数据过拟合,由于方向和相似的视图,我们在第一个完全连接层之前使用dropout层,概率为0.5。

cc32ef2e4ff6dcc6c079f630380a130e.png

网络模型2

网络模型2的灵感来自AlexNet的网络架构。它由五个卷积层和三个全连接的层组成。网络模型2还使用了体素的多个视图。我们以30度旋转训练网络。除了池之外,此网络具有network-1中使用的所有设置。为了训练网络,我们没有使用网络中池化层。在我们看来,池化可以在对象的形状上产生歧义。Network-2帮助我们了解CNN的深度如何影响识别模型的性能。

01129092610ebab50e1d4ab2c3b169ba.png

10ee56aff3db80e8bbabd01023ba0648.png

实验

该网络使用ModelNet数据集进行训练和测试。所有的三维CAD图像都使用[19]提供的脚本在体素中转换。我们测试了不同尺寸的体素32×32×32、64×64×64和128×128×128的网络。我们分别实现了这两个网络,并比较了它们的结果。然而,两种网络的结果有非常小的差异。我们比较了ModelNet10和ModelNet40数据集的体素大小相同的结果。结果表明,高分辨率体素提高了识别任务的精度。与VoxNet相比,我们的模型具有更好的精度。然而,VoxNet在其架构中只有不到100万个参数,而我们的network-2有超过200万个参数。我们训练network-2不使用pooling来测试pooling对volume - CNN的效果。但结果表明,池化层对结果没有显著影响。池化层对性能没有影响的原因之一是,用于训练和测试的所有体素都是实心的。ModelNet数据集中没有一个对象模型,它具有空心对象。结果如图4所示,图5为损耗和精度。

2f2c29d18bd26f5f83933305eb00696b.png

186015b3e4ead3880ac6a2bc11fd5c83.png

结论

本文描述了基于体素的三维数据表示的三维数据识别任务。分析了CNN在不同体素尺寸下的性能。分析进一步设计新的网络和测试不同大小的体素,以找到适合CNN操作的大小。实验结果表明,体素的大小直接影响目标识别任务。但是另一方面,增加体素的大小会在容量CNN架构中造成性能瓶颈。为了克服这一问题,我们应该探索一种关于时间和空间的优化数据结构来处理体素的大尺寸。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/372914.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

段落排版--对齐(text-aliagn)

想为块状元素中的文本、图片设置居中样式吗&#xff1f;可以使用text-align样式代码&#xff0c;如下代码可实现文本居中显示。(那么什么是块状元素呢&#xff1f;后面会讲到呢~) h1{text-align:center; } <h1>了不起的盖茨比</h1> 同样可以设置居左&#xff1a; h…

Java 7:在不丢失数据的情况下关闭NIO.2文件通道

关闭异步文件通道可能非常困难。 如果您将I / O任务提交到异步通道&#xff0c;则需要确保正确执行了任务。 实际上&#xff0c;出于多种原因&#xff0c;这对于异步通道可能是一个棘手的要求。 默认的通道组使用守护进程线程作为工作线程&#xff0c;这不是一个好选择&#xf…

JavaScript封装方法,兼容参数类型为Number和String

/*** 依据Kind确定跳转到目标列表页面。* param kind*/function gobackByKind(kind) {var kindStr String(kind);switch(kindStr){case "1"://跳转到客户列表页面window.location.href/biz/customer/list;break;case "2"://跳转到代理机构列表页面window.…

#获得请求来源ip_以太网数据包TCP、IP、ICMP、UDP、ARP协议头结构详解

以太网首部目地MAC地址(8字节)源MAC地址(8字节)类型(2字节)1、IP头的结构版本(4位)头长度(4位)服务类型(8位)封包总长度(16位)封包标识(16位)标志(3位)片断偏移地址(13位)存活时间(8位)协议(8位)校验和(16位)来源IP地址(32位)目的IP地址(32位)选项(可选)填充(可选)数据(1)字节和…

团队项目第二次冲刺Ⅶ

今天将整体代码的编码方式改了&#xff0c;作业模块基本修改完成 遇到的问题是对于添加问答模块无从下手转载于:https://www.cnblogs.com/brucekun/p/5573312.html

编写Play 2的模块,第2部分:拦截器

在本教程的第一部分中&#xff0c;我们介绍了创建&#xff0c;发布和调用模块的基本知识。 我们创建的模块并没有真正做很多事情&#xff0c;因此现在是时候使用Play的某些功能来扩展功能了。 1.拦截器 拦截器使您可以拦截对控制器的调用&#xff0c;并增强或阻止其行为。 在第…

c# ef报错_C# EF调用MySql出现“未将对象引用设置到对象的实例”错误解决方案

C# EF调用MySql出现“未将对象引用设置到对象的实例”错误解决方案---修改步骤---1.打开Nuget管理包&#xff0c;把Mysql.Data替换为6.10.0以下任意版本。这里选择的是6.8.82.修改完毕后&#xff0c;继续把Mysql.Data.Entity也修改为对应版本6.8.8。3.安装完成后可以看到App.Co…

js格式化时间

Date.prototype.format function(fmt) {var o { "M" : this.getMonth()1, //月份 "d" : this.getDate(), //日 "h" : this.getHours(), //小时 "m" : this.getMinu…

PHP---函数

一.函数定义的四个要素 返回类型&#xff0c;函数名&#xff0c;参数列表&#xff0c;函数体 //1.最简单的定义方式/*function show(){ echo "hello";}show();*///2.有参数的函数定义/*function show($a){ echo $a;}show("bbbbb");*///3.有默认值的函数定义…

ServletRequest startAsync()的有用性有限

前段时间我遇到了Servlet 3.0中AsyncContext.start&#xff08;…&#xff09;的目的是什么&#xff1f; 题。 引用上述方法的Javadoc &#xff1a; 使容器调度线程&#xff08;可能从托管线程池中&#xff09;运行指定的Runnable 。 提醒大家&#xff0c; AsyncContext是Servl…

mysql所支持的比较运算符_mysql比较运算符有哪些?Mysql比较运算符详解

比较运算符可用于比较数字和字符串。今天发一篇Mysql比较运算符详解&#xff0c;希望对初学者有所帮助&#xff0c;虽然现在流行NoSQL&#xff0c;但是MYSQL还是很有用的&#xff0c;数字作为浮点值进行比较&#xff0c;字符串以不区为例进行比较&#xff0c;运算符用于比较表达…

数据结构0类模板的使用

类模板的使用 #include <iostream> #include <conio.h> #include <string> #define N 3 using namespace std;template <class numtype> class Swap{public :Swap(numtype a,numtype b){xa;yb;}numtype ___(){tempx;xy;ytemp;return x;}//testnumtype …

JavaScript 函数

函数 由于JavaScript的函数也是一个对象&#xff0c;所以类似function abs(v){}函数实际上是一个函数对象&#xff0c;而函数名abs可以视为指向该函数的变量。 因此&#xff0c;第二种定义函数的方式如下&#xff1a; var abs function (x) {if (x > 0) {return x;} else {…

Http Invoker的Spring Remoting支持

Spring HTTP Invoker是Java到Java远程处理的重要解决方案。 该技术使用标准的Java序列化机制通过HTTP公开服务&#xff0c;并且可以被视为替代解决方案&#xff0c;而不是Hessian和Burlap中的自定义序列化。 而且&#xff0c;它仅由Spring提供&#xff0c;因此客户端和服务器应…

mysql 日期列表_MySQL 生成日期表

1、创建一个num表&#xff0c;用来存储数字0~9CREATE TABLE num (i int);2、在num表中生成0~9INSERT INTO num (i) VALUES (0), (1), (2), (3), (4), (5), (6), (7), (8), (9);3、生成一个存储日期的表&#xff0c;datalist是字段名CREATE TABLE if not exists calendar(dateli…

学习后缀自动机想法

小序&#xff1a;学习后缀自动机是要有耐心的&#xff0c;clj的论文自己看真心酸爽&#xff01;&#xff08;还是自己太弱&#xff0c;ls&#xff0c;oyzx好劲啊&#xff0c;狂膜不止&#xff09; 刚刚在写博客之前又看了篇论文&#xff0c;终于看懂了&#xff0c;好开心 正文&…

【BZOJ】3575: [Hnoi2014]道路堵塞

题目链接&#xff1a;http://www.lydsy.com/JudgeOnline/problem.php?id3575 大概的做法是&#xff0c;按照顺序枚举每一条要删去的边&#xff0c;(假设当前点为$u$&#xff0c;在最短路径上的下一个点是$v$)然后强制不走${u->v}$这条边&#xff0c;将$u$入队&#xff0c;做…

结合使用slf4j和Logback教程

在当前文章中&#xff0c;我将向您展示如何配置您的应用程序以使用slf4j和logback作为记录器解决方案。 Java简单日志记录外观&#xff08;slf4j&#xff09;是各种日志记录框架的简单外观&#xff0c;例如JDK日志记录&#xff08;java.util.logging&#xff09;&#xff0c;lo…

mysql 分组top_MySQL:如何查询出每个分组中的 top n 条记录?

问题描述需求&#xff1a;查询出每月 order_amount(订单金额) 排行前3的记录。例如对于2019-02&#xff0c;查询结果中就应该是这3条&#xff1a;解决方法MySQL 5.7 和 MySQL 8.0 有不同的处理方法。1. MySQL 5.7我们先写一个查询语句。根据 order_date 中的年、月&#xff0c;…

ACM第四站————最小生成树(普里姆算法)

对于一个带权的无向连通图&#xff0c;其每个生成树所有边上的权值之和可能不同&#xff0c;我们把所有边上权值之和最小的生成树称为图的最小生成树。 普里姆算法是以其中某一顶点为起点&#xff0c;逐步寻找各个顶点上最小权值的边来构建最小生成树。 其中运用到了回溯&#…