蔚来汽车AI算法工程师,如何理解注意力?

大家好啊,我是董董灿。

今天分享一个上海蔚来汽车的AI算法岗位面试经验总结帖,面试岗位为算法工程师。

这次面试提到的问题,除了与实习相关内容和反问之外,面试官总共问了8个问题,主要集中在度学习基础概念的理解上,在聚焦一点讲是集中在自然语言处理相关的算法理解上。

图片

看了这个面经贴,我突然想到帖子中到的很多知识点,我写的文章都提到过。

比如梯度消失和梯度爆炸的原因,这一点在介绍激活函数时曾经提到过(点这里),LSTM 的更新门的原理(点这里)。

除了一些较简单的算法理解之外,面试中还重点问到了注意力机制的内容

正好最近我在整理和撰写注意力机制相关的文章,比如如何理解AI模型的“注意力”?、用矩阵乘法来揭示注意力的分配、当注意力遇到 AI 模型等。

你可以点击上面的三个链接看一下相关的文章,相信你会对注意力这一重要的机制有更深刻的认识。

接下来,我将通过两个论文中的例子,来展示一下在AI模型中,注意力机制时如何帮助模型完成对于输入数据的注意的。

1、文本阅读

论文地址:

https://arxiv.org/pdf/1601.06733

文本阅读任务是让AI完成文本的阅读,并且可以理解文本所表达的意思,在这篇论文中,作者使用自注意力机制来完成机器阅读的任务。

所谓自注意力(Self-Attention)的关键是:计算同一个序列中不同位置的注意力关系,自注意力在文本阅读/文本总结/图像描述等场景中非常有效。

下面的图像展示了模型在完成文本阅读过程中,处理每个单词时更加关注其他的哪些单词,以此来提取词与词之间的关系,从而更好地理解句子。

上图中,红色的词为模型当前正在识别的词,蓝色阴影的词表示此时模型更加关注的其他词,也就是说和红色的词更加有关联的词。

可以看到,当模型观察到 chasing 单词时,会注意到与 chasing 更加有关系的是 FBI 和 is.

2、文本描述

论文地址:

https://proceedings.mlr.press/v37/xuc15.pdf

这篇论文完成的是图像描述任务(输入一张图像,输出对于这张图像的描述语言)。

作者利用注意力机制来完成图像的信息捕捉。使用的仍然是典型的 Encoder-Decoder 架构。只不过因为输入数据是图像这种结构化的数据,因此,Encoder 采用的 CNN 来完成图像的特征提取,而 Decoder则采用了 LSTM 完成图像特征到描述文字的转换。

图片

下图展示了在这个过程中,模型在输出每个描述单词时,其注意力更多地关注在图像中的哪些地方。

图片

模型在看到上述的图像后,输出的描述为:A woman is throwing a frisbee in a park。可以看到,当输出 woman 的时候,模型更加关注图中的人物,而当输出 a frisbee(一个飞盘)时,模型更加关注图中的红色飞盘部分。

说明注意力机制在处理图像这种结构化的数据中也具有非常好的效果。


我的技术专栏已经有几百位朋友加入了,如果你也希望了解AI技术,学习AI视觉或者大语言模型,戳下面的链接加入吧,这可能是你学习路上非常重要的一次点击呀!

  • AI 视觉入门专栏(第三版)完成
  • 我的Transformer专栏努力更新中

这里还有一个AI视觉入门的1对1训练营,训练营将带你深入理解AI视觉算法、从零手写AI视觉模型。如果你希望快速入门AI视觉,可以点这里查看训练营介绍。

最后,送一句话给大家:生活不止眼前,还有诗和远方,共勉~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/32186.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

共93本!全网最全Frontiers旗下期刊2022、2023版影响因子和分区对比完整版目录!

本周投稿推荐 SSCI • 1区,4.0-5.0(无需返修,提交可录) EI • 各领域沾边均可(2天录用) CNKI • 7天录用-检索(急录友好) SCI&EI • 4区生物医学类,0.1-0.5&…

Gotchiverse Alchemica 代币现已在Base上线

​ 朋友们大家好, 继 GHST 成功登陆 Base 之后,我们很高兴地宣布,Gotchiverse的 "Gotchus Alchemica " token 也将登陆 Base! 从今天起,你就可以通过我们由 Socket 协议提供的新链抽象技术,将 Al…

# 消息中间件 RocketMQ 高级功能和源码分析(十一)

消息中间件 RocketMQ 高级功能和源码分析(十一) 一、消息中间件 RocketMQ 源码分析: 拉取消息长轮询机制 1、消息拉取长轮询机制分析 RocketMQ 未真正实现消息推模式,而是消费者主动向消息服务器拉取消息,RocketMQ …

毕业季带给我的五个启示

每到毕业季,校园里总是充满了复杂的情绪。有人欢笑,有人落泪。同样的四年大学生活,为何结局如此不同?本文将从多个角度探讨如何实现综合改变,解释在交友、机会和心态上的关键因素,揭示“慢就是快”的真理。…

go语言day2

使用cmd 中的 go install ; go build 命令出现 go cannot find main module 错误怎么解决? go学习-问题记录(开发环境)go: cannot find main module; see ‘go help modules‘_go: no flags specified (see go help mod edit)-CSDN博客 在本…

MinIO 网络与覆盖网络

云计算和容器化技术的发展改变了应用程序的开发、部署和管理方式。这种转变给网络环境带来了重大变化,为DevOps和SRE工程师带来了新的挑战和机遇。然而,在这种转变中,出现了明显的知识差距,特别是在理解物理网络和硬件背景下网络的…

【自动驾驶】ROS小车系统

文章目录 小车组成轮式运动底盘的组成轮式运动底盘的分类轮式机器人的控制方式感知传感器ROS决策主控ROS介绍ROS的坐标系ROS的单位机器人电气连接变压模块运动底盘的电气连接ROS主控与传感器的电气连接ROS主控和STM32控制器两种控制器的功能运动底盘基本组成电池电机控制器与驱…

Vulnhub--OS-HACKNOS-2.1

渗透复现 目标站点为wordpress,通过wpscan进行漏洞扫描发现漏洞插件 通过漏洞插件存在的目录穿越漏洞成功读取/etc/passwd文件中flag用户的密码 SSH登录flag用户后在备份文件中找到rohit用户的密码 切换rohit用户,rohit用户能够以root权限执行任何文…

mysql自动填写当前时间,添加索引

mysql自动填写当前时间 在navicat操作界面创建表时,如果需要自动填写时间,可以操作如下 CURRENT_TIMESTAMP为表添加索引 ALTER table tableName ADD INDEX indexName(columnName)追加外键 ALTER TABLE tb_commentPhoto ADD CONSTRAINT FK_comment_ph…

Linux-目录和文件

目录 一、Linux目录 1、Linux常见目录 2、常见的Linux文件类型 二、cat-查看文件命令 1、cat命令用法 三、分页查看文件内容 1、 more命令 ​2、less命令 ​3、more和less的区别 四、查看文件开头或末尾 1、head命令 2、tail命令 3、wc-统计文件内容 4、grep 命令…

多功能投票系统(ThinkPHP+FastAdmin+Uniapp)

让决策更高效,更民主🌟 ​基于ThinkPHPFastAdminUniapp开发的多功能系统,支持图文投票、自定义选手报名内容、自定义主题色、礼物功能(高级授权)、弹幕功能(高级授权)、会员发布、支持数据库私有化部署,Uniapp提供全部无加密源码…

工业web4.0UI风格令人惊艳

工业web4.0UI风格令人惊艳

ARM阻击高通:AI PC大战与芯片之争

引言 在AI PC领域,高通的X Elite芯片因为其高性能和低功耗,一度被认为是未来的主导者。然而,ARM公司却通过法律手段试图阻止高通的独大,这不仅可能拖慢AI PC的发展进程,还引发了业界的广泛关注。本文将深入探讨ARM和高…

今日头条屏幕适配深度剖析

基本概念 首先几个基本概念解释: ● dpi:该值代表的是一英寸上有多少个像素点,常见取值为120,160,240。一般这个值才叫做密度 在android里面获取的方法为 metrics.densityDpi; 屏幕尺寸/分辨率得出DPI,一个…

MySQL进阶——视图

目录 1基本语法 1.1创建 1.2 查询 1.3 修改 1.4 删除 2 检查选项 2.1 级联CASCADED 2.2本地LOCAL 3 更新及作用 3.1视图的更新条件 3.2视图的作用 4视图案例 1基本语法 视图(View)是一种虚拟存在的表。视图中的数据并不在数据库中实际存在&…

Github 2024-06-19 C开源项目日报 Top9

根据Github Trendings的统计,今日(2024-06-19统计)共有9个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量C项目9C++项目1Netdata: 开源实时监控平台 创建周期:4020 天开发语言:C协议类型:GNU General Public License v3.0Star数量:68982 个Fork数量…

乾元通渠道商中标金昌市自然灾害应急能力提升项目

近日,乾元通渠道商中标甘肃省金昌市自然灾害应急能力提升项目,乾元通作为设备厂家,为项目提供通信指挥类装备(多链路聚合设备) QYT-X1 。 随着万亿国债项目的全面铺开, 青岛乾元通数码科技有限公司 作为国家…

STM32多种开发环境及生成hex及bin文件介绍

一.STM32开发环境 KEIL系列 (1)KEIL公司目前有四款独立的嵌入式软件开发工具,即MDK、KEIL C51、KEIL C166、KEIL C251,它们都是KEIL公司品牌下的产品,都基于uVision集成开发环境,其中MDK是RealView系列中…

四边形不等式优化

四边形不等式优化 应用于类似以下dp转移方程。 f i min ⁡ 1 ≤ j ≤ i ( w i , j , f i ) f_{i}\min_{1\le j\le i}(w_{i,j},f_{i}) fi​1≤j≤imin​(wi,j​,fi​) 假设 w i , j w_{i,j} wi,j​ 可以在 O ( 1 ) O(1) O(1) 的时间内进行计算。 在正常情况下,…

Python神经影像数据的处理和分析库之nipy使用详解

概要 神经影像学(Neuroimaging)是神经科学中一个重要的分支,主要研究通过影像技术获取和分析大脑结构和功能的信息。nipy(Neuroimaging in Python)是一个强大的 Python 库,专门用于神经影像数据的处理和分析。nipy 提供了一系列工具和方法,帮助研究人员高效地处理神经影…