RAG 工业落地方案框架(Qanything、RAGFlow、FastGPT、智谱RAG)细节比对!CVPR自动驾驶最in挑战赛赛道,全球冠军被算力选手夺走了

RAG 工业落地方案框架(Qanything、RAGFlow、FastGPT、智谱RAG)细节比对!CVPR自动驾驶最in挑战赛赛道,全球冠军被算力选手夺走了。

在这里插入图片描述

本文详细比较了四种 RAG 工业落地方案 ——Qanything、RAGFlow、FastGPT 和智谱 RAG,重点分析了它们在知识处理、召回模块、重排模块、大模型处理、Web 服务和切词处理等方面的具体实现。Qanything 在 rerank 模块设计上表现出色;RAGFlow 在文档处理方面优势明显;FastGPT 提供了高度动态配置的模块;智谱 RAG 则在领域数据上的模型微调上有着特殊的优势。每个方案都有其独特的技术细节和适用场景,强调了在实际应用中,选择合适的技术实现以及对细节的精细化处理对于项目的成功至关重要。

用强化学习解决现实问题:Stochasticity、Scale、GAE与Curriculum Learning
文章探讨了强化学习在现实问题解决中的应用,特别是如何处理随机性(Stochasticity)和规模(Scale)问题。作者通过实例说明了在手机操作系统中完成查资料和购物任务的 RL 模型,强调了显式建模随机性的重要性。为了应对数据需求,开发了多机分布式并行脚本以大规模收集数据。此外,文章提出了使用任务完成情况作为整体轨迹的奖励,而非单步奖励,以简化评估过程。
在模型选择上,作者使用了参数量为 1.5B 的小模型,并通过与 GPT-4 的比较展示了其性能优势。文章还提供了 base 模型选择的建议,即选择性能不差且大小适中的模型,以便于训练。算法方面,提出了 Filtered AWR 和 GAE 的简化版本,以及 Automatic Curriculum Learning 策略,这些都是为了更好地适应现实问题的复杂性。实验结果显示,所提出的方法在性能上超越了现有的 agent,如 GPT-4 和 Gemini,并在相同数据集上也表现出色。作者最终开源了代码和模型,邀请社区参与和验证这些研究成果。

在这里插入图片描述

Chameleon和Florence-2
Chameleon 模型采用前融合技术,通过单一 tokenizer 同时处理视觉和语言信息,实现端到端的多模态学习。它使用 VQGAN 进行图像编码,将图像转换为离散的 tokens,并与文本 tokens 一起输入到 Transformer 模型中。这种方法使得不同模态的特征能够在同一表征空间内被有效地关联,提高了模型学习的效率。
Florence-2 模型虽然采用后融合方式,但在多 CV 任务上展现了卓越的性能,能够处理包括 VQA、视觉地面化、OCR 等多种任务。它的模型规模较小,但通过多任务学习,取得了与大型模型相当的效果。Florence-2 的成功表明,多模态模型在处理复杂的计算机视觉任务时,不仅要关注前融合技术,还要优化模型结构和训练方法,以适应实际应用的需求。

在这里插入图片描述

Agent Attention:集成 Softmax 和 Linear 注意力机制
注意力机制 (Attention module) 是 Transformers 中的关键组成部分。虽然全局的注意力机制具有很高的表征能力,但其计算成本较大,限制了其在各种场景下的适用性。本文提出一种新的注意力范式 Agent Attention,目的在计算效率和表征能力之间取得良好的平衡。具体而言,Agent Attention 表示为四元组 (𝑄,𝐴,𝐾,𝑉) ,在传统的注意力模块中引入了一组额外的 Agent token 𝐴 。Agent token 首先充当 Query token 𝑄 的代理来聚合来自 𝐾 和 𝑉 的信息,然后将信息广播回 𝑄。鉴于 Agent token 的数量可以设计为远小于 Query token 的数量,代理注意力明显比 Softmax 注意力更有效,同时保留了全局上下文建模能力。
有趣的是,本文展示了 Agent attention 等效于 Linear attention 的广义形式。因此,代理注意力无缝集成了强大的 Softmax attention 和高效的 Linear attention。
作者通过大量实验表明,Agent attention 在各种视觉任务中证明了有效性,包括图像分类、目标检测、语义分割和图像生成。而且,代理注意力在高分辨率场景中表现出显着的性能,这得益于其线性注意力性质。例如,当应用于 Stable Diffusion 时,Agent attention 会加速生成并显着提高图像生成质量,且无需任何额外的训练。

在这里插入图片描述

昇腾AI原生创新算子挑战赛S1——算子优化详解
昇腾 AI 原生创新算子挑战赛 S1是一个旨在优化 AI 算子性能的竞赛。竞赛分为初赛和决赛两个阶段,通过对算子进行原生优化,提高其在昇腾处理器上的执行效率。初赛要求参赛者对指定算子进行优化,并通过评测系统评估性能。评测标准包括性能提升比例和最终性能排名。决赛则是邀请初赛中表现最佳的选手进行线下深度优化比赛。竞赛提供了算子优化的学习资源,包括基础知识、实践技巧和高级优化方法。重点强调技术细节,如算子内存访问优化、计算密集型操作简化、并行化处理等,以实现更高效的 AI 计算。此外,竞赛鼓励参赛者探索创新的优化策略,以期在未来的 AI 领域中实现更大的性能突破。

华泰 | 电子:AI大模型需要什么样的硬件?
AI 大模型技术的快速发展对硬件产品提出了新的要求。在技术细节上,AI 大模型需要更高的算力支持,这导致了 SoC 中 NPU 算力的提升和存储容量的扩展。例如,AI PC 的推出需要具备 NPU 提供的边缘算力能力,以及内置大模型的能力。在软件层面,AI 大模型的应用推动了系统架构和应用方面的匹配,如 AI 智能手机的智能体开发平台和专属智能体的提供。此外,AI 大模型在具身智能、自动驾驶和人形机器人等领域的应用,涉及到感知、决策和控制等多个环节的技术细节,这些细节包括但不限于大模型的多模态能力、运动控制算法的优化以及硬件级的安全芯片的使用。在云计算方面,AI 大模型的部署和服务化,如 MaaS 模式,也依赖于高效的算力和数据处理技术。

在这里插入图片描述

HuggingFace&Github

01
Maestro
Maestro是一个Python框架,可以利用Anthropic的AI模型(如Opus和Haiku)来协调和执行复杂的任务。它可以将目标任务分解为更小的可管理子任务,利用子模型独立执行这些子任务,然后将结果汇总优化为最终输出。这种AI辅助的任务分解和执行方法可以提高复杂目标的完成效率和质量。
https://github.com/Doriandarko/maestro

02
DiffSynth-Studio
DiffSynth-Studio是一个基于扩散模型的视频合成框架,提供了多种创新性功能,包括视频合成、去闪烁、卡通风格渲染等。它重构了文本编码器、UNet、VAE等核心架构,在保持与开源社区模型兼容的同时,也大幅提高了计算性能。
DiffSynth-Studio支持多种先进的扩散模型,如Stable Diffusion、ControlNet、Stable Video Diffusion等,并且还提出了ExVideo等新技术来增强视频生成的能力。

https://github.com/modelscope/DiffSynth-Studio


CVPR自动驾驶最in挑战赛赛道,全球冠军被算力选手夺走了

浪潮信息AI团队,在自动驾驶领域再夺一冠!

不久前,计算机视觉领域的顶级学术会议CVPR在全球目光注视中顺利落幕,并正式公布了最佳论文等奖项。除诞生了绝佳的10 篇论文之外,另一场备受关注的自动驾驶国际挑战赛也在同期结束了“巅峰厮杀”。

就在CVPR 2024自动驾驶国际挑战赛“Occupancy & Flow”赛道中,浪潮信息AI团队以48.9%的出色成绩,从全球90余支顶尖AI团队中脱颖而出,摘下桂冠。

这也是该团队在2022年、2023年登顶nuScenes 3D目标检测榜单后,面向Occupancy技术的又一次实力展示。

CVPR 2024自动驾驶国际挑战赛是国际计算机视觉与模式识别会议(IEEE/CVF Conference on Computer Vision and Pattern Recognition)的一个重要组成部分,专注于自动驾驶领域的技术创新和应用研究。今年的CVPR自动驾驶国际挑战赛赛道设置也非常之有意思了,完整地包含了感知、预测、规划三大方向七个赛道。

此次浪潮信息AI团队所登顶的占据栅格和运动估计(Occupancy & Flow)赛道,也正是本届CVPR自动驾驶国际挑战赛最受关注的赛道,聚焦感知任务,吸引了全球17个国家和地区,90余支顶尖AI团队参与挑战。

比赛提供了基于nuScenes数据集的大规模占用栅格数据与评测标准, 要求参赛队伍利用相机图像信息对栅格化三维空间的占据情况(Occupancy)和运动(Flow)进行预测,以此来评估感知系统对高度动态及不规则驾驶场景的表示能力。

占据栅格 Occupancy:挑战更精细的环境感知与预测
道路布局的复杂性、交通工具的多样性以及行人流量的密集性,是当前城市道路交通的现状,也是自动驾驶领域面临的现实挑战。为了应对这一挑战,有效的障碍物识别和避障策略,以及对三维环境的感知和理解就变得至关重要。

传统的三维物体检测方法通常使用边界框来表示物体的位置和大小,但对于几何形状复杂的物体,这种方法往往无法准确描述其形状特征,同时也会忽略对背景元素的感知。因此,基于三维边界框的传统感知方法已经无法满足复杂道路环境下的精准感知和预测需求。

Occupancy Networks(占据栅格网络)作为一种全新的自动驾驶感知算法,通过获取立体的栅格占据信息,使系统能够在三维空间中确定物体的位置和形状,进而有效识别和处理那些未被明确标注或形状复杂的障碍物,如异形车、路上的石头、散落的纸箱等。

这种占据栅格网络使得自动驾驶系统能够更准确地理解周围的环境,不仅能识别物体,还能区分静态和动态物体。并以较高的分辨率和精度表示三维环境,对提升自动驾驶系统在复杂场景下的安全性、精度和可靠性至关重要。

浪潮信息AI团队创赛道最高成绩
在占据栅格和运动估计(Occupancy & Flow)赛道中,浪潮信息AI团队以48.9%的绝佳性能表现,创下本赛道最高成绩。

具体而言,团队所提交的“F-OCC”算法模型,凭借先进的模型结构设计、数据处理能力和算子优化能力,实现了该赛道最强模型性能,在RayIoU(基于投射光线的方式评估栅格的占用情况)及mAVE(平均速度误差)两个评测指标中均获得最高成绩。

更简洁高效的模型架构,实现运算效率与检测性能双突破
首先,模型整体选择基于前向投影的感知架构,并采用高效且性能良好的FlashInternImage模型。

同时,通过对整体流程进行超参调优、算子加速等优化,在占据栅格和运动估计均获得最高分的同时,提升了模型的运算效率,加快了模型迭代与推理速度。

在实际应用场景中,这种改进使得模型能够更快速、高效地处理大规模3D体素数据,使得自动驾驶车辆能更好地理解环境,进而提升决策的准确度和实时性。

更强大完善的数据处理,全面提升模型检测能力
在数据处理方面,比赛提供的体素(Voxel)标签包含了大量在图像中无法观测到的点,例如被物体遮挡的体素和物体内部不可见的体素,这些标签在训练过程中会对基于图像数据的预测网络训练产生干扰。

在训练数据中,浪潮信息AI团队通过模拟LiDAR光束的方法,生成可视化掩码,提升了模型的预测精度;另一方面,通过引入感知范围边缘的体素点参与训练,有效解决出现在感知边缘区域的误检问题,将模型的整体检测性能提升11%。

更精细的3D体素编码,模型占据预测能力提升超5%
在3D体素特征编码模块中,该算法团队将具有较大感知范围和编码能力的可形变卷积操作应用于3D体素数据,以提升3D特征的表示能力。

通过使用CUDA对可形变3D卷积(DCN3D)进行实现与优化,大幅提升了模型的运算速度,并有效降低了显存消耗。

通过DCN3D替代传统3D卷积,模型整体占据预测能力提升超5%。

此外,基于开源大模型,浪潮信息AI团队也通过优化图像encoder模型和特征融合对齐方式,并从CoT(Chain of Thought)、GoT(Graph of Thought)、Prompt工程等方面优化,提升了多模态模型对自动驾驶BEV图像的感知理解能力。最终以74.2%的成绩,摘得本届CVPR自动驾驶国际挑战赛 “大语言模型在自动驾驶中的应用”(LLM4AD)赛道的第五名。

2022年,浪潮信息AI团队摘得nuScenes竞赛的纯视觉3D目标检测任务(nuScenes Detection task)第一名,并一举将关键性指标NDS提高至62.4%。

2023年,这支团队再度夺冠,以77.6%的高分成绩再创3D目标检测全赛道最高成绩。

从BEV纯视觉到BEV多模态,再至如今凭借“F-OCC”算法模型再度登顶CVPR 2024自动驾驶国际挑战赛, 占据栅格和运动估计任务(Occupancy & Flow)榜首。浪潮信息AI团队逐步探索,一路绝杀,为探索更高级别的自动驾驶技术提供了有力的支撑和经验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/41742.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SwiftUI 6.0(iOS 18.0)滚动视图新增的滚动阶段(Scroll Phase)监听功能趣谈

何曾几时,在 SwiftUI 开发中的秃头小码农们迫切需要一种能够读取当前滚动状态的方法。 在过去,他们往往需要借助于 UIKit 的神秘力量。不过这一切在 SwiftUI 6.0 中已成“沧海桑田”。 在本篇博文中,您将学到如下内容: 1. Scroll…

一份适合新手的软件测试练习项目

最近,不少读者托我找一个能实际练手的测试项目。开始,我觉得这是很简单的一件事,但当我付诸行动时,却发现,要找到一个对新手友好的练手项目,着实困难。 我翻了不下一百个web网页,包括之前推荐练…

nginx的知识面试易考点

Nginx概念 Nginx 是一个高性能的 HTTP 和反向代理服务。其特点是占有内存少,并发能力强,事实上nginx的并发能力在同类型的网页服务器中表现较好。 Nginx 专为性能优化而开发,性能是其最重要的考量指标,实现上非常注重效率&#…

linux驱动编程 - kfifo先进先出队列

简介: kfifo是Linux Kernel里面的一个 FIFO(先进先出)数据结构,它采用环形循环队列的数据结构来实现,提供一个无边界的字节流服务,并且使用并行无锁编程技术,即当它用于只有一个入队线程和一个出…

nginx修改网站默认根目录及发布(linux、centos、ubuntu)openEuler软件源repo站点

目录 安装nginx配置nginx其它权限配置 安装nginx dnf install -y nginx配置nginx whereis nginxcd /etc/nginx llcd conf.d touch vhost.conf vim vhost.conf 命令模式下输入:set nu或:set number可以显示行号 复制如下内容: server {listen 80;server_name…

ESP32 通过蓝牙显示歌词代码示例

通过蓝牙协议播放音乐,有的时候需要显示歌词,这里就是a2dp库获取了歌词 值得注意的是要想正确获取到歌词,必须打开各种播放器的字幕(歌词)开关 本项目用了三个开源库 a2dp,tft_espi,xfont. a2dp &#x…

【】AI八股-神经网络相关

Deep-Learning-Interview-Book/docs/深度学习.md at master amusi/Deep-Learning-Interview-Book GitHub 网上相关总结: 小菜鸡写一写基础深度学习的问题(复制大佬的,自己复习用) - 知乎 (zhihu.com) CV面试问题准备持续更新贴 …

.net 调用海康SDK的跨平台解决方案

📢欢迎点赞 :👍 收藏 ⭐留言 📝 如有错误敬请指正,赐人玫瑰,手留余香!📢本文作者:由webmote 原创📢作者格言:新的征程,我们面对的不仅仅是技术还有人心,人心不可测,海水不可量,唯有技术,才是深沉黑夜中的一座闪烁的灯塔序言 上2篇海康SDK使用以及常见的坑…

【JavaEE精炼宝库】文件操作(1)——基本知识 | 操作文件——打开实用性编程的大门

目录 一、文件的基本知识1.1 文件的基本概念:1.2 树型结构组织和目录:1.3 文件路径(Path):1.4 二进制文件 VS 文本文件:1.5 其它: 二、Java 操作文件2.1 方法说明:2.2 使用演示&…

HCIA综合实验

学习新思想,争做新青年。今天学习的是HCIA综合实验! 实验拓扑 实验需求 总部: 1、除了SW8 SW9是三层交换机,其他交换机均为2层交换机。 2、GW为总部的出口设备,使用单臂路由技术,VLAN10,20,100的网关都在GW…

ERROR: “armeabi-v7a“ not supported for HarmonyOS

IDE 从 devecostudio-mac-4.1.3.700 升级至 devecostudio-mac-5.0.3.403 后抛出了如下异常: ERROR: "armeabi-v7a" not supported for HarmonyOS. 解决办法 一.entry/build-profile.json5 需 entry/build-profile.json5 的 abiFilters 中移除 "armeabi-v7a&qu…

计算机网络体系结构详解:协议与分层

在学习计算机网络时,理解网络协议与分层体系结构是至关重要的。本文将详细介绍这些概念,帮助基础小白快速入门。 1. 什么是网络协议 网络协议是计算机网络中用于数据交换的规则和标准。这些规则规定了数据格式、时序以及发送和接收数据时的动作。网络协…

基于java+springboot+vue实现的流浪动物管理系统(文末源码+Lw)277

摘 要 在如今社会上,关于信息上面的处理,没有任何一个企业或者个人会忽视,如何让信息急速传递,并且归档储存查询,采用之前的纸张记录模式已经不符合当前使用要求了。所以,对流浪动物信息管理的提升&…

【React】React18 Hooks之useState

目录 useState案例1(直接修改状态)案例2(函数式更新)案例3(受控表单绑定)注意事项1:set函数不会改变正在运行的代码的状态注意事项2:set函数自动批量处理注意事项3:在下次…

[数据集][目标检测]护目镜检测数据集VOC+YOLO格式888张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):888 标注数量(xml文件个数):888 标注数量(txt文件个数):888 标注类别…

ORB 特征点提取

FAST关键点 选取像素p,假设它的亮度为Ip; . 设置一个阈值T(比如Ip的20%); 以像素p为中心,选取半径为3的圆上的16个像素点; 假如选取的圆上,有连续的N个点的亮度大于IpT或小于…

Redis 八股文

标题 1. Redis主从同步原理:判断下线的条件:故障转移如何保证Sentinel高可用 1. Redis主从同步原理: 1、slave执行命令向master建立连接 2、master执行bgsave(后台存储),生成rdb快照(redis备份方式&#x…

日志自动分析-Web---360星图GoaccessALBAnolog

目录 1、Web-360星图(IIS/Apache/Nginx) 2、Web-GoAccess (任何自定义日志格式字符串) 源码及使用手册 安装goaccess 使用 输出 3-Web-自写脚本(任何自定义日志格式字符串) 4、Web-机器语言analog(任何自定义日…

游戏AI的创造思路-技术基础-强化学习(1)

我们“强化”一下机器的“学习”,让机器变得更强~~~~ 目录 1. 强化学习的定义 2. 发展历史 3. 强化学习的基本概念和函数 3.1. 基本概念和函数 3.1.1. 基本概念和函数 3.1.2. Q函数 3.1.2.1. 定义与作用 3.1.2.2. 数学表示 3.1.2.3. 更新规则 3.1.2.4. 算…

AI时代算法面试:揭秘高频算法问题与解答策略

三种决策树算法的特点和区别 ID3算法:基本的决策树算法,适用于简单的分类问题C4.5算法:改进了ID3算法,适用于更复杂的分类问题,可以处理连续型数据和缺失值CART算法:更加通用的决策树算法,适用于…