AI大模型日报#0628:谷歌开源9B 27B版Gemma2、AI首次实时生成视频、讯飞星火4.0发布

导读:AI大模型日报,爬虫+LLM自动生成,一文览尽每日AI大模型要点资讯!

目前采用“文心一言”(ERNIE-4.0-8K-latest)生成了今日要点以及每条资讯的摘要。欢迎阅读!

《AI大模型日报》今日要点:今日AI大模型领域的资讯涵盖了多模态新基准的提出、从容大模型在多模态评测中的卓越表现、谷歌开源的Gemma 2模型、字节大模型团队的Depth Anything V2模型被苹果选中、科大讯飞发布的星火大模型V4.0的重大突破、尤洋团队实现的AI实时生成视频、OpenAI的CriticGPT新模型、LeCun和谢赛宁提出的视觉多模态模型Cambrian-1,以及智源大会上关于视觉大模型的探讨。这些报道共同展现了AI大模型在模拟人类推理、多模态能力、效率与经济性、集成应用等方面的快速发展,同时也指出了模型在复杂推理、视觉表征等方面的挑战与机遇。各大科技企业和研究团队通过不断创新,推动AI大模型向更高效、更强大、更贴近人类需求的方向发展。

标题: Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点


摘要: 本文作者张天宇聚焦于多模态、GFlowNet、多智能体强化学习等,已在多个机器学习顶会发表论文。文章探讨实现通用人工智能AGI的关键在于模拟人类的思考和推理过程,引入视觉字幕恢复(VCR)任务来评估视觉语言模型的推理能力。VCR任务要求模型填补被遮挡的文字,而当前大多数模型在此任务上表现不佳,尤其在困难模式下。这表明模型在模拟人类复杂推理过程方面仍有很长的路要走。
网址: Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点 | 机器之心
 
标题: 击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
 


摘要: 云从科技的从容大模型在OpenCompass多模态评测中取得重大进展,平均得分65.5,跻身全球前三。在国内市场,该模型排名第一。从容大模型在6个数据集上表现优异,尤其在OCRBench测试集上获得全球最高分。这一成就归功于云从科技自研的高效多模态处理架构和先进的计算技术,及其在视觉、语言领域的深厚积累。此前,从容大模型已在视觉、跨模态领域多次刷新世界纪录。此次表现不仅证明了云从科技的技术实力,也为全球科技企业在AI竞争中树立了典范。
网址: 击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三 | 机器之心
 
标题: 谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
 


摘要: 谷歌推出Gemma 2,性能翻倍,可与更大模型竞争。Gemma 2提供9B和27B参数版本,推理性能和效率优于第一代,且成本降低。其27B模型性能卓越,9B模型也超越同类。Gemma 2易于集成,兼容多框架,可通过Google Cloud轻松部署。还有新的Gemma Cookbook和上下文缓存功能助力开发者。模型基于仅解码器transformer架构,交替使用局部和全局注意力,采用logit软封顶。谷歌开放Gemma 2,旨在普及AI工具。
网址: 谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济! | 机器之心
 
标题: 字节大模型团队Depth Anything V2模型入选苹果最新CoreML模型
 


摘要: 苹果公司近日在HuggingFace上发布了20个新Core ML模型和4个数据集,其中包括字节大模型团队的单目深度估计模型Depth Anything V2。Core ML是苹果的机器学习框架,可集成模型到iOS、MacOS等设备,高效运行复杂的AI任务,增强用户隐私,减少延迟。Depth Anything V2在细节处理上更精细,鲁棒性更强,速度提升显著。该模型可应用于多个领域,如自动驾驶等。新发布的Core ML模型涵盖多个领域,开发者可使用coremltools转换模型格式,优化设备性能,减少内存占用和功耗。
网址: 字节大模型团队Depth Anything V2模型入选苹果最新CoreML模型 | 机器之心
 
标题: 国产大模型新高度!讯飞星火4.0发布:整体超越GPT-4 Turbo,8个国际权威测试集测评第一
 


摘要: 科大讯飞发布讯飞星火大模型V4.0,该模型在医疗、教育等领域有重大突破,整体性能超越GPT-4 Turbo,成为国内领先的大模型。V4.0在文本生成、语言理解等七大核心能力上全面升级,并在多个国际测试中排名第一。此外,星火大模型还加强了复杂指令跟随和长文本处理能力,并推出新功能——长文本内容溯源,提高了答案准确率。在多模态方面,星火大模型V4.0的图文识别能力持续升级,超越了OpenAI的最新旗舰模型。语音能力也是科大讯飞的绝对优势,V4.0增加了对37种方言的识别,实现了74种语言免切-自由交流。同时,讯飞还展示了超复杂场景语音转写的能力。在医疗领域,讯飞推出了医疗大模型「讯飞晓医」,可以为普通用户提供病历、体检报告解读等服务。在教育领域,讯飞发布了星火智能批阅机和升级后的AI学习机,提高了教育效率。此外,讯飞还推出了「个人空间」,打造懂你的AI助手。
网址: 国产大模型新高度!讯飞星火4.0发布:整体超越GPT-4 Turbo,8个国际权威测试集测评第一 | 机器之心
 
标题: AI首次实时生成视频!尤洋团队新作,网友:这是新纪元
摘要: AI实时生成视频的新纪元已经到来!尤洋团队推出了首个基于DiT的实时视频生成方法——Pyramid Attention Broadcast(PAB)。该方法通过减少冗余注意力计算,实现了高达21.6FPS和10.6倍加速,同时保持了视频生成模型的质量。PAB作为一种免训练方法,可为将来任何基于DiT的视频生成模型提供实时功能。这一创新引来了网友和专业人士的惊叹与好评。团队通过比较不同时间步骤的注意力差异,提出用PAB减少不必要的注意力计算,从而节省计算量。相关研究已公开,该团队由尤洋教授领衔,成员包括赵轩磊、王锴和金小龙。
网址: AI首次实时生成视频!尤洋团队新作,网友:这是新纪元 | 量子位
 
标题: OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限
 


摘要: OpenAI发布了新模型CriticGPT,该模型基于GPT-4训练,旨在改进下一代GPT训练。CriticGPT在代码挑错方面表现出色,能找到75%以上的Bug,远超人类的25%,且其评论更受人类训练师青睐。该模型还能泛化到代码之外的任务,如RLHF训练中的AI输出挑错,并已进入OpenAI内部训练流程。CriticGPT的成功意味着AI在挑错能力上有望突破人类上限,实现自我改进。该研究由前超级对齐团队负责人Jan Leike带队,虽已解散,但成果仍具重要意义。同时,OpenAI还发布了相关论文,展示了其研究诚意。
网址: OpenAI突发新模型:用GPT改进GPT训练,左脚踩右脚登天,RLHF突破人类能力上限 | 量子位
 
标题: LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
 


摘要: 近日,由LeCun和谢赛宁等大佬共同提出了全新的SOTA MLLM——Cambrian-1,该模型以视觉为中心设计多模态模型,并全面开源了相关权重、代码、数据集及微调评估方法。Cambrian-1围绕五个关键方面构建,包括视觉表示、连接器设计、指令微调数据、指令微调策略和实践以及基准测试,旨在弥补多模态学习中视觉研究的不足,打破语言依赖的瓶颈。模型采用MLLM指令微调作为评估协议,强调视觉问答在解决现实世界感知任务中的重要性。研究团队通过谷歌TPU训练,展示了该模型在视觉表征能力上的优势,并呼吁学界业界共同推进以视觉为中心的多模态学习研究。此外,项目还得到了Jeff Dean和Demis Hassabis等业界大佬的支持。
网址: LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V - 智源社区
 
标题: 视觉重回第一赛道?颜水成领衔视觉大模型论坛丨2024智源大会回顾
 


摘要: 算法起源于计算机视觉领域,后逐渐迁移至语音、NLP等领域。近年来,随着Transformer的出现,NLP成为新算法发源地,再逐渐应用于视觉领域。今年,计算机视觉似乎重回第一赛道。在智源大会的「视觉大模型」专题论坛上,多位专家探讨了视觉大模型的最新研究成果和实践经验。其中,潞晨科技的申琛惠介绍了Open Sora高效低成本视频生成模型,旨在通过低成本开源方案引入社区,采用基于主流的DiT框架和类似Sora的过程生成视频。生数科技的鲍凡则展示了高保真4D重构模型Vidu4D,该模型采用全球首个Diffusion Transformer融合架构,支持多模态生成式建模和4D表示提取,具有作为世界模拟器的潜力。这些研究展示了视频生成模型在帧真实性和3D一致性方面的优势,以及通过大模型探索世界模型的两条道路。
网址: 视觉重回第一赛道?颜水成领衔视觉大模型论坛丨2024智源大会回顾 - 智源社区
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/36153.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

合并排序的数组

题目链接 合并排序的数组 题目描述 注意点 A的末端有足够的缓冲空间容纳BA和B都是排序的 解答思路 最初想到的是双指针,从小到大找到合并B时应该A相应位置应该插入的元素,因为在插入的过程中B的元素会替换A原有位置的元素,所以需要先将A…

营销翻车,杜国楹出面道歉,小罐茶的“大师作”故事仓皇结尾

“小罐茶,大师作”,这句slogan曾一度在央视平台长时间、高密度播放,成为家喻户晓的广告词,也打响了小罐茶品牌的名号。但同时,市场上关于“大师作”真实性的质疑也从未停息。 就在6月25日小罐茶十二周年发布会上&#…

Jenkins容器的部署

本文主要是记录如何在Centos7上安装docker,以及在docker里面配置tomcat、mysql、jenkins等环境。 一、安装docker 1.1 准备工作 centos7、VMware17Pro 1.2 通过yum在线安装dokcer yum -y install docker1.3 启动docker服务 systemctl start docker.service1.4 查看docke…

JavaSE期末复习速成笔记

面向对象 1. 面向对象的概念 面向对象编程(OOP)是一种编程范式,它将现实世界的事物抽象为对象,通过类和对象来创建各种功能模块,以此来设计和开发软件。 2. 类与对象 类:是对象的模板,定义了…

自动化巡检革命:旗晟双圆管轨道机器人的创新应用

在输煤皮带线和矿山带式输送机的巡检过程中,面临着高湿度、多粉尘、温湿度极端、噪音干扰;设备磨损频繁,难以及时发现问题;传统的人工巡检方式存在劳动强度大、效率低、检测质量不稳定、数据采集和分析滞后,无法实现实…

oracle 11g rac创建实例时发现只给一节点创建了实例 二节点没创建的处理方法

由于操作失误没有在二节点创建实例 删除数据库重新dbca建库 [oracleracdg1-1 dbs]$ dbca -silent -deleteDatabase -sourceDB rac11dg1 -sysDBAUserName sys -sysDBAPassword oracle_4U Connecting to database 4% complete 9% complete 14% complete 19% complete 23% …

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 两个字符串间的最短路径(200分) - 三语言AC题解(Python/Java/Cpp)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 💻 ACM银牌🥈| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 &#x1f…

npm创建一个空的vue3项目的方法或者pnpm创建vue3项目

1、前提我们已经安装了npm,或者pnpm 2、我们用npm来创建vue3项目 快速上手 | Vue.js 官网地址 这里我安装是的 node v18.20.3 以下是安装过程 : npm create vuelatest 根据自己的需要进行创建即可。 3、我们用pnpm来创建vite vue3项目 pnpm create …

Android 界面库 (二) 之 Data binding 详细介绍

1. 简介 回顾我们在前面文章《Android 界面库 (一) 之 View binding 简单使用》中学习的 View Binding,它旨在简化 View 与代码之间的绑定过程。它会在编译时期为每个 XML 布局文件生成相应的绑定类(Binding class),该类里包含了布局文件每个有 ID 的 Vi…

【深度学习】服务器炼丹代码配置、Python使用指定gpu显卡运行代码

【显卡】服务器炼丹代码配置 写在最前面一、查看哪几块显卡能用二、使用指定gpu运行代码1、指定使用GPU0运行脚本(默认是第一张显卡, 0代表第一张显卡的id,其他的以此类推)2、指定使用多张显卡运行脚本 三、如何使用1、单块显卡使用2、多GPU训练使用Data…

昇思25天学习打卡营第3天|数据集全攻略:加载、操作与自定义

导入数据集相关库和类 首先,导入了 NumPy 库,并将其简称为 np 。要知道,NumPy 乃是用于科学计算的关键库,作用非凡。接着,从 mindspore.dataset 当中导入了 vision 模块。此外,还从 mindspore.dataset 里引…

小阿轩yx-Nginx 网站服务

小阿轩yx-Nginx 网站服务 由俄罗斯的 lgor Sysoev 开发其稳定、高效的特性逐渐被越来越多的用户认可 Nginx 服务基础 Nginx (发音为[engine x])专为性能优化而开发 最知名的优点 稳定性低系统资源消耗以及对 HTTP 并发连接的高处理能力(单台物理服务器可支持 30000~50000个…

抗击.michevol勒索病毒:保障数据安全的新策略

导言: 在今天高度互联的数字化环境中,数据安全面临着越来越复杂和普遍的威胁,勒索病毒如.michevol已成为了用户和企业普遍面临的风险。本文91数据恢复将探讨.michevol勒索病毒的特点、感染方式以及创新的防御策略,旨在帮助读者更…

车载双向认证框架设计

最近工作需要,手写了一个双向认证库,可以用在Java、Android上,不限于PC/手机、车载平台。首先我们来看看双向认证的原理机框架设计思路,最后会给出下载链接大家可以体验或者源码参考。 因为可以和FlexNet网络库(参考我…

mac安装navicate

1.下载好之后点击安装包安装 2.一般情况下会提示安全性什么的,点击允许即可,然后会出现如下界面,点击安装即可. 3.点击打开 4.然后出现如下界面,点击Enter 5.将安装包拖入即可. 6.等待安装即可 7.安装完成后会在启动台看到Navicat16 的图标 8.然后打开软件界面如下:

访问外网的安全保障——反向沙箱

反向沙箱作为一种网络安全技术,其核心理念在于通过构建一个隔离且受控的环境,来有效阻止潜在的网络威胁对真实系统的影响。在当今日益复杂的网络环境中,如何借助反向沙箱实现安全上网,已成为众多用户关注的焦点。 随着信息化的发…

树莓派Pico

树莓派Pico是树莓派基金会推出的一款基于RP2040微控制器的微型计算机板,它是专为需要高性能微控制器的应用场景设计的,特别适合于需要实时控制、低功耗和小型化解决方案的项目。以下是树莓派Pico的详细介绍: ### 核心特点: - **基…

统信系统实战(2):安装redis

在系统中未发现redis,需要安装。 网上资料上说需要去redis官网下载,但是发现不管是github账号还是自己注册的sso账号,都各种提示有问题。 继续找资料,发现可以直接通过下载链接下载,指令如下: wget http://download.redis.io/releases/redis-6.0.6.tar.gz 成功下载,…

仓颉开发入门初体验

作者:黄林晴 顺便吆喝一声,如果你计算机、软件工程、电子等相关专业本科及以上学历,欢迎来共事。前端/后端/测试均可投,技术大厂。 前言 在刚刚召开的华为开发者大会(HDC 2024)上,华为内部研…

如何在Java中使用Levenshtein距离实现字符串相似度匹配

在许多应用中,我们需要根据用户输入的问题找到最匹配的已知问题。Levenshtein距离(编辑距离)是一个强大的工具,可以帮助我们衡量两个字符串之间的差异,并进一步计算它们的相似度。本文将使用一个具体的例子来展示如何在…