AI大模型日报#0606:智谱AI开源GLM-4-9B、Pika再融5.8亿

导读:AI大模型日报,爬虫+LLM自动生成,一文览尽每日AI大模型要点资讯!

目前采用“文心一言”(ERNIE 4.0)、“零一万物”(Yi-Large)生成了今日要点以及每条资讯的摘要。欢迎阅读!

《AI大模型日报》今日要点:智谱AI近日发布了新一代开源语言模型GLM-4-9B,以其强大的推理性能、多模态处理能力及对多种语言的支持受到关注。该模型使用FP8技术提升训练效率,并在中文对齐、指令遵从等方面有显著进步。与此同时,Stability AI推出名为Stable Audio Open的音频生成模型,能生成长达47秒的高质量音频,为音乐制作和声音设计领域带来新工具,尽管其在逼真声音生成等方面仍存局限。 在AI创业方面,李沐携其大模型成果Higgs-Llama-3-70B回归B站,该模型专为复杂场景角色扮演设计,在多项基准测试中表现突出。此外,斯坦福华人博士创立的Pika宣布再融5.8亿,其自研的AI视频生成模型受到市场青睐,体现了AI视频生成赛道的投资与技术热度。 在学术研究领域,牛津大学与谷歌研究院联合开发的“CLIP as RNN”技术入选CVPR,该技术无需训练即可分割图像中的无数概念,为图像分割带来革命性进展。另一方面,马毅教授团队的CRATE-α模型通过数学推导设计每一层,提升了Transformer架构的可解释性和性能,展示了其可扩展性。 在AI应用层面,Paige开放全球最大病理学和肿瘤学AI模型使用权,阿里巴巴与世卫组织合作推广AI癌症筛查,腾讯则利用AI技术破解甲骨文之谜,推出了相关的平台和小程序,彰显了AI在多个领域的广泛应用潜力。

标题: GLM-4-9B 开源,探索模型极限
摘要: 智谱AI发布了新一代开源语言模型GLM-4-9B,该模型在预训练中使用了FP8技术,训练效率提升3.5倍,数据量是前代模型的3倍以上。GLM-4-9B具备更强的推理性能、更长的上下文处理能力、多语言、多模态和All Tools等功能。模型包括基础版本、对话版本、超长上下文版本和多模态版本。GLM-4-9B在中文对齐能力、指令遵从、工程代码等方面有显著提升,支持26种语言,并能处理长达1M tokens的文本。此外,模型还具备强大的函数调用和多模态处理能力,可智能调用外部工具和处理图像输入。
网址: GLM-4-9B 开源,探索模型极限|调用|模态|glm|预训练|上下文_网易订阅
 
标题: Stability AI开源47秒音频生成模型,虫鸣鸟叫、摇滚、鼓点都能生成
 


摘要: 科技记者报道: Stability AI 推出名为 Stable Audio Open 的开放模型,该模型可生成高质量音频数据。与商业版 Stable Audio 不同,Stable Audio Open 能通过文本提示生成长达47秒的音频。它擅长制作鼓点、乐器片段、环境音等,适合音乐制作和声音设计。用户可根据自定义音频数据对模型进行微调。该模型基于Transformer架构,由自编码器、文本嵌入和扩散模型组成。训练数据来自FreeSound和Free Music Archive,确保无版权问题。尽管Stable Audio Open 1.0在音频生成方面表现出色,但存在局限性,如无法生成逼真声音、对非英语描述支持有限、音乐风格多样性不足等。此外,该模型并非开源,且不能用于商业用途。
网址: Stability AI开源47秒音频生成模型,虫鸣鸟叫、摇滚、鼓点都能生成 | 机器之心
 
标题: 李沐老师回归B站!带着大模型创业成果填坑来了
 


摘要: 科技记者简讯: 李沐,AI领域知名学者,宣布回归B站并带来其大模型创业成果——Higgs-Llama-3-70B。该模型专为复杂场景角色扮演设计,基于Llama 3打造,并进行了完整的SFT、RLHF训练。在角色扮演任务和通用领域指令遵循、推理方面表现出色。Higgs-Llama-3-70B在MMLU-Pro和Arena-hard基准测试中展现了优于其他模型的能力,包括Claude3和Gemini。尽管与GPT-4o仍有差距,但团队强调并未针对性刷榜,并计划发布更多Higgs系列模型。李沐的创业公司Boson AI致力于利用AI技术为企业赋能,开发Agent以扮演多种角色,如游戏角色、语言教师等。团队成员包括李沐、Alex Smola等资深AI专家。公司已获得知名技术创业者投资,未来将进一步探索角色扮演性能、训练后的处理流程等策略。
网址: 李沐老师回归B站!带着大模型创业成果填坑来了 | 量子位
 
标题: 郭文景Pika再融5.8亿,最新估值约34亿,已自研AI视频生成基础模型
 


摘要: 科技记者报道: Pika,一家由斯坦福华人博士创立的AI视频生成初创公司,近日宣布完成新一轮8000万美元融资,估值达到4.7亿美元。投资者包括Spark Capital(领投)、Lightspeed和Greycrof等知名机构。Pika自研AI视频生成基础模型,产品1.0去年底发布,半年内团队从4人扩张至13人,并上线了多项新功能。AI视频生成赛道今年迎来技术与投资的双重爆发,Pika等初创公司正快速扩张,利用OpenAI和谷歌视频工具尚未公开的机会窗口。
网址: 郭文景Pika再融5.8亿,最新估值约34亿,已自研AI视频生成基础模型 | 量子位
 
标题: CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院
 


摘要: 科技记者报道: 在图像分割领域,牛津大学和谷歌研究院的联合团队开发了一种名为“CLIP as RNN”(CaR)的新技术,该技术允许无需额外训练即可有效分割图像中的无数概念。这项成果已被CVPR 2024接收,并开源了代码。CaR技术解决了开放词汇量图像分割的几个关键问题,包括无需训练数据、保留预训练视觉-语言模型的广泛词汇空间以及对非图像中概念的文本查询处理。该技术通过迭代过程逐步优化,提高了分割质量,并通过循环调用CLIP模型,实现了高质量的开放词汇分割。
网址: CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院 | 量子位
 
标题: 首次证实白盒Transformer可扩展性!马毅教授CRATE-α:鲸吞14亿数据,性能稳步提升
 


摘要: Transformer架构在AI领域取得了显著成就,但其设计缺乏严格的数学解释。马毅教授团队发布的CRATE模型通过数学推导设计每一层,提供可解释性。最近,加州大学研究团队提出CRATE-α,探索不同规模CRATE在视觉任务中的性能,并通过策略性修改提高可扩展性。CRATE-α在ImageNet分类任务上表现优于传统CRATE,且可解释性得到提升。研究还展示了CRATE-α的可扩展性,以及在资源有限情况下通过精心设计的预训练和微调策略扩展模型的有效性。项目链接:https://rayjryang.github.io/CRATE-alpha/。论文链接:https://arxiv.org/pdf/2405.20299。
网址: 首次证实白盒Transformer可扩展性!马毅教授CRATE-α:鲸吞14亿数据,性能稳步提升|马毅|研究人员_新浪新闻
 
标题: 全球最大病理学和肿瘤学多模态模型开放使用权;阿里达摩院与世卫组织推广AI癌症筛查;腾讯发布甲骨文AI协同平台:可映射到现代汉字
 


摘要: AI for Science企业动态速览: - Paige推出针对药物开发的AI服务,提供全球最大病理学和肿瘤学AI模型使用权。 - 阿里巴巴与世卫组织合作,推广达摩院AI癌症筛查技术。 - 谷歌与日本签署太阳能供电协议,为数据中心供电。 - Atropos Health完成3300万美元融资,进军药物研发。 - 中国气象局发布AI气象预报大模型示范计划。 - 腾讯用AI破解甲骨文之谜,推出“殷契文渊”平台和“了不起的甲骨文”小程序。
网址: 全球最大病理学和肿瘤学多模态模型开放使用权;阿里达摩院与世卫组织推广AI癌症筛查;腾讯发布甲骨文AI协同平台:可映射到现代汉字 - 智源社区
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/23612.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】进程切换环境变量

目录 一.进程切换 1.进程特性 2.进程切换 1.进程切换的现象 2.如何实现 3.现实例子 2.环境变量 一.基本概念 二.常见环境变量 三.查询常见环境变量的方法 四.和环境变量相关的命令 五.环境变量表的组织方式 六.使用系统调用接口方式查询环境变量 1.getenv 2.反思 …

【简单讲解下TalkingData】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共…

Signac|成年小鼠大脑 单细胞ATAC分析(1)

引言 在本教程中,我们将探讨由10x Genomics公司提供的成年小鼠大脑细胞的单细胞ATAC-seq数据集。本教程中使用的所有相关文件均可在10x Genomics官方网站上获取。 本教程复现了之前在人类外周血单核细胞(PBMC)的Signac入门教程中执行的命令。…

【Python报错】已解决ModuleNotFoundError: No Module Named ‘openyxl’

成功解决“ModuleNotFoundError: No Module Named ‘openyxl’”错误的全面指南 在Python编程中,遇到ModuleNotFoundError: No Module Named openyxl这样的错误通常意味着Python解释器无法找到名为openyxl的模块。然而,这里存在一个常见的拼写错误&#…

大语言模型 (LLM) 窥探未来

随着2023年的岁月渐渐走向尾声,我们站在人工智能的前沿,回望大语言模型(Large Language Models, LLM)所走过的道路,同时也不禁展望未来。从初步尝试到成为人工智能领域的万千宠爱,一种又一种的技术突破&…

搜维尔科技:「案例」Faceware电影中面部动画的演变历程

面部动画是电影中角色表演的一个重要方面,尤其是在严重依赖电子动画、化妆效果和动作捕捉系统的奇幻电影中。在《龙与地下城:盗贼荣誉》电影中,龙裔角色的面部动画是一个复杂的系统,使该生物在大屏幕上栩栩如生。该系统依赖于一种…

超速解读多模态InternVL-Chat1.5 ,如何做到开源SOTA——非官方首发核心技巧版(待修订)

解读InternVL-chat1.5系列 最近并行是事情太杂乱了,静下心来看一看优秀的开源项目,但是AI技术迭代这么快,现在基本是同时看五、六个方向的技术架构和代码,哪个我都不想放,都想知道原理和代码细节,还要自己训练起来&am…

Linux驱动开发笔记(四)设备树进阶及GPIO、Pinctrl子系统

文章目录 前言一、设备树的进阶知识1. 追加/修改节点内容2.chosen子节点3. 获取设备树节点信息3.1 of_find_node_by_path( )函数3.2 of_find_node_by_name( )函数3.3 of_find_node_by_type( )函数3.4 of_find_compatible_node( )函数3.5 of_find_matching_node_and_match( )函数…

Day30 登录界面设计

​ 本章节,实现了登录界面窗口设计 一.准备登录界面图片素材(透明背景图片) 把准备好的图片放在 Images 文件夹下面,格式分别是 .png和 .icoico 图片,右键属性,生成操作选 内容 png 图片,右键属性,生成操作选 资源 选中 login.png图片鼠标右键,选择属性。生成的操作选…

多目标应用:MOHHO多目标哈里斯鹰优化算法求解无人机三维路径规划(MATLAB代码)

详细介绍 多目标应用:MOHHO多目标哈里斯鹰优化算法求解无人机三维路径规划(MATLAB代码)-CSDN博客 一次运行结果 完整MATLAB代码

CentOS6系统因目录有隐含i权限属性致下属文件无法删除的故障一例

CentOS6服务器在升级openssh时因系统目录权限异常(有隐含i权限属性),下属文件无法删除,导致系统问题的故障一例。 一、问题现象 CentOS6在升级openssh时,提示如下问题: warning: /etc/ssh/sshd_config c…

springboot vue 开源 会员收银系统 (6) 收银台的搭建

前言 完整版演示 前面我们对会员系统 分类和商品的开发 完成了收银所需的基础信息 下面我们开始完成收银台的开发 简单画了一个收银的流程图大家参考下 从这张图我们可以分析一下几点 可以选择会员或散客收银选择会员使用相应的会员价结算使用会员卡则在价格基础根据卡折扣…

node.js漏洞——

一.什么是node.js 简单的说 Node.js 就是运行在服务端的 JavaScript。 Node.js 是一个基于 Chrome JavaScript 运行时建立的一个平台。 Node.js 是一个事件驱动 I/O 服务端 JavaScript 环境,基于 Google 的 V8 引擎,V8 引擎执行 Javascript 的速度非常…

神经网络搭建(1)----nn.Sequential

神经网络模型构建 采用CIFAR10中的数据,并对其进行简单的分类。以下图为例 输入:3通道,3232 ( 经过一个55的卷积) → 变成32通道,3232的图像 (经过22的最大池化) → 变成32通道,1616的图像 ( 经过一个55的卷积) → 变…

linux虚拟机免密登录配置

1、假设A服务器要免密登录B服务器 2、在A服务器上执行命令: cd /root/.ssh/ ssh-keygen -t rsa #这里会生成两个文件 一个是id_rsa私钥和公钥rsa.pub2、我们把公钥的内容复制粘贴到B服务器的/root/.ssh/authorized_keys文件下 #在A服务器上执行命令记录内容 cat …

ArkTs-TaskPool和Worker的使用

TaskPool和Worker的区别 实现TaskPoolWorker内存模型线程间隔离,内存不共享。线程间隔离,内存不共享。参数传递机制 采用标准的结构化克隆算法(Structured Clone)进行序列化、反序列化,完成参数传递。 支持ArrayBuffe…

python调用excel的demo

在本地安装Pycharm之后,新建工程,在main.py中键入如下代码,即可实现Python调用excel: import pandas as pd sheet pd.read_excel(test.xlsx) data sheet.loc[0].values print("读取指定行的数据:\n{0}".format(data)) 第一次编…

IT学习笔记--Flink

概况: Flink 是 Apache 基金会旗下的一个开源大数据处理框架。目前,Flink 已经成为各大公司大数据实时处理的发力重点,特别是国内以阿里为代表的一众互联网大厂都在全力投入,为 Flink 社区贡献了大量源码。 Apache Flink 是一个…

Vscode发生鼠标悬停正在加载、无法跳转和提示词的问题

Vscode发生鼠标悬停正在加载、无法跳转和提示词的问题 查看python语言服务器的日志,确定问题。 我的问题是加载的vscode 目录下存在一个很大的数据集目录,导致无法正常工作。 解决办法: 在vscode的pylance设置中,排除对应的目…

使用 PlayCanvas 创建带有后处理效果的 3D 场景

本文由ScriptEcho平台提供技术支持 项目地址:传送门 使用 PlayCanvas 创建带有后处理效果的 3D 场景 应用场景介绍 本代码演示了如何使用 PlayCanvas 创建一个带有后处理效果的 3D 场景。用户可以在场景中查看一个棋盘模型,并使用后处理效果为场景添…