【AI News | 20250415】每日AI进展

AI News

1、字节跳动发布Seaweed-7B视频模型:70亿参数实现音视频同步生成与多镜头叙事
字节跳动推出新一代视频生成模型Seaweed-7B,该模型仅70亿参数却实现多项突破:支持音视频同步生成、多镜头叙事(保持角色连贯性)、2K分辨率实时生成(24fps)及3D场景模拟。采用DiT架构和对抗后训练技术,推理速度较同类快62倍,训练成本仅为行业1/3。目前已通过即梦平台提供试用,其低成本高效率特性将重塑短视频创作、虚拟主播等领域的生产模式,成为继Sora后AI视频生成的重要里程碑。

2、智谱AI启动IPO辅导:冲刺A股首家上市大模型企业,估值超300亿元
国内AI领军企业智谱AI正式启动IPO辅导,有望成为A股首家上市的大模型公司。该公司依托清华大学技术背景,已推出GLM系列大模型及ChatGLM等商业化产品,最新开源模型GLM-4-32B-0414以低成本高效率引发行业关注。目前智谱AI在C端和B端市场均取得突破,完成超100亿元融资后估值达300亿元,其重点布局的AI Agent领域与三星等企业展开合作,若成功上市将开创国内大模型企业资本化先河。

3、OpenAI发布GPT-4.1提示工程指南:精准指令驱动模型性能跃升
OpenAI针对GPT-4.1模型发布全新提示工程指南,强调该版本具有更严格的指令遵循特性,需通过清晰具体的提示(推荐XML/GDM结构化格式)才能发挥最佳性能。指南提出分步规划、工具调用优化等策略,在代码生成等任务中显著提升效果,建议开发者摒弃模糊表述而采用显式指令。这一调整标志着从GPT-4的"意图推测"转向"精准执行"的设计哲学转变,为构建高可靠性AI应用提供方法论支撑,目前已在开发者社区引发广泛实践。

4、Firefox引入AI链接预览功能:悬停即可智能生成网页摘要
Mozilla为Firefox浏览器新增AI驱动的链接预览功能,用户悬停鼠标即可自动获取目标网页的智能摘要,无需点击即可快速判断内容相关性。该功能在提升浏览效率的同时,通过仅展示摘要而非全文的方式兼顾网站流量保护。虽然谷歌Chrome目前也提供链接预览但尚未整合AI技术,行业预计类似AI功能将成为浏览器标配,推动网页浏览体验的智能化升级。

5、腾讯云大模型知识引擎支持MCP协议:开放插件生态赋能AI应用开发
腾讯云宣布其大模型知识引擎升级支持MCP协议,开发者可直接调用平台精选的EdgeOne、Figma等MCP插件或集成自定义插件,覆盖网页部署、位置服务等多元场景。该升级通过标准化协议降低开发门槛,提供灵活可扩展的插件生态,加速企业级AI应用的快速落地与功能拓展。

6、阿里通义实验室发布OmniTalker:双分支DiT架构实现数字人音视频完美同步
阿里通义实验室推出数字人生成模型OmniTalker,通过双分支DiT架构实现文本驱动的高保真音视频合成,用户仅需上传参考视频即可精准复现人物表情、声音和说话风格。该模型突破传统级联流水线的音画不同步问题,在魔搭社区和HuggingFace提供免费体验,其多模态特征融合技术使生成效果接近实拍水平,显著降低数字人制作成本,为虚拟主播、智能助手等场景提供新解决方案。

7、国产开源模型HiDream-I1发布:17B参数媲美GPT-4o,登顶国际AI榜单
智象未来发布国内首款开源图像生成模型HiDream-I1,该17亿参数模型在真实感、细节还原和指令理解方面表现优异,成功登顶Artificial Analysis测试平台榜首,成为首个获此成绩的中国自研生成式AI模型。用户可通过自然语言提示生成高质量图像,其水花、动态等细节处理能力媲美GPT-4o,目前已在HuggingFace和GitHub开源,即将推出的HiDream-E1版本还将支持交互式编辑功能,推动国产开源AI技术发展。

8、Haisnap上线:AI驱动零代码开发,自然语言秒变可运行网页应用
AI应用开发平台Haisnap正式推出,通过多智能体协作实现自然语言描述到完整网页应用的自动生成,用户仅需输入需求(如"性格测试应用")即可获得可访问链接及下载源代码。该平台采用需求理解、代码生成、界面设计、测试优化四类AI协同工作,支持前端后端代码打包下载,显著降低开发门槛,适用于教育、营销等场景的快速原型开发,推动无代码AI工具向更广泛用户群体普及。

9、MiniMax发布MCP Server:文本指令一键调用视频/语音/图像生成能力
MiniMax正式推出多模态AI服务器MCP Server,通过标准化协议整合视频生成、图像创作、语音合成及声音克隆等能力,开发者仅需文本指令即可调用。该服务兼容Claude、Cursor等主流MCP客户端,其声音克隆功能因高保真度获用户好评,结合低成本API策略,有望推动短视频、虚拟交互等场景的创新应用。此次发布标志着国产AI在多模态领域的技术突破,为开发者提供对标OpenAI Sora的本地化解决方案。

10、月之暗面Kimi推出内容社区:大模型产品转向用户互动新赛道
月之暗面启动旗下AI助手Kimi的内容社区灰度测试,该产品从单次对话工具升级为UGC互动平台,支持用户分享与消费生成内容。这家清华系创业公司曾以200万字长文本处理能力引发关注,近期在调整模型服务价格(最高降幅83%)后,试图通过社区化运营提升用户留存,探索广告与订阅等商业化路径,但需应对内容合规和用户活跃度等挑战。

11、智谱AI开源32B/9B系列GLM模型并启用Z.ai平台:推理速度200tokens/秒,成本仅竞品1/30
智谱AI宣布开源32B和9B参数的GLM系列模型,包括基座、推理及沉思三类,采用MIT许可允许商用。其中GLM-Z1-32B-0414推理速度达200tokens/秒,成本为竞品DeepSeek-R1的1/30,在数学代码等任务表现媲美更大模型;同步推出的Z.ai平台整合三类模型提供免费体验,其沉思模型通过搜索工具整合实现研究闭环能力,MaaS平台同时上线免费和高性能API服务,显著降低企业AI应用门槛。

12、快手可灵AI发布2.0视频/图像生成模型:全球用户破2200万,商业化收入超1亿
快手旗下可灵AI正式推出可灵2.0视频生成与可图2.0图像生成模型,其1.6pro版本此前已在Artificial Analysis图生视频榜单超越Google Veo 2登顶全球第一。数据显示,该平台累计生成超1.68亿视频及3.44亿图片,全球用户达2200万,商业化收入突破1亿元,最新迭代版本在动态质量和语义理解上保持领先,通过App、Web等多端产品矩阵持续扩大AI创作生态影响力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/901542.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何实现动态请求地址(baseURL)

需求: 在项目中遇到了需要实时更换请求地址,后续使用修改后的请求地址(IP) 例如:原ip请求为http://192.168.1.1:80/xxx,现在需要你点击或其他操作将其修改为http://192.168.1.2:80/xxx,该如何操作 tips: 修改后需要跳转( 修改了IP之前的不可使用,需要访问修改后的地址来操作 …

Open AI 使用篇

一.function Calling 大模型中的 function calling 指的是在人工智能模型(如 GPT-4)中调用外部函数或API,以便模型能够执行更复杂的任务或获取外部数据。这种方式允许模型在生成回答时不仅仅依赖于内部的训练数据,还能够与外部系…

6.DJI-PSDK:psdk订阅无人机高度/速度/GPS/RTK/时间/经纬度等消息及问题解决

DJI-PSDK:psdk订阅无人机高度/速度/GPS/RTK/时间/经纬度等消息 消息订阅可以获取绝大多数无人机的动态信息,包括无人机的姿态、速度、加速度、角速度、高度、GPS 位置、云 台的角度和状态、飞行模式和飞行状态、电机和电池等各类关键信息。 这些信息并不会“一股脑儿地”全部…

100 个网络安全基础知识

1. 什么是网络安全? 网络安全是指采取必要措施,防范对网络的攻击、侵入、干扰、破坏和非法使用以及意外事故,使网络处于稳定可靠运行的状态,保障网络数据的完整性、保密性、可用性。(参考《中华人民共和国网络安全法》…

第七届IEEE通信、信息系统与计算机工程国际会议(CISCE 2025)

重要信息 官网:www.iccisce.com 时间:2025年5月9-11日 地点:中国-广州 征稿主题 通信技术 信息系统 •5G/6G通信系统与网络 •无线通信与移动网络 •光纤通信与光网络 •卫星与空间通信 •通信信号处理与编码 •无线传感器网络 •物联网…

OpenCV 图像拼接

一、图像拼接的介绍 图像拼接是一种将多幅具有部分重叠内容的图像合并成一幅完整、无缝且具有更广阔视野或更高分辨率图像的技术。其目的是通过整合多个局部图像来获取更全面、更具信息价值的图像内容。 二、图像拼接的原理 图像拼接的核心目标是将多幅有重叠区域的图像进行准…

第十一章 网络编程

在TCP/IP协议中,“IP地址TCP或UDP端口号”唯一标识网络通讯中的一个进程。 因此可以用Socket来描述网络连接的一对一关系。 常用的Socket类型有两种:流式Socket(SOCK_STREAM)和数据报式Socket(SOCK_DGRAM&#xff09…

ffmpeg实现视频流抽帧

ffmpeg 实现视频流抽帧 抽取实时视频帧 如果你的实时视频是通过 RTSP、UDP 或其他协议获取的,可以直接调用 FFmpeg 命令来抽取帧。 ffmpeg 命令 示例 1 ffmpeg -i rtsp://your_rtsp_stream_url -vf fps1 -update 1 output.jpg说明: -i rtsp://your…

【GIT】放弃”本地更改,恢复到远程仓库的状态git fetch origin git reset --hard origin/分支名

如果你想完全放弃本地更改,恢复到远程仓库的状态,可以按照以下步骤操作: 获取远程最新版本 首先执行: git fetch origin这条命令会把远程仓库的最新提交拉取到你的本地,但不会自动合并到你的当前分支。 硬重置你的当前…

flutter doctor 信号号超时

报错如下: :\Users\Administrator>flutter doctor Doctor summary (to see all details, run flutter doctor -v): [√] Flutter (Channel stable, 3.27.4, on Microsoft Windows [版本 10.0.22631.5189], locale zh-CN) [√] Windows Version (Installed versi…

【Linux】系统入门

【Linux】系统初识 起源开源 闭源版本内核内核编号 Linux的安装双系统(不推荐)WindowsLinuxvmware虚拟机vitualbox操作系统的镜像centos 7/ubuntu云服务器租用 Linux的操作lsmkdir 文件名pwdadduser userdel -rrm文件名cat /proc/cpuinfolinux支持编程vim code.c./a.out 运行程…

mybatis-plus整合springboot与使用方式

注解 TableField(exist false)&#xff1a;表示该属性不为数据库表字段&#xff0c;但又是必须使用的。 整合springboot pom <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xs…

[第十六届蓝桥杯 JavaB 组] 真题 + 经验分享

A&#xff1a;逃离高塔(AC) 这题就是简单的签到题&#xff0c;按照题意枚举即可。需要注意的是不要忘记用long&#xff0c;用int的话会爆。 &#x1f4d6; 代码示例&#xff1a; import java.io.*; import java.util.*; public class Main {public static PrintWriter pr ne…

GPU服务器声音很响可以怎么处理

当GPU服务器运行时噪音过大&#xff0c;通常是由于高负载下散热风扇高速运转所致。以下是分步骤的解决方案&#xff0c;帮助您有效降低噪音并保持设备稳定运行&#xff1a; 一、排查噪音来源 定位声源 • 使用 声级计 或手机分贝检测APP&#xff0c;确定最大噪音位置&#xff0…

STM32平衡车开发实战教程:从零基础到项目精通

STM32平衡车开发实战教程&#xff1a;从零基础到项目精通 一、项目概述与基本原理 1.1 平衡车工作原理 平衡车是一种基于倒立摆原理的两轮自平衡小车&#xff0c;其核心控制原理类似于人类保持平衡的过程。当人站立不稳时&#xff0c;会通过腿部肌肉的快速调整来维持平衡。平…

C#设计模式-状态模式

状态模式案例解析&#xff1a;三态循环灯的实现 案例概述 本案例使用 状态模式&#xff08;State Pattern&#xff09; 实现了一个 三态循环灯 的功能。每点击一次按钮&#xff0c;灯的状态会按顺序切换&#xff08;状态1 → 状态2 → 状态3 → 状态1...&#xff09;&#xff…

Mac系统升级node.js版本和npm版本并安装pnpm

1.升级node.js版本 第一步&#xff1a;查询当前node.js版本 node -v第二步&#xff1a;清除node.js的缓存 sudo npm cache clean -f第三步&#xff1a;验证缓存是否清空 npm cache verify第四步&#xff1a;安装n工具&#xff0c;n工具是专门用于管理node.js版本的工具 su…

[net 5] udp_dict_server 基于udp的简单字典翻译(服务器与业务相分离)

目录 1. 功能了解 1.1. 啥是 dic_server? 1.2. dic_server 的小目标 2. 基本框架 2.1. 基本文件框架 2.2. 业务与服务器解耦 -> 回调函数 3. 字典 3.1. 字典配置文件 3.2. 构建字典类 3.2.1. 字典类的基本成员 3.2.2. 字典类构造 3.2.2.1. 构造 3.2.2.2. 信息加…

七种驱动器综合对比——《器件手册--驱动器》

九、驱动器 名称 功能与作用 工作原理 优势 应用 隔离式栅极驱动器 隔离式栅极驱动器用于控制功率晶体管&#xff08;如MOSFET、IGBT、SiC或GaN等&#xff09;的开关&#xff0c;其核心功能是将控制信号从低压侧传输到高压侧的功率器件栅极&#xff0c;同时在输入和输出之…

EM储能网关ZWS智慧储能云应用(8) — 电站差异化支持

面对不同项目、种类繁多的储能产品&#xff0c;如何在储能云平台上进行电站差异化支持尤为关键&#xff0c;ZWS智慧储能云从多方面支持储能电站差异化。 简介 随着行业发展&#xff0c;市场“内卷”之下&#xff0c;各大储能企业推陈出新的速度加快。面对不同项目、种类繁多…