阿里开源多模态大模型Ovis1.6,重塑出海电商AI格局

阿里开源Ovis1.6:多模态领域再夺第一

阿里再一次证明了自己在多模态领域的实力。这一次,阿里国际AI团队开源的多模态大模型Ovis1.6,不仅成功开源,还在多模态评测基准OpenCompass上击败了Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6等主流开源模型,荣登300亿参数以下模型榜首。

Ovis1.6不仅仅是在视觉感知推理、数学推理以及科学分析等多项任务中表现优异,甚至在一些评测中超过了闭源模型GPT-4o-mini。无论是学术研究、生活场景,还是金融财报分析,Ovis1.6的表现堪称卓越。

Ovis1.6的实际应用

在应用方面,Ovis1.6展示了多模态大模型的广泛适用性。例如,它可以通过视觉理解和数学推理来帮助用户处理复杂的大学数学问题;

还能够解析论文,生成关键内容,或进行财务报表的分析。

这一模型甚至可以通过图像分析,生成简单易懂的烹饪指导,例如教用户如何做一道经典的炸鱼薯条。

更重要的是,Ovis系列大模型遵循Apache 2.0开源协议,允许开发者进行商用。这种开放性和灵活性使其在开发和商用环境中具有极高的实用价值。​

技术细节揭秘:视觉与文本嵌入的对齐

阿里国际AI团队在开发Ovis1.6时,针对多模态模型存在的视觉与文本信息不协调的问题提出了创新性的解决方案。传统多模态大模型往往通过简单的连接器将预训练的大语言模型(LLM)与视觉Transformer结合,但这种方法导致文本和视觉模块难以有效融合,影响模型的整体性能。

Ovis1.6引入了视觉Tokenizer、视觉嵌入表以及大语言模型相结合的架构,通过可学习的视觉嵌入表,将连续的视觉特征转化为结构化的视觉token。然后,这些视觉token会和文本token一起被处理,完成多模态任务。

这种架构设计,不仅解决了视觉和文本信息的对齐问题,还显著提升了模型在处理复杂视觉任务和文本生成任务时的性能。

优化与应用

Ovis1.6相较于前代产品Ovis1.5,在架构、数据以及训练策略等方面进行了全面优化。例如,采用动态子图方案来灵活处理不同分辨率的图像特征,在实际任务中提升了模型的应对能力。数据方面,Ovis1.6涵盖了丰富的数据集,如Caption、OCR、表格、图表和数学数据,确保模型在多个应用场景中保持优异表现。训练策略方面,通过DPO等优化手段,进一步增强了模型的生成和理解复杂任务的能力。

实验表明,Ovis1.6与基于MLP连接器的架构相比,性能提升了8.8%。此外,Ovis1.6已经应用于阿里国际的多项实际业务中,特别是在出海电商领域,展现出了显著的降本增效效果。

Ovis1.6助力出海电商

阿里国际通过Ovis1.6的强大AI能力,改变了跨境电商领域的工作方式。特别是在退货和退款审核环节,Ovis1.6通过处理用户提供的图文、视频信息,实现了秒级别的审核,极大减少了人力成本,提高了效率和一致性,确保了商家与消费者的公平权益。

此外,Ovis1.6还在商品属性提取、生成卖点等应用场景中被广泛应用,优化了商品发布流程,并提升了商品的搜索量和曝光度。阿里国际的AI能力已覆盖营销、客户服务、商品发布等40多个应用场景,日均调用超过5000万次。

AI助力商家:降本增效的秘密武器

Ovis1.6只是阿里国际AI能力的一部分,阿里国际还构建了多语言增强大模型Marco,以及电商版多模态大模型MarcoVL,专门为电商领域提供定制化服务。这些AI技术已经成为跨境商家在全球市场中提升竞争力的重要工具。

例如,通过AI生成的多语言商品描述,使得商家能够突破语言障碍,更加高效地与全球消费者沟通。AI图片处理技术,如一键生成虚拟试衣效果等,也让商品展示更加生动,进一步提高了购买转化率。

阿里国际的Ovis1.6大模型,不仅在技术上取得了重要突破,更在实际商业应用中展现了强大的降本增效能力。通过开源和AI技术的赋能,阿里国际为出海电商商家提供了更具竞争力的工具和服务,也为全球开发者和企业提供了更多技术创新的可能。

对于广大开发者而言,Ovis1.6的开源无疑是一个重大利好,为他们带来了强大的多模态技术,推动更多创新和应用的诞生。

Ovis1.6开源地址和Demo:
arXiv: https://arxiv.org/abs/2405.20797
Github: https://github.com/AIDC-AI/Ovis
Huggingface:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
Demo:https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/879872.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android架构组件: MVVM模式的实战应用与数据绑定技巧

随着Android应用的复杂性增加,开发人员面临代码重用性、可维护性和扩展性问题。为了解决这些问题,谷歌推出了Android架构组件(Android Architecture Components),这套框架能帮助构建高效、可维护的应用。MVVM&#xff…

Docker 进入容器并运行命令的方法

目录 理解 Docker 容器的基本概念 使用 docker exec 进入运行中的容器 基本用法 常用选项解析 选项详解 实际案例演示 1. 进入容器的交互式 Shell 2. 在容器中运行单个命令 3. 以指定用户运行命令 4. 设置环境变量并运行命令 5. 指定工作目录 使用 docker attach 附…

标准库标头 <bit>(C++20)学习

<bit>头文件是数值库的一部分。定义用于访问、操作和处理各个位和位序列的函数。例如&#xff0c;有函数可以旋转位、查找连续集或已清除位的数量、查看某个数是否为 2 的整数幂、查找表示数字的最小位数等。 类型 endian (C20) 指示标量类型的端序 (枚举) 函数 bit_ca…

Flask 第十三课 -- 中间件和扩展

目录 一. 前言 二. Flask 中间件 2.1. 请求钩子 2.2. 自定义中间件 三. Flask 扩展 3.1. 常见的 Flask 扩展 3.2. 安装和使用 Flask 扩展 3.3. 创建自定义扩展 一. 前言 在 Flask 中&#xff0c;中间件和扩展是增强和扩展应用功能的两个关键机制。 通过中间件和扩展&…

【云安全】云上攻击路径

一、2022年CSA发布的《云计算的11类顶级威胁》&#xff1a; 1&#xff09;身份、凭据、访问和管理密钥、特权账号管理的不足 2&#xff09;不安全的接口和API 3&#xff09;配置不当和变更控制的不足 4&#xff09;缺乏云安全架构和战略 5&#xff09;不安全的软件开发 6…

通过 Docker 部署 MySQL 服务器

今天&#xff0c;我在三丰云的免费服务器上进行 MySQL 服务器的部署测试。三丰云的免费云服务器配置简洁&#xff0c;1核CPU、1G内存、10G硬盘和5M带宽&#xff0c;虽然是入门级别&#xff0c;但性能相当不错&#xff0c;确实是个不错的免费服务器。作为一个新手开发者或爱好者…

CSS-媒体查询

媒体查询使用 media 规则来定义&#xff0c;并包含一个或多个媒体特性和一个或多个样式规则。基本语法如下&#xff1a; media media-type and (media-feature) {/* 样式规则 */ } 其中&#xff1a; media-type 表示媒体类型&#xff0c;常见的媒体类型包括 all&#xff08;…

使用LangGPT提示词让大模型比较浮点数

使用LangGPT提示词让大模型比较浮点数 背景介绍环境准备创建虚拟环境安装一些必要的库安装其他依赖部署大模型启动图形交互服务设置提示词与测试 LangGPT结构化提示词 背景介绍 LLM在对比浮点数字时表现不佳&#xff0c;经验证&#xff0c;internlm2-chat-1.8b (internlm2-cha…

Java:List<String> 转换List<BigDecimal> 并求和

/*** <b>Function: </b> todo** program: List<String> 转换List<BigDecimal> 并求和* Package: com.kingbal.king.dmp* author: dingcho* date: 2024/09/20* version: 1.0* Copyright: 2024 www.kingbal.com Inc. All rights reserved.*/ Slf4j publi…

HObject复制耗时试用

测试源码一 //第一步const int N 1000;HObject[] imgs new HObject[N];for (int i 0; i < N; i){HOperatorSet.GenImageConst(out imgs[i], "byte", 1024 i, 1024 i);}//第二步List<HObject> lists new List<HObject>();for(int i 0; i < …

使用 uni-app 开发微信小程序的详细指南

使用 uni-app 开发微信小程序的详细指南 前言 随着微信小程序的广泛应用&#xff0c;越来越多的开发者开始关注小程序开发。而 uni-app 是 DCloud 推出的一个使用 Vue.js 开发跨平台应用的框架&#xff0c;不仅支持开发 H5、iOS 和 Android 应用&#xff0c;还可以用于开发微…

微博舆情分析技术文档分享

项目整体介绍&#xff1a;舆情瞭望——基于NLP的网络空间舆情检测分析系统 1. 项目背景与目标 该项目旨在对微博文章及其评论进行文本分析&#xff0c;重点包括情感分析和词频统计。通过对大量用户评论的处理与分析&#xff0c;帮助用户了解公众情绪和话题趋势&#xff0c;特…

基于PHP的新闻管理系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 【2025最新】基于phpMySQL的新闻管理系统。…

MySQL的缓存策略

目录 一、MySQL 缓存方案用来干什么 二、提升MySQL访问性能的方式 1、读写分离&#xff08;MySQL的主从复制&#xff09; 2、连接池 3、异步连接 三、缓存方案是怎么解决的 1、缓存与MySQL一致性状态分析 2、制定热点数据的读写策略 四、缓存方案问题的解决方法 1、缓…

酸枣病虫害智能化防控系统的探索与实践,基于YOLOv5全系列【n/s/m/l/x】参数模型开发构建枣类作物种植场景下酸枣病虫害智能检测识别系统

智慧农业&#xff0c;作为现代农业的高级形态&#xff0c;通过集成物联网、大数据、人工智能等先进技术&#xff0c;实现了农业生产过程的精准化、智能化管理。在酸枣等经济作物的种植过程中&#xff0c;病虫害的及时监测与防控直接关系到作物的产量与质量&#xff0c;进而影响…

react hooks--React.memo

基本语法 React.memo 高阶组件的使用场景说明&#xff1a; React 组件更新机制&#xff1a;只要父组件状态更新&#xff0c;子组件就会无条件的一起更新。 子组件 props 变化时更新过程&#xff1a;组件代码执行 -> JSX Diff&#xff08;配合虚拟 DOM&#xff09;-> 渲…

算法【双向广搜】

双向广搜常见用途 1&#xff1a;小优化。bfs的剪枝策略&#xff0c;分两侧展开分支&#xff0c;哪侧数量少就从哪侧展开。 2&#xff1a;用于解决特征很明显的一类问题。特征&#xff1a;全量样本不允许递归完全展开&#xff0c;但是半量样本可以完全展开。过程&#xff1a;把…

Knife4j 一款基于Swagger的开源文档管理工具

一、简单介绍 1.1 简介 Knife4j 是一款基于Swagger的开源文档管理工具&#xff0c;主要用于生成和管理 API 文档 二、使用步骤&#xff1a; 2.1 添加依赖&#xff1a; <dependency><groupId>com.github.xiaoymin</groupId><artifactId>knife4j-spr…

使用sqoop报错

报错一&#xff1a; java.io.IOException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf 这个错误表示在执行与 Hive 相关的操作时&#xff0c;程序无法找 org.apache.hadoop.hive.conf.HiveConf 这个类。这个类是 Hive 的配置类&#xff0c;它用…

spark之不同序列化对比

一&#xff0c;spark的rdd的序列话不同介绍 下面是使用不同序列化后的占用资源和数据大小 2&#xff0c;sparksql中序列化的区别 sparksql中使用序列化和不使用差别不大&#xff0c;英文sparksql中默认使用了encode自己实现的序列化方法&#xff0c;加上与不加序列化差别不大…