Mistral AI 开源 Pixtral 12B 多模态 LLM,多场景能力理解,支持中文指令遵循!

Mistral AI 开源了 Pixtral 12B 多模态 LLM。具有自然场景理解,代码生成,图像转代码,图像理解,多图指令跟随,图表理解与分析以及复杂图形推理等多项能力。从效果演示来看模型的能力很强,其中对中文能力的理解也很好。已经开放了模型下载地址和模型试用地址,大家可以去体验一下。

Pixtral 12B主要特点

  • Mistral Nemo 12B 的直接替代品;

  • 从头开始训练的新型 400M 参数视觉编码器;

  • 搭配基于 Mistral Nemo 的 12B 多模态解码器;

  • 能处理可变的图像尺寸和纵横比;

  • 支持128k上下文窗口中的多个图像。

Pixtral 12B 简介

原生多模式,使用交错图像和文本数据进行训练 在多模式任务中表现出色,擅长遵循指令 在纯文本基准测试中保持最佳性能 建筑学: 从头开始训练的新型 400M 参数视觉编码器 基于 Mistral Nemo 的 12B 参数多模态解码器 支持可变的图像尺寸和纵横比 支持 128k 个 token 的长上下文窗口中的多个图像 使用: 许可证:Apache 2.0 在 La Plateforme或Le Chat 上尝试 Pixtral 经过训练可以理解自然图像和文档,在 MMMU 推理基准测试中达到 52.5%,超过了许多大型模型。该模型在图表和图形理解、文档问答、多模态推理和指令遵循等任务中表现出色。Pixtral 能够以自然分辨率和宽高比摄取图像,让用户可以灵活地使用标记数量来处理图像。Pixtral 还能够在其 128K 标记的长上下文窗口中处理任意数量的图像。与之前的开源模型不同,Pixtral 不会在文本基准测试性能上妥协,以在多模态任务中表现出色。

表现

Pixtral 经过训练,可以替代Mistral Nemo 12B。它与现有开源模型的主要区别在于,它提供了一流的多模式推理能力, 同时又不影响关键的文本功能,例如指令跟踪、编码和数学。

评估方案

通过相同的评估工具重新评估了一系列开放和封闭模型。对于每个数据集,我们选择提示以便能够重现领先的多模态模型(GPT-4o 和 Claude-3.5-Sonnet)的结果。然后使用相同的提示评估所有模型。总体而言,Pixtral 的表现大大优于其规模范围内的所有开放模型,并且在许多情况下优于 Claude 3 Haiku 等封闭模型。在多模态基准测试中,Pixtral 甚至优于或匹敌 LLaVa OneVision 72B 等更大的模型的性能。所有提示都将开源。

遵循指令

与其他开放的多模态模型相比,Pixtral 在多模态和纯文本指令跟踪方面表现尤为出色。它在指令跟踪方面的表现大大优于 Qwen2-VL 7B、LLaVa-OneVision 7B 和 Phi-3.5 Vision,在文本IF-Eval 和MT-Bench方面比最接近的 OSS 模型提高了 20%。为了进一步评估这种多模态用例的能力,我们创建了这些基准的多模态版本:MM-IF-Eval和MM-MT-Bench。Pixtral在多模态指令跟踪基准测试方面的表现也优于开源替代方案。我们将向社区开源MM-MT-Bench。

Pixtral 的性能与开放多模态模型相比。所有模型都通过相同的评估工具和相同的提示进行基准测试。

模型结构

可变图像大小: Pixtral 旨在优化速度和性能。我们训练了一种新的视觉编码器,它原生支持可变图像大小:

  • 我们只需将图像以其原始分辨率和宽高比传递到视觉编码器,即可将其转换为图像中每个 16x16 块的图像标记

  • 然后将这些标记展平以创建一个序列,并[IMG BREAK]在行[IMG END]之间和图像末尾添加标记。

  • [IMG BREAK]标记让模型能够用相同数量的标记来区分不同纵横比的图像。 通过这种方式,Pixtral 可以用来准确理解高分辨率的复杂图表、图表和文档,同时为图标、剪贴画和方程式等小图像提供快速的推理速度。

最终架构: Pixtral 有两个组件:Vision Encoder(用于对图像进行标记)和 Multimodal Transformer Decoder(用于根据给定的文本和图像序列预测下一个文本标记)。该模型经过训练,可以在交错的图像和文本数据上预测下一个文本标记。这种架构允许 Pixtral 在其 128K 个标记的大型上下文窗口中处理任意数量、任意大小的图像。

定性示例

复杂图形推理

prompt:列出欧洲 GDP 最高的 5 个国家

回复:根据图片,欧洲 GDP 最高的 5 个国家是:

  • 德国,国内生产总值:3.99万亿美元,比例:4.65%

  • 英国,国内生产总值:2.82万亿美元,百分比:3.29%

  • 法国,国内生产总值:2.78万亿美元,百分比:3.24%

  • 意大利,国内生产总值:2.07万亿美元,百分比:2.42%

  • 西班牙,国内生产总值:1.43万亿美元,比例:1.66% 这些国家在图表上以绿色突出显示。

图表理解与分析

prompts:训练情况什么时候开始变糟的?

回复:该图是一个名为“训练/损失”的线图,显示了四个不同模型的训练损失:dark-dragon-50、dainty-sunset-49、different-haze-34 和 morning-field-33。x 轴表示步骤,范围从 0 到 60k,y 轴表示从 1e-5 到 1e+5 的对数刻度上的损失。

要确定 dark-dragon-50 模型何时开始出现问题,我们需要查看代表该模型的红线。最初,损失减少,表明模型正在有效学习。然而,在 10k 步左右,损失开始大幅飙升。这个峰值表明模型的性能正在恶化。损失继续飙升和波动,达到非常高的值,这表明模型没有有效学习,很可能过度拟合或遇到其他问题。

因此,dark-dragon-50 模型开始出现问题的临界点大约在 10k 步长标记处。

多图指令跟随

prompts:将两个表中的信息合并到单个 markdown 表中

回复:为了将两个表中的信息合并到一张表中,我们需要对齐每个基准中的模型及其对应的分数。以下是合并后的表格:

图像转代码

prompts:编写 HTML 代码来创建像这样的网站

回复:当然可以!下面是创建简单网页的 HTML 代码示例,该网页允许用户选择冰淇淋口味。此示例包含一个用于选择口味的下拉菜单和一个“下一步”按钮。

Pick an Ice Cream Flavor

Pick An Ice Cream Flavor

VanillaChocolateStrawberryCookie DoughMint Chocolate Next

© copyright MistralAI

#### 解释 - HTML 结构:网页由一个包含标题的容器 div、一个下拉菜单和一个按钮组成。

  • CSS 样式:应用基本样式来使内容居中并为元素设置样式。

  • JavaScript 函数:单击“下一步”按钮时,将调用next函数。它会从下拉菜单中检索所选的口味,并显示所选口味的警报。

自然场景理解

  1. 比萨斜塔

提示: 这个人真的很大吗,或者这座建筑真的超级小吗?

回复:图片显示一个人将拇指放在比萨斜塔前,看起来拇指比斜塔大得多。这造成了一种视觉错觉,使斜塔看起来比实际要小。实际上,比萨斜塔是一座巨大而标志性的建筑,而这个人的拇指远没有图片中看起来那么大。这张照片的目的是通过将斜塔与拇指等熟悉的物体进行比较来展示斜塔令人印象深刻的高度和大小。

相关链接

主页介绍:https://mistral.ai/news/pixtral-12b/?continueFlag=cd1674d0e6cf893c868c7e71e63fbaab

线上体验:https://auth.mistral.ai/ui/login?flow=65b41b1d-2667-4c85-9623-da818dd233b6

模型下载:https://huggingface.co/mistralai/Pixtral-12B-2409?continueFlag=cd1674d0e6cf893c868c7e71e63fbaab

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/56196.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

利用C++封装鼠标轨迹算法为DLL:游戏行为检测的利器

在现代软件开发中,鼠标轨迹模拟技术因其在自动化测试、游戏脚本编写等领域的广泛应用而备受青睐。本文将介绍如何使用C语言将鼠标轨迹算法封装为DLL(动态链接库),以便在多种编程环境中实现高效调用,同时探讨其在游戏行…

pymobiledevice3使用介绍(安装、常用命令、访问iOS沙盒目录)

项目地址:https://github.com/doronz88/pymobiledevice3 首先先介绍一下pymobiledevice3, pymobiledevice3是用Python3 实现的,用于处理 iDevices(iPhone 等)。它可以跨平台使用,支持:windows…

Python | Leetcode Python题解之第479题最大回文数乘积

题目: 题解: class Solution:def largestPalindrome(self, n: int) -> int:if n 1:return 9upper 10 ** n - 1for left in range(upper, upper // 10, -1): # 枚举回文数的左半部分p, x left, leftwhile x:p p * 10 x % 10 # 翻转左半部分到其…

【论文笔记】Fine-tuned CLIP Models are Efficient Video Learners

🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。 基本信息 标题: Fine-tuned CLIP Models a…

aws(学习笔记第五课) AWS的firewall SecurityGroup,代理转发技术

aws(学习笔记第五课) AWS的firewall– SecurityGroup,代理转发技术 学习内容: AWS的firewall– SecurityGroup代理转发技术 1. AWS的filewall– SecurityGroup 控制进入虚拟服务器的网络流量 通常的firewall(防火墙)配置 AWS上使用安全组进行网络流量…

SpringCloud-OpenFeign-服务接口调用

是什么 把需要暴露的api使用接口来暴露,客户端需要调用的时候,直接查看这个接口中有没有就可以了 通用步骤 架构说明 common模块 common 引入 openfeign 新建服务接口类 FeignClient(value "cloud-payment-service") // 服务名 public i…

SwiftUI 6.0(iOS 18)自定义容器值(Container Values)让容器布局渐入佳境(上)

概述 我们在之前多篇博文中已经介绍过 SwiftUI 6.0(iOS 18)新增的自定义容器布局机制。现在,如何利用它们对容器内容进行“探囊取物”和“聚沙成塔”,我们已然胸有成竹了。 然而,除了上述鬼工雷斧般的新技巧之外&…

finereport 数据下钻

目标:点击某块汇总的单元格,然后直接在原表的位置下钻到明细表,且不会影响整个大屏的结构,同时又支持明细表再回退到汇总表的功能 1、新建tab组件 1、新建决策报表 将 body 的布局方式改为「绝对布局」 2、将 Tab 块拖入 body…

小白都来用这款AI绘画神器,IDEOGRAM2.0,轻松画出高质量图片

大家好!我是宇航,一位喜欢AI绘画的10年技术专家,专注于输出AI绘画与视频内容 今天给大家介绍一款绝对的生图神器——Ideogram2.0! 不论你是AI小白,手残党还是资深玩家,无论你是做网页设计,电商&#xff0c…

【Python爬虫实战】正则:从基础字符匹配到复杂文本处理的全面指南

🌈个人主页:https://blog.csdn.net/2401_86688088?typeblog 🔥 系列专栏:https://blog.csdn.net/2401_86688088/category_12797772.html 目录 前言 一、正则表达式 (一)正则表达式的基本作用 &#xf…

The Android SDK location cannot be at the filesystem root

win11, 安装启动完Android Studio后,一直显示 The Android SDK location cannot be at the filesystem root因此需要下载SDK包,必须开启代理。 开启代理后,在System下开启自动检测代理,如图 重启Android Studio&a…

【微信小程序_11_全局配置】

摘要:本文介绍了微信小程序全局配置文件 app.json 中的常用配置项,重点阐述了 window 节点的各项配置,包括导航栏标题文字、背景色、标题颜色,窗口背景色、下拉刷新样式以及上拉触底距离等。通过这些配置可实现小程序窗口外观的个性化设置,提升用户体验。 微信小程序_11_全…

C语言 | Leetcode C语言题解之第462题最小操作次数使数组元素相等II

题目&#xff1a; 题解&#xff1a; static inline void swap(int *a, int *b) {int c *a;*a *b;*b c; }static inline int partition(int *nums, int left, int right) {int x nums[right], i left - 1;for (int j left; j < right; j) {if (nums[j] < x) {swap(…

树莓派应用--AI项目实战篇来啦-5.OpenCV绘画函数的使用

1. 介绍 OpenCV作为一款功能强大的计算机视觉库&#xff0c;被广泛地应用于图像处理和计算机视觉领域。 除了在机器视觉和人工智能领域有者广泛的应用&#xff0c;OpenCV 还能够媲美艺术家的创造力&#xff0c;通过其强大的绘图函数&#xff0c;绘制出令人叹为观止的艺术画作。…

flask项目框架搭建

目录结构 blueprints python包&#xff0c;蓝图文件&#xff0c;相当于路由组的概念,方便模块化开发 例如auth.py文件 from flask import Blueprint, render_templatebp Blueprint("auth", __name__, url_prefix"/auth")bp.route("/login") d…

Python数据可视化常用工具,值得收藏!!!

我们了解了如何使用 Pandas 进行简单的绘图,使用 Pandas 自带的绘图功能能够快速地生成一些基本的图表,例如折线图、柱状图等.但为了实现更复杂或专业的可视化效果,我们通常还需要借助更为强大的绘图库——Matplotlib. 本篇文章将详细介绍如何结合 Matplotlib 和 Pandas 实现数…

Redis-缓存一致性

缓存双写一致性 更新策略探讨 面试题 缓存设计要求 缓存分类&#xff1a; 只读缓存&#xff1a;&#xff08;脚本批量写入&#xff0c;canal 等&#xff09;读写缓存 同步直写&#xff1a;vip数据等即时数据异步缓写&#xff1a;允许延时&#xff08;仓库&#xff0c;物流&a…

C++: AVL树的实现

一.AVL树的旋转 AVL树是平衡搜索二叉树的一种。 平衡因子&#xff1a;节点右树的高度减左树的高度&#xff0c;AVL树规定平衡因子的绝对值小于2。若不在这个范围内&#xff0c;说明该树不平衡。 AVL树节点&#xff1a; struct AVLTreeNode {AVLTreeNode(const T& data …

数据结构--堆的深度解析

目录 引言 一、基本概念 1.1堆的概念 1.2堆的存储结构 1.3堆的特点 二、 堆的基本操作 2.1初始化 2.2创建堆 2.3插入元素 2.4删除元素 2.5堆化操作 2.6堆的判空 2.7获取堆顶元素 三、堆的常见应用 1. 优先队列 2. 堆排序 3. Top-k 问题 4. 图论中的应用 四…

rom定制系列------小米5x_miui12安卓11定制固件界面预览 小米5x第三方固件

&#x1f49d;&#x1f49d;&#x1f49d;此固件来源于客户卡刷固件定制。客户需要修改为线刷。并且修改账号锁功能。 可以让客户使用官方平台批量进行刷写。方便操作。 定制机型以及功能预览&#x1f49d;&#x1f49d;&#x1f49d; 小米5x版本miui12.5.8安卓11固件。此机型…