Hugging Face发布重量级版本:Transformer 4.42

Hugging Face 宣布发布Transformer 4.42,该版本为流行的机器学习库带来了许多新功能和增强功能。此版本引入了几个高级模型,支持新工具和检索增强生成 (RAG),提供 GGUF 微调,并整合了量化的 KV 缓存,以及其他改进。

随着Transformer 4.42的发布,包括Gemma 2、RT-DETR、InstructBlip 和 LLaVa-NeXT-Video在内的新模型的发布也使其更加值得关注。下面就一起看下这些新的更新。

Gemma 2 模型系列由 Google 的 Gemma2 团队开发,这些模型在 6万亿个代币上进行了训练,并在语言理解、推理和安全方面的各种学术基准中表现出卓越的表现。在 18 个基于文本的任务中,它们在 11 个任务中的表现优于类似大小的开放模型。

RT-DETR,即实时DEtection Transformer,是另一个重要的补充。该模型专为实时对象检测而设计,利用 transformer 架构快速准确地识别和定位图像中的多个对象。它的发展使其成为目标检测模型的强大竞争对手。

InstructBlip使用BLIP-2架构增强了可视化指令调优。它将文本提示馈送到 Q-Former,从而实现更有效的视觉语言模型交互。该模型有望提高需要视觉和文本理解的任务的性能。

LLaVa-NeXT-Video通过合并视频和图像数据集来构建 LLaVa-NeXT 型。此增强功能使该模型能够执行最先进的视频理解任务,使其成为零样本视频内容分析的宝贵工具。AnyRes 技术将高分辨率图像表示为多个较小的图像,对于该模型有效地从图像泛化到视频帧的能力至关重要。

  • 使用 AnyRes 实现零镜头视频表示功能:AnyRes 技术自然地将高分辨率图像表示为预训练的 VIT 能够消化的多个图像,并将它们形成一个压缩序列。这种技术自然可以推广到表示视频(由多个帧组成),使仅经过图像训练的 LLaVA-Next 模型在视频任务上表现出色。值得注意的是,这是LMM首次表现出强大的零样本模态转移能力。

  • 长度泛化的推理在较长的视频上得到了改进。线性缩放技术支持长度泛化,使 LLaVA-NeXT 能够有效地处理max_token_length长视频,而超出了 LLM.

  • 较强的视频理解能力。(1) LLaVA-Next-Image 结合了上述两种技术,与在视频上调谐的开源 LMM 相比,产生了卓越的零样本性能。(2) LLaVA-Next-Video,对视频数据进行进一步的监督微调(SFT),与LLaVA-Next-Image相比,实现了更好的视频理解能力。(3) LLaVA-Next-Video-DPO,使用直接偏好优化 (DPO) 将模型响应与 AI 反馈保持一致,显示出显着的性能提升。

  • 使用 SGLang 进行高效部署和推理。它允许将视频任务的推理速度提高 5 倍,从而实现更具可扩展性的服务,例如百万级视频重新字幕。请参阅我们的存储库中的说明。

Hugging Face会自动为Python函数生成JSON架构描述,从而促进与工具模型的无缝集成。工具模型的标准化 API 确保了各种实现之间的兼容性。另一个值得注意的增强功能是GGUF微调支持。此功能允许用户在 Python/Hugging Face生态系统中微调模型,然后将它们转换回 GGUF/GGML/llama.cpp库。这种灵活性确保了模型可以在不同的环境中进行优化和部署。

量化改进(包括添加量化的 KV 缓存)进一步降低了生成模型的内存需求。此次更新,加上对量化文档的全面修订,为用户提供了更清晰的指导,帮助他们选择最适合其需求的量化方法。

除了这些主要更新之外,该版本还删除已弃用的组件,如 ConversationalPipeline 和 Conversation 对象。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/864466.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于协同过滤的航空票务推荐系统的设计与实现(飞机票推荐系统)

💗博主介绍💗:✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌ 温馨提示:文末有 CSDN 平台官方提供的老师 Wechat / QQ 名片 :) Java精品实战案例《700套》 2025最新毕业设计选题推荐…

Android Studio 解决AAPT: error: file failed to compile

1.找到项目下的build.gradle 2.在android语块中添加下面代码 aaptOptions.cruncherEnabled false aaptOptions.useNewCruncher false 12

【数据结构】栈和队列-相互实现OJ题

前言: 本题目是关于栈和队列的OJ题目,需对栈和队列有一定了解再进行做题,若不了解可以根据我之前这篇文章进行学习:【数据结构】栈和队列-CSDN博客,题中需要的栈和队列的实现也在该文章中有源代码 目录 前言: 一.用…

探索WebKit的Flexbox奇境:CSS Flexbox支持全解析

探索WebKit的Flexbox奇境:CSS Flexbox支持全解析 在现代网页设计中,响应式布局的需求日益增长,CSS Flexbox作为布局模式的一个突破性进展,提供了一种更加高效和灵活的方式来设计复杂的用户界面。WebKit,作为众多流行浏…

在Ubuntu 16.04上安装和配置Nextcloud的方法

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 简介 Nextcloud 是 ownCloud 的一个分支,是一个文件共享服务器,允许您将个人内容(如文档和图片&…

怎样将word默认Microsoft Office,而不是WPS

设置——>应用——>默认应用——>选择"word"——>将doc和docx都选择Microsoft Word即可

面试题-Spring家族与SpringIOC

1.spring家族的介绍 Spring简单图: 2.IOC原理 IOC就是原先代码里需要开发者实现对象的创建和关系依赖,反转交给SpringIOC容器管理对象的生命周期和对象之间的依赖关系。 依赖注入的方式: Setter:实现特定属性的public sette…

酱酒特点标准术语

酱酒的独特风味可以通过一系列专业的标准术语进行描绘,这些术语不仅包括了酱酒的香气和口感,还涵盖了对酱酒的深度品鉴知识。以下是酱酒亮哥收集的一些关键的酱酒特性标准术语: 酱香显著:这是酱香型白酒的香气特征,表…

Evented PLEG: iSulad 稳态 CPU 利用率降低30%的关键特性

背景 容器技术在不断发展的过程中,已被广泛应用于多种场景。OpenAtom openEuler(简称"openEuler") 社区容器引擎项目 iSulad[1]面向 CT、IT 领域的不同需求而生,它具有轻量级、高性能的特点,可以在资源受限…

[C++11] noexcept 完整解析

说明:noexcept是C11标准引入的一个关键字,用于指示一个函数是否被保证不会抛出异常。如果但从设计角度看会感觉很奇怪,明明是有问题才抛出异常,那为什么还是在某些时候禁止抛异常呢?接下来我们了解下C11 为什么引入了 …

高性能LDO电路设计,有配套文档

内容: 1、电路文件(有仿真状态)和PDK(TSMC180) 2、配套仿真结果文档讲解6页 3、参考资料三篇 指标: LDO 温度系数1.09ppm LDO 环路增益在 64.3dB,相位裕度在 66,系统稳定。 LDO 最大…

【问题】升级指定conda虚拟环境的python到指定版本

1 背景 当前conda环境的名字为python38,进入环境python38命令如下: conda activate python38 2 升级python到3.10版本 conda install python=3.10 3 查看python版本 conda list -n python38 python

技术派Spring事件监听机制及原理

Spring事件监听机制是Spring框架中的一种重要技术,允许组件之间进行松耦合通信。通过使用事件监听机制,应用程序的各个组件可以在其他组件不直接引用的情况下,相互发送和接受消息。 需求 在技术派中有这样一个需求,当发布文章或…

Linux驱动入门-最简单字符设备驱动

一、字符设备驱动概念 1. 什么是字符设备驱动? 字符设备是 Linux 驱动中最基本的一类设备驱动,按字节流进行读写操作,数据读写有先后顺序。常见的字符设备包括LED灯、按键、IIC、SPI、LCD等。字符设备驱动就是为这些设备编写的驱动程序。 …

ollama,springAi实现自然语言处理

ollama安装使用: https://ollama.com/ 下载速度比较慢的可以直接使用以下版本0.1.41 https://pan.baidu.com/s/1hCCkYvFjWqxvPyYA2-YElA?pwdotap 直接管理员身份双击安装,安装成功后会在任务栏里出现这个小图标: 打开cmd,输入…

java实现图像分割合并

Java实现图片操作:切割、缩放、重置、拼接、合并、水印、画单点、画线段等_java拼接图片并截掉一部分-CSDN博客

WhatsApp:连接世界的即时通讯巨头

在数字化浪潮席卷全球的今天,即时通讯工具已成为人们日常生活中不可或缺的一部分。其中,WhatsApp凭借其卓越的功能、出色的用户体验和广泛的用户基础,在全球通讯领域崭露头角,成为连接世界的即时通讯巨头。今天将带您深入了解What…

tkinter显示图片

tkinter显示图片 效果代码解析打开和显示图像 代码 效果 代码解析 打开和显示图像 def open_image():file_path filedialog.askopenfilename(title"选择图片", filetypes(("PNG文件", "*.png"), ("JPEG文件", "*.jpg;*.jpeg&q…

2024.7.1 刷题总结

2024.7.1 **每日一题** 2065.最大化一张图中的路径价值,本题可以从数据范围得到思路的参考,根据总最大时间和单个最小时间得到最多可以有十条边,即搜索树有11层,每个节点最多有4个儿子,可视为一棵层数至多为11的四叉树…

数据资产赋能企业决策:通过精准的数据分析和洞察,构建高效的数据资产解决方案,为企业提供决策支持,助力企业实现精准营销、风险管理、产品创新等目标,提升企业竞争力

一、引言 在信息化和数字化飞速发展的今天,数据已成为企业最宝贵的资产之一。数据资产不仅包含了企业的基本信息,还蕴含了丰富的市场趋势、消费者行为和潜在商机。如何通过精准的数据分析和洞察,构建高效的数据资产解决方案,为企…