大模型关于Lora论文集合

  • 《Chain of LoRA:Efficient Fine-tuning of Language Models via Residual
    Learning》

Chain of LoRA (COLA),这是一种受 Frank-Wolfe 算法启发的迭代优化框架,旨在弥合 LoRA 和全参数微调之间的差距,而不会产生额外的计算成本或内存开销。COLA 采用残差学习过程,将学习到的 LoRA 模块合并到预先训练的语言模型参数中,并重新启动对新诞生的 LoRA 模块的优化。我们提供理论收敛保证以及实证结果来验证我们算法的有效性。


论文地址:https://arxiv.org/pdf/2401.04151.pdf

  • 《ASPEN: High-Throughput LoRA Fine-Tuning of Large Language Models
    with a Single GPU》

ASPEN是一个突破性的开源框架,通过采用高效的多种 LoRA/QLoRA 方法,彻底改变了大型语言模型 (LLM) 的微调。它通过优化微调过程、最大限度地减少 GPU 内存使用以及支持多个 LoRA/qLoRA 适配器的并发微调而脱颖而出。

项目链接:https://github.com/TUDB-Labs/multi-lora-fine-tune/tree/main

  • 《MultiLoRA: Democratizing LoRA for Better Multi-Task Learning》
    MultiLoRA是一种新的低秩参数更新方式,通过多元化LoRA模块的贡献来更好地适应多任务学习问题。MultiLoRA并行化LoRA模块以减少参数依赖,改变初始化方法来增强表达能力。文中通过奇异值分解分析发现,LoRA主要依赖少量奇异向量,而MultiLoRA可以使更多奇异向量作用。此外,文章使用包含不同领域任务的混合数据集来比较评估各方法,MultiLoRA在MMLU等多种场景下都表现优于LoRA。MultiLoRA达到了与全参数微调相当的多任务适应效果,但只需增加很少参数,这将有利于大规模语言模型的实际应用。


论文地址:https://arxiv.org/pdf/2311.11501.pdf

  • 《MixLoRA: Resource-Efficient Model with Mix-of-Experts Architecture for Enhanced LoRA Performance》

MixLoRA 的基本概念基于所有参数均已冻结的预训练模型,例如 LLaMA-7B。它涉及在其全连接层 (FFN) 之上训练多个 LoRA 专家模块。同时,对路由层(线性门)进行训练,创建更强大的专家混合 (MoE) 语言模型。最近的研究表明,现有 MoE 模型(例如 Mixtral)中的专家权重相对相似,使得 MixLoRA 方法能够以更少的资源实现与现有 MoE 模型相似的性能。

此外,MixLoRA 还允许同时微调注意力层,有助于改善微调结果。在实验中,与由 9 个专家组成的不带注意层适配器的 MixLoRA 模型相比,由 8 个具有注意层适配器的专家组成的 MixLoRA 模型表现出更快的损失减少速度。

MixLoRA 以独特的 LoRA 适配器形式存在于 m-LoRA 中。因此,m-LoRA 能够同时加载、训练和微调多个不同的 MixLoRA 和 LoRA 模型。但是,需要注意的是,这些模型必须基于相同的预训练模型。

MixLora地址:https://github.com/TUDB-Labs/multi-lora-fine-tune/blob/main/MixLoRA.md

在这里插入图片描述

  • 《LONGLORA: EFFICIENT FINE-TUNING OF LONGCONTEXT LARGE LANGUAGE MODELS》

麻省理工学院和香港中文大学联合发布了LongLoRA,这是一种全新的微调方法,可以增强大语言模型的上下文能力,而无需消耗大量算力资源。

通常,想增加大语言模型的上下文处理能力,需要更多的算力支持。例如,将上下文长度从2048扩展至8192,需要多消耗16倍算力。

LongLoRA在开源模型LLaMA2 7B/13B/70B上进行了试验,将上下文原始长度扩展至32K、64K、100K,所需要的算力资源却很少。

开源地址:https://github.com/dvlab-research/LongLoRA

论文地址:https://arxiv.org/abs/2309.12307

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/616487.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

状态机和相关算法应用分析

简介 状态机(State Machine)在软件编程中是一个数学模型,可以用状态转移图表示,指的是:现态在满足某个条件时,进行动作(状态转移),从而转为另一个状态(次态&…

【c++】类和对象1

1.面向过程和面向对象初步认识 C语言是面向过程的,关注的是过程,分析出求解问题的步骤,通过函数调用逐步解决问题。 C是基于面向对象的,关注的是对象,将一件事情拆分成不同的对象,靠对象之间的交互完 成 …

编程江湖:Python探秘之旅-----Python 实用工具和库(七)

在一个普通的工作日,团队聚集在一起讨论如何提升开发效率。这时,林克斯加入了讨论,他是团队的技术专家,对 Python 的生态系统了如指掌。 林克斯:(满怀热情地)你们知道吗,Python 有一…

JavaScript高级程序设计读书记录(十二):函数

函数是ECMAScript中最有意思的部分之一,这主要是因为函数实际上是对象。每个函数都是Function 类型的实例,而 Function 也有属性和方法,跟其他引用类型一样。因为函数是对象,所以函数名就是 指向函数对象的指针,而且不…

[linux]编译一个ko文件并运行

一、需求 有一段代码需要在运行时加载注入内核中&#xff0c;当用户层需要访问时可以提供内核态环境去运行。 二、c代码构建 // #include <errno.h> // #include <string.h> // #include <stdio.h> // #include <fcntl.h> // #include <stdlib.h…

Windows安装Rust环境(详细教程)

一、 安装mingw64(C语言环境) Rust默认使用的C语言依赖Visual Studio&#xff0c;但该工具占用空间大安装也较为麻烦&#xff0c;可以选用轻便的mingw64包。 1.1 安装地址 (1) 下载地址1-GitHub&#xff1a;Releases niXman/mingw-builds-binaries GitHub (2) 下载地址2-W…

Formnext2024法兰克福3D打印增材制造展览会现正接受报名

Formnext2024法兰克福3D打印增材制造展览会现正接受报名 Formnext法兰克福国际精密成型及 3D 打印制造展览会将于2024年11月19日至22日在法兰克福举办。 Formnext法兰克福国际精密成型及 3D 打印制造展览会在2023年迎来了32,851名专业人士和管理人员(50%来自国际)&#xff0c…

Excel地址

解题思路&#xff1a; 根据题中歪歪和笨笨的话可以有两种解法。 1.输入的数为多大&#xff0c;则循环1多少次&#xff0c;当值为27时就要进行进位操作。这时要分情况讨论。 当集合中元素为一个时&#xff0c;如26&#xff0c;则需要变为1 1&#xff0c;集合元素个数加一。 当…

2023年全球软件质量效能大会(QECon上海站):核心内容与学习收获(附大会核心PPT下载)

会议聚焦于软件质量和效能的提升。在智能时代&#xff0c;随着数字化的深入人心&#xff0c;软件正在随着云计算、移动互联网、物联网等的发展而不断进化&#xff0c;软件对企业的发展愈加重要&#xff0c;大家对软件的质量要求也在从传统功能、性能、安全这些基础层面向着用户…

easyui datagrid无数据时显示无数据

这里写自定义目录标题 需求解决办法 需求 使用datagrid显示记录时&#xff0c;结果查询记录数为0&#xff0c;此时需要显示无数据。 示例代码 <table id"dg"></table>$(#dg).datagrid({url:datagrid_data.json,columns:[[{field:code,title:Code,widt…

【OCR】实战使用 - 如何提高识别文字的精准度?

实战使用 - 如何提高文字识别的精准度 我们在平常使用OCR的时候&#xff0c;经常会出现文字识别不精准的情况&#xff0c;我们改如何提高文字识别的精度呢&#xff1f; 以下是一些提高OCR&#xff08;Optical Character Recognition&#xff0c;光学字符识别&#xff09;文字识…

(超详细)5-YOLOV5改进-添加A2Attention注意力机制

1、在yolov5/models下面新建一个A2Attention.py文件&#xff0c;在里面放入下面的代码 代码如下&#xff1a; import numpy as np import torch from torch import nn from torch.nn import init from torch.nn import functional as Fclass DoubleAttention(nn.Module):def …

coco数据集格式转yolo数据格式

一、coco数据集是什么&#xff1f; COCO&#xff08;Common Objects in Context&#xff09;是一个广泛使用的目标检测和分割数据集&#xff0c;而YOLO&#xff08;You Only Look Once&#xff09;是一种流行的实时目标检测算法。 首先&#xff0c;导入了必要的库&#xff0c…

87.乐理基础-记号篇-反复记号(一)反复、跳房子

内容参考于&#xff1a;三分钟音乐社 上一个内容&#xff1a;86.乐理基础-记号篇-速度记号-CSDN博客 首先是反复记号表总结图&#xff1a; 当前是写前两个记号&#xff0c;其余记号后面写&#xff1a;这些反复记号最主要的目的很简单&#xff0c;还是为了节约纸张&#xff0c…

蓝桥杯单片机组备赛——LED指示灯的基本控制

&#x1f388;教程介绍&#xff1a;博客依据b站小蜜蜂老师的教程进行编写&#xff0c;文中会对老师传授的知识进行总结并加入自己的一些理解。教程链接 文章目录 一、点灯介绍二、相关数字芯片介绍2.1 74HC138介绍2.2 74HC573介绍2.3 74HC02介绍 三、代码设计思路四、代码编写…

Spring MVC 异常处理器

异常处理器 如果不加以异常处理&#xff0c;错误信息肯定会抛在浏览器页面上&#xff0c;这样很不友好&#xff0c;所以必须进行异常处理。 异常处理思路 系统的dao、service、controller出现都通过throws Exception向上抛出&#xff0c;最后由springmvc前端控制器交由异常处…

解决跨域问题的8种方案(最新最全)

什么是跨域: 浏览器对于javascript的同源策略的限制,例如http://a.cn下面的js不能调用http://b.cn中的js,对象或数据(因为http://a.cn和http://b.cn是不同域),所以跨域就出现了.同域&#xff1a;简单的解释就是域名相同,端口相同,协议相同 为什么需要跨域&#xff1f; 在最一…

关于java方法定义的回顾

关于java方法定义的回顾 我们在上一篇文章中&#xff0c;对java的面向对象有了一个初步的理解&#xff0c;因为类里面方法是必不可少的&#xff0c;我们本篇文章对方法进行一个回顾&#xff0c;以便加深一下对方法的了解程度和使用&#x1f600;。 我们把前面讲解到方法的文章…

LeetCode 590. N 叉树的后序遍历

590. N 叉树的后序遍历 给定一个 n 叉树的根节点 root &#xff0c;返回 其节点值的 后序遍历 。 n 叉树 在输入中按层序遍历进行序列化表示&#xff0c;每组子节点由空值 null 分隔&#xff08;请参见示例&#xff09;。 示例 1&#xff1a; 输入&#xff1a;root [1,null,…

Redis优化和解决缓存问题

目录 redis的2种持久化方式 RDB持久化 AOF持久化 redis优化 redis的三大缓存问题 缓存雪崩的解决方案&#xff1a; 缓存穿透的解决方案&#xff1a; 缓存击穿的解决方案&#xff1a; 如何保证 MySQL 和 redis 的数据一致性&#xff1f; redis的2种持久化方式 RDB持久化…