Qwen2来了

Qwen2整体介绍

Qwen2开源模型下载

Demo使用

Git

官方使用文档

变化

1、增大了上下文长度支持,Qwen2-72B-Instruct支持128K tokens,并且处理完美

2、代码和数学能力显著提升

3、多个评测基准上的领先表现

4、中英之外增加了27种语言相关的高质量数据

5、开源了Agent解决方案,用于高效处理 1000K tokens的上下文

「大量精力:如何扩展多语言预训练 和指令微调数据的规模并提升质量,提升模型的多语言能力」

Agent 应用

博客

代码

核心:通过分块+能处理8K上下文的LLM 不断总结归纳,来解决1000K上下文的理解任务。

在这里插入图片描述

方案:构建三个级别的Agent,这一部分建议详读,很不错。

级别一:先用LLM来对user query进行“信息”和“指令”的抽取,然后用LLM对信息进行翻译,多语言的角度用BM25来提取相关块…
在这里插入图片描述
级别二:为了减少 因关键词重叠度不足导致的 上下文错过 的问题,用LLM来判断块和query的相关度,用相关块的相关句子 而不是 query当中的 关键词来检索 最相关的块。
在这里插入图片描述
级别三:另外训练一个用于规划的LLM,用级别二的llm作为tool,实现逐级推理
在这里插入图片描述

基础

GQA

作用:推理加速、降低显存占用

MHA | MQA | GQA | MLA

tie embedding

场景:针对7B以下的小模型,比如0.5B、1.5B的

作用:让输入和输出层共享参数,增加非embedding参数的占比

长文本处理

YARN

论文地址

Dual Chunk Attention

论文地址

开源生态

在这里插入图片描述

一些数字

在这里插入图片描述
在这里插入图片描述

期待

期待QwenVL开源版本的更新

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/25224.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CNCF项目全景图介绍

本文首发在个人博客上,欢迎来踩! 云原生计算基金会(CNCF)介绍 CNCF(Cloud Native Computing Foundation)官网链接:https://www.cncf.io/ 官方的介绍如下: 云原生技术有利于各组织在公有云、私有云和混合…

Transformer论文精读

Transformer:Attention is all you need Abstract: 在主流的序列转录模型(sequence transduction models:给一个序列,生成另一个序列),主要依赖循环或者卷积神经网络,一般是用enco…

Buildroot和Debian文件系统修改方法

本文档主要介绍在没有编译环境的情况下,如何修改buildroot和debian文件系统方法,如在buildroot文件系统中添加文件、修改目录等文件操作,在debian文件系统中,安装软件库、工具、扩大文件系统空间等等操作。 1.Debian文件系统 …

算法 | hbut期末复习笔记

贪心选择策略:所求问题的整体最优解可以通过一系列局部最优的选择(贪心选择)得到 最优子结构:问题的最优解包括了其子问题的最优解 回溯法:具有限界函数的深度优先搜索法 回溯法的解空间:子集树&排列…

全新抖音快手小红书视频解析去水印系统网站源码

这个系统支持几十种平台,包括抖音、快手小红书以及其他热门社交媒体平台。它可以帮助轻松地下载这些平台上的任何视频,并去除其中的水印,让你可以自由地保存和分享这些视频。 使用方法: 上传压缩包解压,网站信息在inc…

【JAVASE】面向对象编程综合案例--------模仿电影信息系统

需求: (1)展示系统中的全部电影(每部电影展示:名称、价格) (2)允许用户根据电影编号(ID)查询出某个电影的详细信息。 目标:使用所学的面向对象…

洛谷B2095 白细胞计数

#include<bits/stdc.h> using namespace std; double a[520],cnt,min199999999,max1-1,max2,min2,max3-1; int main(){int n;cin>>n;for(int i1;i<n;i){cin>>a[i];min1min(min1,a[i]);if(a[i]min1){min2i;}//确定最大值 max1max(max1,a[i]);if(a[i]max1){…

基于SVPWM矢量控制的无速度传感器电机控制系统simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 基于SVPWM矢量控制的无速度传感器电机控制系统simulink建模与仿真&#xff0c;包括电机&#xff0c;SVPWM模块&#xff0c;矢量控制器模块等。 2.系统仿真结果 3.核心程序与模…

Java+前端+Vue 后端Spring boot 开发的全套UWB定位方案,0.1米高精度定位系统源码

Java前端Vue 后端Spring boot 开发的全套UWB定位方案,0.1米高精度定位系统源码 UWB定位系统由硬件定位设备、定位引擎和应用软件组成。该定位系统应用软件支持PC端和移动端访问&#xff0c;并提供位置实时显示、历史轨迹回放、人员考勤、电子围栏、行为分析、智能巡检等功能…

ajax回调函数

1.例 $.ajax({ dataType: "json", //数据格式:JSON url: url, //目标地址 data: {"":""},//即使无参数&#xff0c;也要写。****************** async:false,//异步执行&#xff0c;这个ajax执行完后才能执行其他的js error:function(XMLHttpReq…

gcc源码分析 词法和语法分析

gcc源码分析 词法和语法分析 一、输入参数相关1、命令行到gcc二、词法与语法分析1、词法分析1.1 struct cpp_reader1.2 struct tokenrun/struct cpp_token/lookahead字段1.3 struct ht2.1 语法符号相关的结构体c_token定义如下:2.2在语法分析中实际上有多个API组成了其接口函数…

vue2中的插槽使用以及Vuex的使用

插槽分为默认插槽&#xff0c;定名插槽还有作用域插槽 一.默认插槽&#xff0c;定名插槽 //app.vue <template> <div class"container"><CategoryTest title"美食" :listData"foods"><img slot"center" src&qu…

使用 Python 和 Selenium 进行网络抓取

如果你今天的工作是从竞争对手的网站上抓取定价页面信息。你会怎么做&#xff1f;复制粘贴&#xff1f;手动输入数据&#xff1f;当然不行&#xff01;他们绝对会花费你超级多的时间&#xff0c;而且你可能会犯一些错误。 需要指出的是&#xff0c;Python已经成为最流行的数据…

使用 Qwen-Agent 将 8k 上下文记忆扩展到百万量级

节前&#xff0c;我们组织了一场算法岗技术&面试讨论会&#xff0c;邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。 针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。 汇总合集…

【力扣】 两个字符串的最小ASCII删除和

一、题目描述 给定两个字符串s1 和 s2&#xff0c;返回使两个字符串相等所需删除字符的 ASCII 值的最小和 。 示例 1: 输入: s1 "sea", s2 "eat" 输出: 231 解释: 在 "sea" 中删除 "s" 并将 "s" 的值(115)加入总和。 在 &…

C# 绘图及古诗填字

绘图 绘图的结果如下&#xff1a; 绘图部分主要使用了 Bitmap、Graphics 具体的函数是 MakeMap 入参说明 string bg : 背景图 Rectangle rect &#xff1a;绘图区域 int row_count &#xff1a;行数 int col_count &#xff1a;列数 string fn &#xff1a;保存到的文件 …

Unity Standard shader 修改(增加本地坐标裁剪)

本想随便找一个裁剪的shader&#xff0c;可无奈的是没找到一个shader符合要求&#xff0c;美术制作的场景都是用的都标准的着色器他们不在乎你的功能逻辑需求&#xff0c;他们只关心场景的表现&#xff0c;那又找不到和unity标准着色器表现一样的shader 1.通过贴图的透明通道做…

【Java 百“练”成钢】Java 基础:类和对象

Java 基础&#xff1a;类和对象 01.打印信息02.打印类的简单名称03.打印类的 ClassLoader04.获取类的方法05.获取类的Package06.创建一个对象数组07.计算圆的面积08.计算圆的周长09.创建具有私有访问修饰符的成员10.创建带访问修饰符的成员11.将对象作为参数传递12.通过类对象获…

oracle开发中常用的sql语句

在Oracle数据库的开发过程中&#xff0c;SQL&#xff08;结构化查询语言&#xff09;是不可或缺的。无论是进行数据查询、数据插入、更新还是删除&#xff0c;都需要使用到SQL语句。以下是一些在Oracle开发中常用的SQL语句示例。 1. 数据查询&#xff08;SELECT&#xff09; …

基于axios给请求添加token

基于axios封装 创建js文件 import axios from "axios"; import { baseURL } from ../utils/config.js //请求的地址 if (process.env.NODE_ENV development) {baseURL; } else {baseURL; }//创建自定义axios对象 const instance axios.create({baseURL,timeo…