[240609] qwen2 发布,在 Ollama 已可用 | 采用语言模型构建通用 AGI(2020年8月)

目录

    • qwen2 发布,在 Ollama 已可用
      • Qwen2 模型概览 (基于 Ollama 网站信息)
        • 一、模型介绍
        • 二、模型参数
        • 三、支持语言 (除英语和中文外)
        • 四、模型性能
        • 五、许可证
        • 六、数据支撑:
    • 采用语言模型构建通用 AGI

qwen2 发布,在 Ollama 已可用

Qwen2 模型概览 (基于 Ollama 网站信息)

一、模型介绍
  • 由阿里巴巴开发的新系列大型语言模型。
  • 训练数据涵盖 29 种语言,包括 英语和中文。
  • 提供 4 种参数规模: 0.5B、1.5B、7B、72B。
  • 7B 和 72B 模型的上下文长度扩展至 128k tokens。
二、模型参数
模型Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-72B
参数量0.49B1.54B7.07B72.71B
非嵌入参数量0.35B1.31B5.98B70.21B
GQA支持支持支持支持
绑定嵌入支持支持不支持不支持
上下文长度32K32K128K128K
三、支持语言 (除英语和中文外)
  • 西欧: 德语、法语、西班牙语、葡萄牙语、意大利语、荷兰语
  • 东欧和中欧: 俄语、捷克语、波兰语
  • 中东: 阿拉伯语、波斯语、希伯来语、土耳其语
  • 东亚: 日语、韩语
  • 东南亚: 越南语、泰语、印尼语、马来语、老挝语、缅甸语、宿务语、高棉语、塔加洛语
  • 南亚: 印地语、孟加拉语、乌尔都语
四、模型性能
  • 网站提供了四张图片展示 Qwen2 模型在不同任务上的性能表现,包括:
    • 代码生成 (HumanEval)
    • 常识推理 (MMLU)
    • 阅读理解 (TriviaQA)
    • 数学推理 (GSM8K)
五、许可证
  • 除 Qwen2 72B (包括指令模型和基础模型) 外,所有模型均采用 Apache 2.0 许可证。
  • Qwen2 72B 模型仍使用原始的 Qianwen 许可证。
六、数据支撑:

以上信息均来自 Ollama 网站上关于 Qwen2 模型的介绍页面。

以上文章采用 Gemini Pro 1.5 生成摘要,命令如下:

x jina r 'https://ollama.com/library/qwen2' | \@gemini -t 0 '以大纲方式生成一份摘要,列举更多的数据 支撑,用中文'

采用语言模型构建通用 AGI

这篇文章探讨了利用大型语言模型构建通用人工智能 (AGI) 的可能性。

核心观点:

  • 语言模型的最终目标是最大化其对自然语言数据的似然性。
  • 随着模型规模的扩大,损失函数会不断下降,最终逼近自然语言的香农熵。
  • 当损失函数接近香农熵时,语言模型将被迫发展出强大的世界模型,才能进一步提高预测能力。
  • 可以利用语言模型的这种世界模型能力,结合目标设定和蒙特卡洛树搜索等技术,构建出能够执行复杂任务的智能体。

文章结构:

  1. 引言: GPT-3 虽然强大,但并非 AGI。然而,语言模型与其他 AI 系统不同,它能够通过自然语言编码整个世界的知识。
  2. 世界模型:
    • 语言模型通过不断优化预测下一个词的能力,最终会隐式地学习到世界的运作方式。
    • 随着模型规模的扩大,其世界模型的准确性和复杂性也会随之提高。
  3. 构建智能体:
    • 世界模型本身并不能构成智能体,还需要设定目标和行动策略。
    • 可以通过向语言模型提问的方式,获取其对不同行动方案的预期奖励,并利用蒙特卡洛树搜索等方法选 择最佳行动。
    • 智能体的状态和行动都可以用自然语言表示,并通过专门的模块与外部世界进行交互。
  4. 结论:
    • 目前的技术水平尚未达到利用语言模型构建 AGI 的程度,但这是一个值得探索的方向。
    • 文章中提出的方法依赖于一些假设,例如更大规模的模型将拥有更强的世界模型能力。

数据支撑:

  • 文章引用了 GPT-3 的论文,证明了模型规模与性能之间的正相关关系。
  • 文章还提到了其他研究,例如 iGPT 可以将图像转换为文本,以及一些将自然语言转换为代码或命令的技术。

需要进一步探讨的问题:

  • 更大规模的语言模型是否真的能够发展出足够强大的世界模型?
  • 如何有效地设定目标并引导语言模型的行动?
  • 如何确保基于语言模型的 AGI 的安全性?

中文补充:

  • 文章中提到的香农熵,是指衡量信息量大小的指标,可以理解为表示某个信息所需的最小比特数。
  • 蒙特卡洛树搜索是一种基于随机模拟的搜索算法,常用于围棋等游戏 AI 中。
  • 文章中提到的“智能体”,是指能够感知环境、做出决策并执行行动的实体。

总结:

这篇文章为利用语言模型构建 AGI 提供了一个新的思路,但同时也提出了一些需要解决的挑战。随着语言模 型技术的不断发展,相信未来会有更多相关的研究和应用出现。

以上文章采用 Gemini Pro 1.5 生成摘要,命令如下:

x jina r 'https://bmk.sh/2020/08/17/Building-AGI-Using-Language-Models/' | \@gemini -t 0 '以大纲方式生成一份摘要,列举更多的数据支撑,用中文'

更多内容请查阅 : blog-240609


关注微信官方公众号 : oh my x

获取开源软件和 x-cmd 最新用法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/25399.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android基础-AIDL的实现

一、引言 在Android开发中,跨进程通信(IPC,Inter-Process Communication)是一个常见的需求。为了支持这种需求,Android提供了多种IPC机制,其中AIDL(Android Interface Definition Language&…

深度学习复盘与论文复现C

文章目录 4、Distributed training4.1 GPU architecture 5、Recurrent neural network5.1 The basic structure of RNN5.2 Neural networks without hidden states5.3 Recurrent neural networks with hidden states5.4 summary 6、Language Model Dataset (lyrics from Jay Ch…

Java 泛型类,泛型方法,泛型接口和通配符(用来限定类和方法的使用范围)

测试类 package Genericity;import java.util.ArrayList;public class test {public static void main(String[] args) {// 使用泛型方法添加元素ArrayList<String> list new ArrayList<>();MyToolClass.ListAdd(list,"fdsf","dsfa");System…

Leetcode 3179. Find the N-th Value After K Seconds

Leetcode 3179. Find the N-th Value After K Seconds 1. 解题思路2. 代码实现 题目链接&#xff1a;3179. Find the N-th Value After K Seconds 1. 解题思路 这一题的话还是一个动态规划的问题&#xff0c;核心递推关系式为&#xff1a; dp(n, k) dp(n-1, k) dp(n, k)我…

未在本地计算机上注册“Microsoft.ACE.OLEDB.12.0”提供程序。.net 读取excel的时候报错(实测有效)

1. 下载AccessDatabaseEngine.exe 下载链接 添加链接描述 2. office excel是64为的需要安装【AccessDatabaseEngine.exe】、32位的【AccessDatabaseEngine_X64.exe】 3. 我的是64为&#xff0c;跳过32位安装检测 1. 找到下载的安装包 2.输入安装包文件全称并在后面加上/pas…

golang的函数为什么能有多个返回值?

在golang1.17之前&#xff0c;函数的参数和返回值都是放在函数栈里面的&#xff0c;比如函数A调用函数B&#xff0c;那么B的实参和返回值都是存放在函数A的栈里面&#xff0c;所以可以轻松的返回多个值。 其他的编程语言大都使用某个寄存器来存储函数的返回值。 但是从golang…

使用亚马逊 Bedrock:Serverless LLM apps with Amazon Bedrock

Serverless LLM apps with Amazon Bedrock 本文是学习 https://www.deeplearning.ai/short-courses/serverless-llm-apps-amazon-bedrock/ 这门课的学习笔记。 What you’ll learn in this course In this course, you’ll learn how to deploy a large language model-based…

MySQL之多表查询—列子查询

一、引言 标量子查询上篇博客已学习。接下来这篇博客学习子查询的第二种形式——列子查询 列子查询 子查询返回的结果是一列&#xff08;当然也可以是多行)&#xff0c;这种子查询称为列子查询。 列子查询可以使用的操作符 IN、NOT IN 、ANY&#xff08;any&#xff09;、SOME…

在Ubuntu中进行PX4配置的过程中出现以下报错,且不能正常打开gazebo

&#x1f3c6;本文收录于「Bug调优」专栏&#xff0c;主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案&#xff0c;希望能够助你一臂之力&#xff0c;帮你早日登顶实现财富自由&#x1f680;&#xff1b;同时&#xff0c;欢迎大家关注&&收藏&&…

华为坤灵路由器配置SSH

配置SSH服务器的管理网口IP地址。 <HUAWEI> system-view [HUAWEI] sysname SSH Server [SSH Server] interface meth 0/0/0 [SSH Server-MEth0/0/0] ip address 10.248.103.194 255.255.255.0 [SSH Server-MEth0/0/0] quit 在SSH服务器端生成本地密钥对。 [SSH Server…

Sylar---协程调度模块

协程调度模块&#xff1a; 首先是协程任务类FiberAndThread,包括协程&#xff0c;函数&#xff0c;指定的线程&#xff1b;提供了五个构造函数&#xff0c;只传协程的智能指针&#xff0c;只传函数对象&#xff0c;传协程智能指针的指针&#xff0c;函数对象指针&#xff0c;还…

[AIGC] 请问这个 Trie 树的实现是否可以处理其他字符,而不仅限于小写英文字母?

我们的当前Trie树实现主要针对小写字母a-z&#xff0c;因为我们在TrieNode中初始化了一个长度为26的链接数组links&#xff0c;每个index对应a-z中的一个字母。 当然&#xff0c;我们可以对这个实现进行扩展&#xff0c;以处理包含更多类型字符的情况。例如&#xff0c;如果我…

山水有相逢 来日皆可期

毕业接踵而至&#xff0c;大家都在拍照记录留恋毕业的美好时光碎片。但由于最近实在“玩得太嗨”&#xff0c;无心拍毕业照。 默海笑&#xff0c;当然是需要用自己的方式来为这浑浑噩噩的大学生活画上句号。 我相信&#xff0c;毕业时的你我都会无比的感慨&#xff0c;为什么时…

手把手教你从入门到精通C# 操作MySql数据库

前言 我们在开发上位机软件的时候&#xff0c;经常需要将一些数据存储起来&#xff0c;然后这些数据需要提供历史数据查询功能&#xff0c;并且这些数据的数据量很大&#xff0c;这时候我们就需要使用数据库&#xff0c;在上位机开发领域有很多种数据库&#xff0c;sqlserver、…

完全免费、无广告且开源的格式转换工具

一、简介 1、一款完全免费、无广告且开源的格式转换工具&#xff0c;支持超过200种文件格式的转换。它能够处理视频、音频、图像、文档、电子书等多种类型的文件&#xff0c;功能非常强大。该软件由GitHub上的一位开发者发布&#xff0c;目的是为了让用户能够轻松地完成文件转换…

[AIGC] Java CompletableFuture详解

Java中的CompletableFuture用于异步编程&#xff0c;是Future接口的增强版。本篇文章我们将详细探讨Java中的CompletableFuture。 CompletableFuture介绍 CompletableFuture是java.util.concurrent包的一个类&#xff0c;该类实现了Future和CompletionStage接口。主要用于表示…

Java 18风暴来袭:解锁编程新纪元

一、引言 Java 18的发布标志着Java语言在性能、安全性和开发效率方面的又一次飞跃。本次更新不仅带来了新的语言特性&#xff0c;还包括了一些实验性功能和工具的改进。这些新特性旨在帮助开发者编写更高效、更安全的代码&#xff0c;并提升开发体验。 二、新特性概述 1. 默…

Docker面试整理-什么是多阶段构建?它的好处是什么?

多阶段构建是 Docker 在 Dockerfile 中引入的一个功能,允许你在单个 Dockerfile 中使用多个构建阶段,但最终只生成一个轻量级的镜像。这是通过在一个 Dockerfile 中定义多个 FROM 指令来实现的,每个 FROM 指令都可以使用不同的基础镜像,并开始一个新的构建阶段。 多阶段构建…

【Tools】了解 VPN 和 VPS:它们是什么,有何不同?

我已经从你的 全世界路过 像一颗流星 划过命运 的天空 很多话忍住了 不能说出口 珍藏在 我的心中 只留下一些回忆 &#x1f3b5; 牛奶咖啡《从你的全世界路过》 在当今的数字世界中&#xff0c;VPN&#xff08;虚拟专用网络&#xff09;和 VPS&#xff08…

【TensorFlow深度学习】强化学习中的贝尔曼方程及其应用

强化学习中的贝尔曼方程及其应用 强化学习中的贝尔曼方程及其应用&#xff1a;理解与实战演练贝尔曼方程简介应用场景代码实例&#xff1a;使用Python实现贝尔曼方程求解状态价值结语 强化学习中的贝尔曼方程及其应用&#xff1a;理解与实战演练 在强化学习这一复杂而迷人的领…