选择性遗忘可以帮助人工智能学得更好?

最近,一些计算机科学家创建了一种更灵活、更灵巧的机器学习模型。诀窍在于:它必须定期忘记它所知道的信息。虽然这种新方法不会取代支撑最大应用程序的庞大模型,但它能揭示这些程序如何理解语言的更多信息。

(PS:如果你还没体验过ChatGPT Plus或者不会升级,可以点击参考)

计算机科学家创建了一种更灵活、更灵巧的机器学习模型。诀窍在于:它必须定期忘记它所知道的信息。虽然这种新方法不会取代支撑最大应用程序的庞大模型,但它能揭示这些程序如何理解语言的更多信息。

韩国基础科学研究所的人工智能工程师Jea Kwon表示,新研究标志着该领域的“一个重大进步”。

如今使用的AI语言引擎大多由人工神经网络驱动。网络中的每个“神经元”都是一个数学函数,它从其他神经元接收信号,进行一些计算,然后通过多层神经元传递信号。最初,信息流动或多或少是随机的,但通过训练,随着网络适应训练数据,神经元之间的信息流动得到改善。如果一个AI研究员想要创建一个双语模型,例如,她会用两种语言的大量文本来训练模型,这将调整神经元之间的连接,以某种方式将一种语言中的文本与另一种语言中的等效词汇关联起来。

但这个训练过程需要大量的计算能力。如果模型工作得不是很好,或者如果用户的需求后来发生变化,很难对其进行调整。“假设你有一个包含100种语言的模型,但想象你想要的一种语言没有被覆盖,”新研究的共同作者兼AI创业公司Reka的创始人Mikel Artetxe说。“你可以从头开始,但这不是理想的选择。”

Artetxe和他的同事试图绕过这些限制。几年前,Artetxe和其他人训练了一个单语言的神经网络,然后抹去了它对单词构建块(称为令牌)的了解。这些存储在神经网络的第一层,即嵌入层中。他们保留了模型的所有其他层。在擦除了第一种语言的令牌后,他们重新训练模型以第二种语言,这使得嵌入层填充了该语言的新令牌。

尽管模型包含了不匹配的信息,重新训练还是成功了:模型能够学习并处理新语言。研究人员推测,虽然嵌入层存储了与语言中使用的单词具体相关的信息,但网络更深层次存储了有关人类语言背后概念的更抽象信息,这有助于模型学习第二种语言。

“我们生活在同一个世界。我们用不同的词汇概念化相同的事物,”最近论文的主要作者Yihong Chen说。“这就是为什么模型中有这种相同的高层次推理。苹果是某种甜美多汁的东西,而不仅仅是一个词。”

通过这种遗忘的方法是一个有效的方式来向已经训练好的模型添加新语言,但重新训练仍然要求很高——它需要大量的语言数据和处理能力。Chen建议进行一个调整:不是训练、擦除嵌入层然后重新训练,而应该在最初的训练轮次期间定期重置嵌入层。“通过这样做,整个模型变得习惯于重置,”Artetxe说。“这意味着当你想将模型扩展到另一种语言时,会更容易,因为这就是你一直在做的。”

研究人员采用了一种常用的语言模型叫做Roberta,使用他们的周期性遗忘技术对其进行训练,并将其性能与使用标准、非遗忘方法训练的相同模型进行了比较。遗忘模型的表现略低于常规模型,在一种常用的语言准确性度量上,前者得分为85.1,后者为86.1。然后他们使用只有500万令牌的更小数据集(而不是他们在第一次训练期间使用的700亿)重新训练模型。标准模型的准确性平均降至53.3,但遗忘模型仅降至62.7。

这种方法类似于我们自己的大脑如何工作。“一般来说,人类记忆不擅长准确存储大量详细信息。相反,人类倾向于记住我们经验的要点,抽象和推断,”旧金山大学的神经科学家Benjamin Levy说。“使AI具有更像人类的过程,如适应性遗忘,是一种让它们表现得更灵活的方式。”

除了它可能说明理解工作的方式之外,Artetxe希望更灵活的遗忘语言模型也能帮助将最新的AI突破带给更多语言。尽管AI模型擅长处理有大量训练材料的西班牙语和英语,但对他的母语巴斯克语,这是西班牙东北部的地方语言,就不那么擅长了。“大型科技公司的大多数模型做得不好,”他说。“将现有模型适应巴斯克语是一种方式。”

Chen也期待一个更多AI花朵绽放的世界。“我在想一个世界不需要一个大型语言模型。我们有这么多,”她说。“如果有一个制造语言模型的工厂,你需要这种技术。它有一个基础模型,可以快速适应新领域。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/739429.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

日常007:alias给长命令起个简短的别名

alias 命令可以给那些太长的命令起一个简短的别名。便于记忆,提高输入效率。 用法和示例 1. 创建别名 创建别名,使用语法alias new_commandoriginal_command,例如 alias llls -lF使用别名 $ ll total 32 -rw-r--r-- 1 soulio soulio 1…

【动态规划】代码随想录算法训练营第四十六天 |139.单词拆分,关于多重背包,你该了解这些! ,背包问题总结篇!(待补充)

139.单词拆分 1、题目链接:. - 力扣(LeetCode) 2、文章讲解:代码随想录 3、题目: 给定一个非空字符串 s 和一个包含非空单词的列表 wordDict,判定 s 是否可以被空格拆分为一个或多个在字典中出现的单词…

【Docker】Node 容器部署及配置参数

Node.js环境标准软件基于Bitnami node 构建。当前版本为20.11.1 你可以通过轻云UC部署工具直接安装部署,也可以手动按如下文档操作,该项目已经全面开源,可以从如下环境获取 配置文件地址: https://gitee.com/qingplus/qingcloud-platform Q…

解决报错The following packages have unmet dependencies

一、问题描述 终端输入: nvcc -V 提示: Command nvcc not found, but can be installed with:sudo apt install nvidia-cuda-toolkit按照提示安装,终端输入 sudo apt install nvidia-cuda-toolkit,报错内容如下: …

3分钟彻底搞懂Web UI自动化测试之【POM设计模式】

为什么要用POM设计模式 前期,我们学会了使用PythonSelenium编写Web UI自动化测试线性脚本 线性脚本(以快递100网站登录举例): import time from selenium import webdriver from selenium.webdriver.common.by import By dri…

Python SSH协议库之paramiko使用详解

概要 在网络编程中,远程操作是一项非常常见的需求,特别是在服务器管理和自动化任务执行方面。Python提供了许多库来实现远程操作,其中Paramiko是一个备受欢迎的选择。Paramiko是一个纯Python编写的SSH协议库,它提供了一种简单而强大的方式来执行远程命令、上传和下载文件等…

YUNBEE云贝-热烈祝贺Guo同学成功通过Oracle 19c OCP认证考试!

恭喜Guo同学在 #Oracle19c OCP 考试中取得了OCP证书!该认证是Oracle公司的权威技术标准,适用于有资格为Oracle核心产品提供服务和支持的专业人员。尽管OCP认证考题随着版本变化,并且是全英文考试,对中文习惯的人来说有一定的难度&…

怎样将PPT转成文本格式?PPT文本一键生成文本格式 工作经验分享

在日常工作和学习中,我们经常需要将PPT文件转换为文本格式,以便更好地进行编辑、搜索和分享。下面,我将介绍2种常见的PPT转文本格式的方法,帮助大家轻松实现这一需求。 方法一、使用汇帮PDF转换器软件里的“PPT文件操作”菜单进行…

Git的一些基础命令

使用Git主要涉及以下几个基本步骤和概念。 1. 安装Git 首先,你需要在你的计算机上安装Git。可以从Git的官方网站下载安装程序。 2. 配置Git 安装Git后,需要配置用户信息(用户名和电子邮件地址),因为Git的每次提交都会…

我们做的小工具,爆了!

好消息,好消息,江南皮革。。 开个玩笑,大家好,我是程序员鱼皮。 前段时间我在公众号发文宣传了团队新开发的小工具《代码小抄》,这是一个简单易用的代码分享工具,可以快速、跨设备地自由分享代码。 网址&…

K8S Pod

基本概念 Pod是K8S中非常重要的概念之一,是整个K8S架构的基础和核心。Pod是K8S调度的最小单位,是一个不可拆分的独立个体,K8S将多个业务上相关联的容器(Docker容器)合并到一起,组合成一个Pod,这…

使用Office的小伙伴一定要把这个打开!关键时候能保命

使用电脑办公的小伙伴一定离不开Office。很多小伙伴在使用Office的时候,基本上都是双击打开对应的软件(Word/Excel/Powerpoint)就直接使用。 这种直接打开之后就使用的习惯很不值得提倡。除非你要记录的东西是一分钟就能完成的。 小白在企业上…

php 上传文件报错The file failed to upload

描述:环境lnmp 框架laravel 上传接口调用报错The file failed to upload 一、终端搜索php.ini文件位置 [root90f8687c2388 /]# whereis php.ini php: /usr/bin/php /usr/local/php二、修改文件php.ini配置文件upload_max_filesize项 ; Maximum allowed size for …

在四维轻云中,能够上传哪些地理空间数据?

四维轻云是一款地理空间数据在线管理平台,支持各类地理空间数据的在线管理、浏览及分享,用户可不受时间地点限制,随时随地上传、管理、查看及分享各类地理空间数据。平台具有项目管理、场景搭建、素材库等功能模块,支持在线协作管…

《JAVA与模式》之合成模式

系列文章目录 文章目录 系列文章目录前言一、合成模式二、安全式合成模式的结构三、透明式合成模式的结构四、两种实现方法的选择前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享…

DNS欺骗攻击技术详解及实战代码解析

简介 ARP(Address Resolution Protocol)欺骗和DNS(Domain Name System)欺骗是两种常见的网络攻击手段。本文将通过一段Python代码,详细解析如何利用Scapy库实现ARP欺骗与DNS欺骗,并进行实际操作。 实现原…

有哪些知识管理软件适合中小型企业,高管必看!

在经济加速发展的今天,企业对信息和知识的管理需求越来越高,于是,各类知识管理软件应运而生。对于中小型企业来说,选择一款高效、省时、方便的知识管理软件尤其重要。下面,我为大家推荐三款知识管理软件,适…

力扣L6--- 两数之和(java版)--2024年3月12日

1.题目 2.知识点 注1:在Java中,数组的长度不是通过调用一个方法获得的,而是通过一个属性直接获得的。因此,正确的语法是nums.length而不是nums.length()。 所以应该使用int m nums.length; 注2:return new int[]{i,…

计算机视觉2024年趋势简报

计算机视觉2024年趋势简报: **增强现实(AR)整合:**随着Apple和Meta等巨头推出消费级AR设备,预计计算机视觉将在日常应用中更为普及,如在制造、零售和教育领域提供沉浸式体验及操作支持。 **机器人-视觉语言…

【数据库】索引 视图 触发器 分页查询

目录 1、索引 2、视图 3、触发器 4、分页查询⚠️ 1、索引 提升查询效率、当数据量小的时候,索引看不出来效果,当数据量很大的时候,索引会显著提高查询速度 当给表添加索引之后,新插入一条数据,就会让索引进行重新…