Week 4-杨帆-学习总结

目录

    • 28 批量归一化
      • 批量规范化的背景和必要性
      • 批量规范化的实现
      • 理论探讨与争议
      • 遇到的问题&解决办法
    • 29 残差网络 ResNet
      • 残差网络(ResNet)的核心概念
      • 函数类与嵌套函数类
      • 残差块(Residual Blocks)的结构与功能
      • 深度学习框架的应用
      • 模型训练与超参数调整
      • 遇到的问题&解决办法
    • 29.2 ResNet为什么能训练出1000层的模型
      • ResNet的原理
      • 梯度消失问题及其解决方法
      • 残差连接的作用
      • 遇到的问题&解决办法
    • 30 第二部分完结竞赛:图片分类
      • 图片分类的概念
      • 数据预处理
      • 常用模型
      • 模型训练与优化
      • 评估指标
      • 遇到的问题&解决办法
    • 31 深度学习硬件:CPU 和 GPU
      • 计算机的组成
      • 程序执行的原理
      • 内存与存储器的特性
      • 中央处理器(CPU)
      • 图形处理器(GPU)
      • 遇到的问题&解决办法
    • 32 深度学习硬件:TPU和其他
      • **DSP(数字信号处理器)的特点与挑战**
      • **FPGA(现场可编程门阵列)的特点与应用**
      • **ASIC(专用集成电路)的特点与应用**
      • 遇到的问题&解决办法
    • 33 单机多卡并行
      • 单机多卡并行的概念
    • 34 多GPU训练实现
      • **多GPU训练的背景与必要性**
      • **问题拆分**
      • **数据并行性**
      • **实际应用与性能**
      • **批量大小与学习率调整**
      • 遇到的问题与解决办法
    • 35 分布式训练
      • 分布式训练的概念
      • 分布式训练的优势
      • 分布式训练的类型
      • 常见框架与工具
      • 性能优化
      • 遇到的问题&解决办法
    • 06 大模型情感认知与教育中提问能力的测评
      • 语言模型的共情认知
      • 语言模型的幽默认知
      • 语言模型的情商评测
      • 语言模型的教育中提问能力的评测
      • 灵感来源
      • 方法
        • 数据集构建
        • 共情网络
        • 数据集统计
        • 实验方法
      • 实验结果
        • 语言模型的共情能力评测
        • 语言模型的幽默理解
        • 教育中的提问能力评测
      • 案例分析
        • 优秀的共情响应示例
        • 幽默理解与生成
    • 07 基于人格测试评估角色扮演AI的个性还原
      • 背景与概述
      • 应用场景
      • 现有研究
      • 评估方法
      • 实验结果
      • 遇到的问题&解决办法

28 批量归一化

批量规范化的背景和必要性

  • 批量规范化通过调整中间层的输出,使其均值为0、方差为1,从而加速模型的收敛速度。
  • 批量规范化不仅在训练过程中对小批量进行标准化,还通过引入拉伸和偏移参数进一步调整标准化后的输出。
  • 这种方法有助于稳定训练过程,减少梯度消失或爆炸的现象,并提高模型的泛化能力。

批量规范化的实现

  • 在全连接层和卷积层中,批量规范化的实现方式略有不同。在全连接层中,批量规范化在仿射变换和激活函数之间进行;而在卷积层中,批量规范化在每个输出通道上分别进行。
  • 批量规范化在训练模式和预测模式下的行为不同。在训练模式下,使用当前小批量的均值和方差;在预测模式下,使用整个数据集的均值和方差。

理论探讨与争议

  • 批量规范化的原理解释涉及到减少内部协变量偏移,但这一解释存在争议。
  • 尽管批量规范化的原理解释存在争议,其实际效果却得到了广泛验证和应用。

遇到的问题&解决办法

问题:在实现批量规范化层时,如何区分训练模式和预测模式。
解决办法:通过使用PyTorch的is_grad_enabled函数来判断当前模式,如果在预测模式下,直接使用移动平均得到的均值和方差;在训练模式下,使用当前小批量的均值和方差。

问题:如何在不同层中正确应用批量规范化。
解决办法:在全连接层中,批量规范化层应置于仿射变换和激活函数之间;在卷积层中,批量规范化层应对每个输出通道分别进行规范化。

问题:在实现批量规范化时,如何处理不同输入形状的情况。
解决办法:通过在自定义类中初始化不同形状的拉伸和偏移参数,根据输入的维度(2D或4D)动态调整参数形状。

问题:在实际应用中,如何选择合适的小批量大小。
解决办法:通过实验和验证,确定在批量规范化过程中,合适的小批量大小可以保证训练的稳定性和效率。通常,批量大小的选择比没有批量规范化时更为重要,需要根据具体任务进行调整。

29 残差网络 ResNet

残差网络(ResNet)的核心概念

  • 理解了残差网络解决深度学习中“梯度消失”问题的基本思想,即使网络层数增加时,通过残差学习可以保持网络性能不降低。

函数类与嵌套函数类

  • 学习了函数类在神经网络架构中的重要性,特别是嵌套函数类如何帮助设计更加强大的网络架构,以及它们在提升网络性能中的作用。

残差块(Residual Blocks)的结构与功能

  • 掌握了残差块的基本构成,包括卷积层、批量规范化层和激活函数的堆叠,以及如何通过残差连接提高深层网络的训练效率。

深度学习框架的应用

  • 了解了如何使用不同的深度学习框架(MXNet、PyTorch、TensorFlow、Paddle)来实现ResNet模型,体验了各框架的特点和API的使用。

模型训练与超参数调整

  • 学习了在训练过程中如何监控和调整超参数,例如学习率、批量大小等,以优化模型的训练效果和提高模型的泛化能力。

遇到的问题&解决办法

理解难度:ResNet的设计理念和数学原理在一开始来说比较抽象,不易理解。
解决办法:通过阅读多篇相关论文和教程,以及观看一些深度学习专家的讲解视频,逐步加深了对ResNet的理解。

代码实现:在尝试用不同框架实现ResNet时,遇到了一些编程上的困难,比如API的调用和参数的设置。
解决办法:查阅了官方文档和社区论坛,通过实例代码和讨论来掌握不同框架的使用方法。

29.2 ResNet为什么能训练出1000层的模型

本周的学习重点是深入理解ResNet(残差网络)的原理及其在解决深层神经网络训练中的梯度消失问题中的应用。以下是具体的学习内容:

ResNet的原理

  • ResNet通过引入残差连接(Residual Connection),成功地训练出了1000层的深层神经网络。
  • 传统深层神经网络在训练过程中容易遇到梯度消失的问题,这使得网络层数越多,模型的表现反而会变差。

梯度消失问题及其解决方法

  • 梯度消失问题:在反向传播过程中,梯度值在逐层传递时会逐渐减小,导致靠近输入层的权重更新速度极慢,甚至无法有效更新。
  • 解决方法:ResNet通过残差连接,将输入直接传递到后面的层,转化为加法运算,从而避免了梯度消失问题。

残差连接的作用

  • 残差连接将输入直接传递给后面的层,使得梯度可以更快地从输出层传递到输入层。
  • 在梯度计算过程中,由于残差连接的加法特性,确保了即使某一层的梯度很小,梯度传递的效果仍然能够保持,使得靠近输入层的权重也能获得足够的梯度进行有效更新。

遇到的问题&解决办法

问题:理解残差连接的数学意义

  • 在理解残差连接如何具体影响梯度计算时,数学公式较为复杂。
  • 解决办法:通过学习残差连接的加法特性,明确它能够在梯度传递过程中提供额外的梯度路径,确保梯度不会因为层数增加而迅速减小。

问题:如何直观理解梯度消失问题

  • 梯度消失问题的本质在于反向传播过程中梯度的逐层递减,但直观理解这一点有些困难。
  • 解决办法:通过模拟简单的神经网络训练过程,观察梯度值的变化,以及通过学习资料中对梯度大小变化的详细解释,增强了对梯度消失问题的理解。

问题:ResNet模型的训练难点

  • 虽然残差连接能缓解梯度消失问题,但训练深层ResNet仍然具有挑战性,特别是在优化和参数调整方面。
  • 解决办法:通过查阅相关文献和学习资料,了解ResNet模型的最佳实践和常用技巧,如合适的学习率调整方法、正则化技巧等,来提高训练效果。

30 第二部分完结竞赛:图片分类

图片分类的概念

了解了图片分类的基本概念,即通过深度学习模型将图片分为不同的类别。这在图像识别、自动驾驶等领域有广泛应用。

数据预处理

学习了在图片分类任务中,数据预处理的重要性。包括图像的缩放、归一化、数据增强等技术,以提升模型的泛化能力。

常用模型

了解了几种常用的图片分类模型,如卷积神经网络(CNN)、残差网络(ResNet)、Inception等。这些模型在处理图片分类任务时表现出色。

模型训练与优化

学习了如何选择合适的损失函数、优化器等参数,进行模型训练。同时,了解了过拟合和欠拟合问题,以及使用正则化、早停等方法进行优化。

评估指标

掌握了图片分类任务中的常用评估指标,如准确率、精确率、召回率、F1分数等。这些指标用于衡量模型在测试数据上的表现。

遇到的问题&解决办法

数据不平衡

  • 描述:在图片分类任务中,某些类别的数据量远多于其他类别,导致模型偏向数据量多的类别。
  • 解决办法:使用数据增强技术增加数据量少的类别,或使用加权损失函数,给予数据量少的类别更大的权重。

问题2:过拟合

  • 描述:模型在训练数据上表现很好,但在测试数据上表现不佳,说明模型过拟合。
  • 解决办法:使用数据增强、正则化、dropout等技术来防止过拟合。同时,可以通过交叉验证选择最佳的模型参数。

问题3:模型训练时间长

  • 描述:在大规模数据集上训练深度学习模型,时间较长。
  • 解决办法:使用预训练模型进行微调,可以显著减少训练时间。此外,使用多GPU或分布式训练方法,也可以加快训练速度。

31 深度学习硬件:CPU 和 GPU

计算机的组成

  • CPU(处理器):主要负责执行程序,包括运行操作系统和其他多种功能,通常由8个或更多核心组成。
  • 内存(RAM):用于存储和检索计算结果,如权重向量和激活参数,以及训练数据。
  • 以太网:用于数据传输,速度从1 GB/s到100 GB/s不等。
  • 高速扩展总线(PCIe):用于连接一个或多个GPU,提升计算能力。服务器通常有多达8个加速卡,而桌面系统根据用户预算和电源负载通常有1到2个加速卡。
  • 持久性存储设备:如磁盘驱动器、固态驱动器,用于存储系统需要的训练数据和中间检查点。

程序执行的原理

  • 运行代码时需要将数据转移到处理器(GPU或CPU)上进行计算,然后将结果转移回随机访问存储和持久访问存储器中。

内存与存储器的特性

  • 内存:用于存储需要随时访问的数据,内存访问的效率直接影响计算速度。尽量避免随机内存访问,使用突发模式读取和写入可以提升效率。
  • 存储器:包括硬盘驱动器(HDD)和固态驱动器(SSD),分别有不同的优缺点。HDD相对便宜但读取延迟较高,而SSD速度更快但成本较高且有磨损问题。

中央处理器(CPU)

  • 主要由处理器核心、总线、缓存和向量处理单元组成。高效的程序执行需要优化内存访问,尽量将数据保持在CPU缓存中以提高速度。

图形处理器(GPU)

  • 拥有更多的处理单元和更高的内存带宽,适合大规模并行计算任务。在使用GPU进行高性能计算时,应注意并行处理、内存本地性和少用控制语句。

遇到的问题&解决办法

问题:内存访问效率低

  • 在计算过程中,频繁的内存访问导致效率低下。
  • 解决办法:通过提升时间和空间的内存本地性,尽量将数据保持在缓存中,以提高内存访问的效率。例如,优化数据结构的排列方式,确保按序读写数据。

问题:数据传输带宽限制

  • CPU和GPU之间的数据传输带宽有限,影响了整体计算效率。
  • 解决办法:尽量减少在CPU和GPU之间频繁传输数据,在GPU上进行计算时尽量批量传输数据,以减少带宽限制带来的影响。

问题:硬盘驱动器读取延迟高

  • 硬盘驱动器的读取延迟较高,影响数据读取速度。
  • 解决办法:对于需要频繁读取的数据,可以考虑使用固态驱动器(SSD)替代硬盘驱动器(HDD),以提高数据读取速度。同时,通过优化数据存储方式,减少随机读取操作。

问题:GPU利用率不高

  • 在使用GPU进行计算时,未能充分利用GPU的并行计算能力。
  • 解决办法:通过并行处理技术,使用数千个线程来充分利用GPU的计算能力。同时,优化内存本地性,确保数据尽可能地保持在GPU的高速内存中,减少数据传输的瓶颈。

32 深度学习硬件:TPU和其他

DSP(数字信号处理器)的特点与挑战

  • 特点

    • DSP通常具有较低的功耗和较高的计算效率,采用了VLIW(Very Long Instruction Word)技术使得一条指令可以同时执行多个计算任务,例如乘累加操作。
    • 设计时可以优化特定的算法,如滤波器和傅里叶变换,以满足高效的数字信号处理需求。
  • 挑战

    • 编程与调试困难:DSP的开发需要较高的专业技能,工具链和编译器的质量相对较差,导致编程和调试过程复杂。
    • 编译器质量低:由于DSP的专用性,编译器的优化能力可能不如CPU和GPU的编译器,影响开发效率。

FPGA(现场可编程门阵列)的特点与应用

  • 特点

    • FPGA内部包含大量可编程的逻辑单元,可以根据需求设计和修改硬件结构。这种灵活性允许在FPGA上实现多种不同的硬件功能。
    • 相较于传统硬件设计,FPGA可以在硬件层面进行修改,允许开发者在设计完成后进行优化和调整。
  • 挑战

    • 工具链和编译问题:FPGA的编程语言较为复杂,工具链不如其他硬件平台成熟,编译过程涉及到物理层面的改动,通常需要较长时间。
    • 调试困难:FPGA的调试过程复杂,编译和调试周期长,可能需要几天的时间来完成,影响开发效率。

ASIC(专用集成电路)的特点与应用

  • 特点

    • ASIC是为特定应用设计的集成电路,相比通用硬件提供了更高的性能和效率。TPU(Tensor Processing Unit)是ASIC的一种,专门为深度学习任务设计,具备高效的计算能力。
    • ASIC设计过程中使用CPLD和FPGA作为中间步骤来进行设计和模拟,以验证设计的有效性。
  • 应用实例

    • Google TPU:TPU是Google为机器学习任务开发的ASIC,具备较高的每瓦计算能力,用于加速深度学习模型的训练和推理。

遇到的问题&解决办法

问题:DSP编程与调试困难

  • 原因:DSP编程语言和工具链较为复杂,编译器的质量较低,导致编程和调试过程难度大。
  • 解决办法:寻找更专业的DSP开发工具和环境,借助社区资源和经验丰富的工程师来克服编程与调试的难题。同时,提升对DSP编程的学习和实践,积累经验。

问题:FPGA的编译时间长

  • 原因:FPGA的编译涉及物理层面的改动,编译周期长,调试过程复杂。
  • 解决办法:尽量优化设计流程,减少设计中的错误和迭代次数。利用FPGA仿真工具进行初步验证,减少实际编译和调试的时间。

问题:FPGA的工具链和编译器质量低

  • 原因:FPGA的工具链和编译器相对较为基础,功能和优化能力不如CPU和GPU。
  • 解决办法:关注FPGA工具链的最新发展,尝试使用更新的工具和技术。同时,利用社区资源进行工具和编译器的优化建议和反馈。

问题:ASIC设计周期长且成本高

  • 原因:ASIC的设计和生产周期长,成本高,适用于大规模生产场景。
  • 解决办法:在设计前进行充分的需求分析和市场调研,确保设计的经济性和可行性。考虑在FPGA上进行初步的原型验证,降低风险和成本。

问题:难以优化Systolic Array的编译器

  • 原因:Systolic Array的编译器优化难度大,算法复杂。
  • 解决办法:研究已有的Systolic Array优化方案,结合具体应用场景进行设计和调整,逐步优化编译器策略。

33 单机多卡并行

单机多卡并行的概念

了解了单机多卡并行的基本概念,即在一台机器上使用多块GPU同时进行深度学习模型的训练。通过并行计算,能够加速训练过程,提高计算效率。

34 多GPU训练实现

多GPU训练的背景与必要性

多GPU训练是为了解决在单一GPU上训练大型深度学习模型时遇到的计算和内存瓶颈问题。通过使用多个GPU,可以加速训练过程,提高模型的性能。

问题拆分

多GPU训练可以通过以下三种主要方式进行拆分:

  • 网络拆分:将整个网络分割到多个GPU上,每个GPU负责处理网络的不同层。这种方法面临计算负载不均衡和高数据传输成本的问题。
  • 层内拆分:在同一层内进行拆分,例如将一个卷积层的通道分配给不同的GPU。这种方法会引入复杂的同步操作,数据传输量大,通常不推荐。
  • 数据拆分:将数据划分为小批量并在多个GPU上并行处理,每个GPU使用相同的模型参数进行计算。这是最简单且广泛使用的方法,通过在每个GPU上计算梯度并在所有GPU间同步来提高训练效率。

数据并行性

数据并行是最常用的多GPU训练方式。每个GPU计算模型的前向传播和反向传播,并将梯度汇总到所有GPU上。主要步骤包括:

  • 将小批量数据均匀地分配到多个GPU上。
  • 每个GPU计算自己的梯度。
  • 将所有GPU的梯度聚合并广播到每个GPU上。
  • 每个GPU使用更新后的梯度更新模型参数。

数据并行的优势在于它可以简单地扩展到多个GPU,适用于各种模型和数据集,并且训练过程中可以有效地利用每个GPU的计算资源。

实际应用与性能

通过在单GPU和多GPU环境下对简单网络(如LeNet)的训练进行对比,看到在小型模型和数据集上,性能提升并不显著。这是因为Python的开销和模型的规模限制了多GPU训练的效果。对于更复杂的模型和数据集,多GPU训练的优势会更加明显。

批量大小与学习率调整

在多GPU训练中,批量大小通常需要增加到GPU数量的倍数,以确保每个GPU的工作量均衡。为了保持训练效果,学习率也需要进行适当的调整。

遇到的问题与解决办法

如何选择适合的并行训练策略?

  • 问题:不同的多GPU训练方法各有优缺点,选择合适的策略可能会影响训练效果。
  • 解决办法:一般情况下,数据并行是最简单且最有效的方法,适用于大多数场景。如果数据并行不适用,可以根据实际需求考虑网络拆分或层内拆分的方法。

如何处理数据和模型的同步问题?

  • 问题:在多GPU训练中,如何高效地同步数据和模型参数是一个关键问题。
  • 解决办法:使用allreduce操作来聚合梯度,并通过分发和复制模型参数来保持所有GPU上的参数一致。这些操作需要在训练过程中正确地实现和优化。

在小型模型上多GPU训练效果不佳,如何应对?

  • 问题:在较小的模型和数据集上,多GPU训练可能因为开销大于性能提升而效果不明显。
  • 解决办法:可以使用更复杂的模型和更大的数据集来充分发挥多GPU训练的优势。未来需要根据实际场景选择合适的模型和数据集来优化训练性能。

如何调整批量大小和学习率?

  • 问题:在多GPU训练中,批量大小和学习率需要进行调整以保证训练效果。
  • 解决办法:通常情况下,批量大小应该是GPU数量的倍数,并且需要适当提高学习率来保持训练的稳定性和效率。

35 分布式训练

分布式训练的概念

分布式训练是指将深度学习模型的训练任务分配到多个计算节点上,利用多台机器的计算能力,提高训练效率和模型性能。

分布式训练的优势

分布式训练可以显著缩短训练时间,适用于大规模数据集和复杂模型。通过分布式计算,可以充分利用集群资源,提升模型的训练速度和效果。

分布式训练的类型

  • 数据并行:将训练数据分割成若干小块,分配到不同的计算节点上进行独立计算,然后汇总结果。
  • 模型并行:将模型分割成若干部分,分配到不同的计算节点上进行计算,这种方法适用于超大规模模型。
  • 混合并行:结合数据并行和模型并行的优势,进一步优化训练过程。

常见框架与工具

了解了常用的分布式训练框架与工具,包括TensorFlow、PyTorch等。每个框架都有其特有的分布式训练方法和优化策略。

性能优化

学习了如何通过调整批量大小、使用混合精度训练等方法,进一步优化分布式训练的性能。

遇到的问题&解决办法

分布式训练中的数据同步问题

  • 描述:在分布式训练过程中,各个计算节点需要定期同步参数和梯度,以确保训练结果的一致性。这可能导致通信开销大,影响训练效率。
  • 解决办法:使用高效的通信策略,如梯度压缩、异步更新等,减少同步的频率和数据量,从而降低通信开销。

负载均衡问题

  • 描述:在分布式训练中,可能存在计算节点负载不均衡的问题,某些节点可能因为数据或计算任务过多而成为瓶颈。
  • 解决办法:通过合理的数据划分和任务调度策略,确保每个计算节点的负载均衡,避免某个节点成为瓶颈。

调试和监控难度大

  • 描述:分布式训练系统复杂,调试和监控难度较大,难以迅速定位和解决问题。
  • 解决办法:使用专业的调试和监控工具,如分布式日志系统、性能监控系统等,实时跟踪和分析训练过程中的问题,及时进行优化和调整。

06 大模型情感认知与教育中提问能力的测评

语言模型的共情认知

  • 语言模型能够理解并表现出共情的能力对于人机交互有重要意义。
  • 高语境文化(如中文)中的共情表达与低语境文化中的表现方式存在显著差异。

语言模型的幽默认知

  • 研究语言模型是否具备理解和生成幽默内容的能力。
  • 不同类型的幽默(如谐音梗、矛盾幽默等)对模型的挑战和表现差异。

语言模型的情商评测

  • 通过具体的情境测试语言模型的情商水平,包括情感理解和适当回应的能力。
  • 利用创新的评测方法如情感分类、情感强度分类等。

语言模型的教育中提问能力的评测

  • 语言模型在教育环境中如何生成有效的提问以促进学习。
  • 提问的复杂度、相关性和启发性作为评测标准。

灵感来源

  • 文化差异对共情表达的影响。高语境文化中的简单直接与低语境文化中的详细表达对比。
  • 对话中的共情表现与参与者的角色和个性紧密相关。

方法

数据集构建
  • 构建了一个全面的中文共情对话数据集(EmD),涵盖了情感、角色和个性等方面。
共情网络
  • 提出了一个创新的共情网络(EmN),旨在提高语言模型的共情能力。
数据集统计
  • 数据集中包括多个子数据集,每个子数据集涵盖了不同的情感和角色对话。
实验方法
  • 对模型在高语境文化中的表现进行了实验和分析。

实验结果

语言模型的共情能力评测
  • 实验结果表明,提出的方法能够显著增强语言模型在高语境文化中的共情能力。
  • 在情感分类和对话理解等任务中也取得了有价值的效果。
语言模型的幽默理解
  • 构建了幽默评估框架,涵盖幽默识别、幽默类型分类、幽默程度分类和笑点检测等任务。
  • 微调和知识增强后的模型在幽默理解和生成方面有显著提升。
教育中的提问能力评测
  • 评估语言模型在教育场景中提问的有效性,包括问题的深度和启发性。
  • 结果显示,经过特定训练的模型能够生成更具启发性和相关性的提问。

案例分析

优秀的共情响应示例
  • 共情场景:
    • 用户表达担忧,模型给出鼓励和建议,表现出理解和支持。
    • 用户表达开心情绪,模型回应积极,增强用户的好心情。
幽默理解与生成
  • 幽默生成示例:
    • 用户提问如何成为文艺程序员,模型通过幽默的方式回答“穿女装”。
    • 复杂的幽默链条和思维导图帮助模型生成更贴近人类的幽默回复。

07 基于人格测试评估角色扮演AI的个性还原

背景与概述

  • 角色扮演代理(RPAs)是基于大型语言模型(LLM)的对话代理,可以模拟虚构人物或名人的个性。
  • 这些RPAs的关键能力包括指令遵循、上下文学习、检索以及展现人类般的行为。

应用场景

  • 角色扮演聊天机器人:模拟虚构角色或名人。
  • 数字复制品:模拟现实世界中的人物。
  • 游戏中的人工智能NPC(非玩家角色)。

现有研究

  • RPA评估:包括对话能力(如角色评估)、角色扮演能力(如零样本角色扮演)和安全性等维度的评估。
  • 心理测量学在LLMs中的应用:通过心理学理论和问卷调查(如大五人格理论和MBTI)评估LLMs的性格特质。

评估方法

  • 本文提出了通过性格评估来验证RPAs是否能真实再现相应角色的个性。
  • 采用开放式问题进行采访,然后根据RPAs的回答进行性格评估,而非传统的封闭式问卷。

实验结果

  • 对32个基于ChatHaruhi的角色扮演聊天机器人进行了评估,结果显示这些机器人展现出多样且一致的人格特质。
  • 在“神经质”维度上,主干LLMs对结果有显著影响,而其他维度则不明显。
  • 实验表明,GPT-4评估器的最佳结果达到82.76%的准确率。

遇到的问题&解决办法

问题:理解开放式问卷的设计与实施

  • 解决办法:通过研究传统心理测量学问卷如NEO-FFI和16Personality的设计,理解如何将陈述句转换为问题句。同时,分析角色扮演聊天机器人在不同情境下的回答,确保问题能够有效触发目标个性特征。

问题:如何确保实验结果的准确性和一致性

  • 解决办法:使用多种评估方法(如单一维度和全维度评估),并与人类评估结果进行对比,确保结果的一致性。同时,利用高质量的地面真相标注数据(主要来自粉丝网站)提高评估准确性。

问题:角色扮演代理在回答过程中可能拒绝参与评估

  • 解决办法:设计引导性问题,使得角色扮演代理更容易进入角色并回答问题。此外,使用多个LLMs和评估器(如GPT-4)以提高评估的覆盖面和可靠性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/863640.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【学习笔记】Redis学习笔记——第2章:简单动态字符串

第2章:简单动态字符串 Redis用作键值对或AOF缓冲区的字符串为SDS(简单动态字符串),而不是C语言传统字符串(只用作打印log等不会修改字符串值的地方)。 2.1 SDS的定义 {//SDS字符串长度(buf数组中已使用的空间)int len;//buf数组…

【Vue】Vue3基础

VUE3基础 1、简介2、创建工程2.1 基于vue-cli创建(脚手架webpack)2.2 基于vite创建(推荐)2.3 目录结构2.4 vscode插件推荐 3、核心语法3.1 选项式(options API)和组合式(composition API&#x…

Arduino - LED 矩阵

Arduino - LED 矩阵 Arduino - LED Matrix LED matrix display, also known as LED display, or dot matrix display, are wide-used. In this tutorial, we are going to learn: LED矩阵显示器,也称为LED显示器,或点阵显示器,应用广泛。在…

scatterlist的相关概念与实例分析

概念 scatterlist scatterlist用来描述一块内存,sg_table一般用于将物理不同大小的物理内存链接起来,一次性送给DMA控制器搬运 struct scatterlist {unsigned long page_link; //指示该内存块所在的页面unsigned int offset; //指示该内存块在页面中的…

纯硬件FOC驱动BLDC

1. 硬件FOC 图 1 为采用 FOC 的方式控制 BLDC 电机的过程,经由 FOC 变换( Clark 与 Park 变换) ,将三相电流转换为空间平 行电流 ID 与空间垂直电流 IQ。经过 FOC 逆变化逆( Clark 变换与逆 Park 变换) ,将两相电流转换为三相电流用于控 制电…

喜茶新品被迫更名,内容营销专家刘鑫炜谈品牌定位敏锐度和适应性

喜茶,作为茶饮界的知名品牌,一直以其独特的创意和优质的产品受到消费者的喜爱。然而,近期喜茶推出的一款新品“小奶栀”却因其名称发音问题引发了不小的争议。 事件回顾 “小奶栀”这款新品在上市之初,以其独特的口感和创新的命名…

【算法——快慢指针链表】

【如何判断单链表是否有环?链表中"快慢指针"的妙用】 判断环 快慢指针一开始都在开头,快指针2/s,慢指针1/s;如果链表有环,那么二者一定相遇 那么快慢指针的移动步数固定了吗? 链表中心结点 8…

气膜结构的年度维护费用解析—轻空间

气膜结构作为一种新型建筑形式,广泛应用于体育场馆、仓储、展览馆等场所。由于其独特的结构特点,气膜建筑的维护工作显得尤为重要。轻空间将详细探讨气膜结构的年度维护费用构成及影响因素,帮助大家全面了解气膜建筑的运营成本。 气膜结构年度…

android studio 添加aar包

按着以前旧的导包方式栽了大跟头,后面在留老板的的博客下找到了解决办法,记录一下。 Andriod Studio 导入aar最新的方式_gradle 8 引入arr-CSDN博客 最新导包方式 1.在新建libs目录,在app/libs目录下导入aar包(其实就是拷贝过去…

揭秘品牌推广的制胜之道:步骤、流程、方法与技巧全攻略!

品牌推广是现代营销战略中的核心环节,对于提升品牌知名度、塑造品牌形象以及扩大市场份额具有举足轻重的作用。 作为一名手工酸奶品牌的创始人,目前全国复制了100多家门店,我来为大家分享品牌推广的制胜之道,包括具体步骤、流程、…

Linux系统启动柜过程

linux系统启动过程 启动过程可以分为6步:POST–>BIOS–>MBR(GRUB)–>Kernel–>Init–>Runlevel。POST为Power On Self test,MBR(GRUB)其实也可以分开来讲,MBR的作用是去引导记录,为GRUB做准备。 各过程解析 POS…

释放WebKit潜能:硬件加速的秘诀与实战

释放WebKit潜能:硬件加速的秘诀与实战 在当今快速发展的Web开发领域,性能优化已成为开发者们关注的焦点。WebKit作为众多流行浏览器的内核,其渲染性能直接影响到用户的浏览体验。本文将深入探讨如何通过硬件加速来释放WebKit的潜能&#xff…

面试题之一

路由的两种模式:hash模式和 history模式。 两种的区别、如何实现。 hash模式中#的作用 vue性能优化。具体如何实现(回答了一个可以函数引入的方法引入路由。问) keep-alive 说一下EventBus CSS: flex布局 css新特性 盒子模型 J…

STM32的EXTI简介

一,EXTI(External Interrupt)外部中断事件控制器 什么是EXTI? 1.监测指定的GPIO口的电平信号变化,并检测到指定条件时,向内核的中断控制器NVIC发出中断申请。NVIC在裁决后,如果满足条件&#xf…

pytest-自动执行固件

目前为止,所有固件的使用都是手动指定,或者作为参数,或者使用 usefixtures。 如果我们想让固件自动执行,可以在定义时指定 autouse 参数。 下面是两个自动计时固件,一个用于统计每个函数运行时间(functio…

4-linux获取命令帮助方式

目录 查看命令帮助 命令搜索 查看命令帮助 在使用的过程中获取命令注释和帮助非常重要,相当于R语言中的help查看函数的使用功能。 [root####### ~]# whatis ls ls (1) - list directory contents[root############ ~]# ls --help 用法&#xff1…

【自然语言处理】司法阅读理解

司法阅读理解 1 任务目标 1.1 任务说明 裁判文书中包含了丰富的案件信息,比如时间、地点、人物关系等等,通过机器智能化地阅读理解裁判文书,可以更快速、便捷地辅助法官、律师以及普通大众获取所需信息。 本次任务覆盖多种法律文书类型&am…

半个月从几十升粉到500(发红包喽)

目录 1. 背景2. 涨粉秘籍2.1 持续创作高质量内容2.1.1 保持频率2.1.2 技术文章为主2.1.3 图文并茂 2.2 积极参与社区活动2.2.1 社区分享2.2.2 发文活动 2.3 互动与建立信任2.3.1 与读者互动2.3.2 红包互动2.3.3 动态分享 2.4 标题与内容的优化2.4.1 标题吸引2.4.2 内容实用 2.5…

【AI应用探讨】—支持向量机应用场景

目录 1. 文本分类 2. 图像识别 3. 生物信息学 4. 金融预测 5. 其他领域 1. 文本分类 垃圾邮件过滤:SVM通过训练大量标记为垃圾邮件和非垃圾邮件的样本,学习出能够区分两者的模型,从而实现对新邮件的自动分类。情感分析:在社…

Anaconda 和 Python 的区别及其重要性

引言 Python 是一种广泛使用的编程语言,特别是在数据科学、机器学习和科学计算领域。随着 Python 的普及,许多开发工具和环境也应运而生,其中 Anaconda 是一个非常流行的 Python 发行版。本文将探讨 Anaconda 和 Python 的区别,A…