奖励建模(Reward Modeling)实现人类对智能体的反馈

       奖励建模(Reward Modeling)是强化学习中的一个重要概念和技术,它主要用于训练智能体(如AI机器人或大型语言模型)如何更有效地学习和遵循人类期望的行为。在强化学习环境中,智能体通过尝试不同的行为获得环境给予的奖励信号,以此来调整自己的行为策略以最大化累积奖励。

前言:

      人类对智能体(例如大语言模型)的反馈,可以通过奖励建模(Reinforcement Learning with Human Feedback,RLHF)技术得以有效利用。

       在RLHF框架下,智能体(AI系统)尝试通过执行动作来最大化从环境中得到的奖励。对于大语言模型而言,它的“动作”就是生成的文本响应,而“环境”则包括了与之交互的人类用户以及由用户提供的反馈机制。

       具体实现上,包含以下步骤:

  1. 收集人类反馈:首先,会从初始的大语言模型生成一系列文本响应。这些响应会被呈现给人类评估员,他们根据预设的标准(比如准确性、有用性、道德规范等)给每个响应打分或分类,形成反馈数据。

  2. 构建奖励模型:基于收集到的人类反馈数据,训练一个奖励模型,该模型能够预测任意给定文本响应应当获得的奖励值(或者说分数)。这一步的核心是让机器学习如何模拟人类对文本质量的判断。

  3. 强化学习阶段:使用强化学习算法(如PPO、SAC等),把大语言模型看作智能体,通过与奖励模型的互动进行微调。智能体会根据从奖励模型获取的奖励信号调整自身策略,也就是改变其生成文本的方式,以便在未来生成的文本能更有可能获得更高的奖励。

       通过这种方式,大语言模型能够在更大程度上满足人类的期望,提高生成内容的质量、准确性和合乎社会规范的程度。同时,这种方法也体现了AI系统与人类价值观和偏好之间的重要联系与融合。

1.奖励建模(Reward Modeling)

       奖励建模(Reward Modeling)是一种在强化学习(Reinforcement Learning, RL)框架下,通过学习和优化奖励函数(Reward Function)来引导智能体学习符合人类期望行为的方法。在标准强化学习中,智能体通过与环境互动并根据接收到的奖励信号调整策略,以求最大化累积奖励。然而,直接定义一个完整的、能够覆盖所有可能状态和行为的精确奖励函数在很多复杂场景下是非常困难甚至是不可能的。

       在很多复杂的现实世界场景中,直接构建一个能够覆盖所有可能状态和行为并给出精确奖励的函数极具挑战性,甚至是不可能的。这是因为:

  1. 状态空间的巨大:复杂环境通常拥有极高维度的状态空间,试图为每一个可能的状态配置适当的奖励值几乎是不可能的。

  2. 行为空间的复杂性:智能体可能采取的行为种类繁多,不同行为之间的交互效应复杂,很难事先预见到所有行为产生的结果及其应得的奖励。

  3. 动态环境变化:真实世界的环境往往是动态变化的,固定不变的奖励函数可能无法适应环境的变化,导致智能体无法适应新出现的情况。

  4. 伦理道德和主观性:在涉及伦理道德或审美判断等主观因素的场景中,确定一个普适的、公正的奖励函数尤为困难。

奖励建模就是为了应对这些问题而提出的一种解决方案,通过收集人类专家或其他可靠信息源的反馈,学习一个能够更准确地反映人类期望的奖励模型,以此来指导智能体的行为策略。通过这种方式,智能体能够在无法精确定义奖励函数的复杂环境中,更智能、更符合人类价值观地进行学习和决策。

奖励建模的实现步骤

     具体来说,奖励建模通常涉及以下步骤:

  1. 用户反馈收集:收集人类对于智能体在各种情境下的行为反馈,这些反馈可以是明确的评分、偏好表达或者直接指定正误行为。
  2. 奖励模型训练:基于收集到的用户反馈数据训练一个模型,该模型能够预测在给定状态下智能体采取某种行为时应该得到的奖励值。
  3. 策略优化:使用强化学习算法,智能体会依据这个奖励模型来进行策略迭代,目标是最优化长期累积奖励,也就是使智能体的行为越来越符合人类所设定的标准或期望。

       工具增强的奖励建模可能指的是结合外部工具(如计算器、搜索引擎、数据库查询等)来扩展智能体在复杂任务上的表现,特别是在需要精确计算、代码执行或详实知识验证的情况下,通过与这些工具交互,智能体可以获得更高层次的推理能力,从而更好地进行逐步推理并作出更优决策。

 2.大语言模型与奖励建模

       大语言模型(Large Language Models,LLMs)和奖励建模(Reinforcement Learning with Human Feedback,RLHF)是两个相关但不同的概念,在某些高级应用场景中二者可以结合起来。

大语言模型: 大语言模型是一种深度学习模型,主要采用Transformer架构,经过大规模训练,能够理解和生成高质量的自然语言文本。它们学习的是从大量的未标记或标记的文本数据中推断出语言规律和上下文依赖性。典型的例子包括OpenAI的GPT系列、谷歌的T5、阿里云的通义千问等。大语言模型可以直接用于各种下游任务,如文本生成、问答、摘要、翻译等,无需额外的训练步骤。

奖励建模: 奖励建模是强化学习的一种方法,其中智能体(这里指的是大语言模型)的学习过程受到来自环境(通常是人类用户)的明确奖励信号指导。在自然语言处理的背景下,RLHF意味着利用人工标注或者用户反馈来优化大语言模型的行为。具体来说,当大语言模型产生一个输出时,人类会对这个输出的质量给予评价(正向或负向奖励),然后模型通过调整其内部参数以最大化未来获得的预期累积奖励。

结合使用时,大语言模型可以通过奖励建模实现更精细的控制和引导,确保模型在生成内容时遵循伦理规范、提供有用信息且不输出有害或误导性的内容。这一过程通常涉及以下几个步骤:

  1. 初始的大语言模型根据预先训练好的参数生成文本。
  2. 人类评估员对模型生成的文本样本给出评级或打分,作为奖励信号。
  3. 基于这些反馈数据训练一个奖励模型,该模型预测某个输出将获得的奖励值。
  4. 使用强化学习算法,结合原始大语言模型和奖励模型,进行进一步的微调,使得模型在生成新的文本时倾向于产生高分(即高奖励值)的内容。

       通过这种方式,大语言模型不仅能基于已有的大规模数据集进行自我学习,还可以借助于即时的人类反馈来持续改进和适应更广泛的用户需求和社交情境。

       奖励建模在大语言模型(如GPT系列、通义千问等)的训练中有应用,特别是在强化学习训练后期阶段,通过让模型根据从人类反馈中学习到的奖励模型调整输出,以确保模型的回答、行为和生成内容更加符合人类的价值观和期望。这种方法有助于提升模型在复杂、伦理敏感任务上的表现,同时减少有害行为的发生。 

       奖励建模(Reward Modeling)在训练大语言模型时扮演了关键角色,特别是在那些采用强化学习框架进行微调的模型上,如部分GPT系列模型和其他先进的人工智能系统,包括阿里云研发的通义千问。该方法旨在使模型能够模拟和内化人类对于“好”答案、“恰当”行为或“合适”内容的评价标准。

       具体来说,在训练后期,研究人员通常会收集大量的人类标注数据,这些数据代表了对模型生成的各种可能输出的好坏判断。然后,模型通过学习这些带有标签的数据来建立一个奖励模型,这个模型能够预测不同输出得到的人类偏好程度。之后,强化学习算法利用这个奖励模型作为指导信号,促使模型在后续生成过程中趋向于那些被认为更具价值、更符合伦理规范和社会期待的答案或行为。

       通过这样的过程,大语言模型不再仅仅依赖于原始训练数据中的统计规律,而是能够进一步地理解和适应人类社会的复杂性和细微差别,提升了其在实际应用中的表现和信任度。

3.人类反馈与大语言模型

       人类反馈与大语言模型之间的关联体现在自然语言处理和人工智能系统的训练与优化过程中。大语言模型(Large Language Models, LLMs)是经过大规模数据训练得到的复杂神经网络系统,能够生成和理解自然语言。然而,尽管这些模型具有强大的语言处理能力,但初始训练往往是无监督或自我监督的,这意味着它们并不一定完全遵循人类社会的伦理规范、文化习俗或者精确的事实标准。

       为了引导大语言模型生成更加准确、恰当且符合人类价值判断的响应,研究人员引入了基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)。在这种方法中:

  1. 数据收集:首先会收集人类对模型输出的反馈数据,这可能包括直接评级、修正后的文本样本或者其他形式的偏好指示。

  2. 奖励模型训练:然后使用这些反馈数据训练一个奖励模型(Reward Model),该模型可以量化某个模型输出的好坏程度,即给出一个奖励分数。

  3. 强化学习微调:接着,大语言模型通过强化学习的方式进行微调,目标是在生成文本时最大化从奖励模型获得的奖励分数。换句话说,模型在生成每个响应时都会尝试预测哪些输出会受到人类更高的评价。

       通过这种方式,大语言模型能够借助人类的智慧和经验,逐步提高其在各种情境下的表现力和可靠性,减少有害或不合适的输出,同时增强其对于复杂语境和道德考量的理解。RLHF的应用已经成为ChatGPT、Bard等先进对话模型的重要训练手段,有效地提高了模型的有用性、诚实性和安全性。

 2.1 人类反馈与奖励建模

       人类反馈与奖励建模在强化学习和人工智能开发中结合,是为了让AI系统更好地模仿和适应人类的期望行为或决策标准。具体而言:

人类反馈

  • 在AI训练过程中,人类反馈是指直接或间接地由人提供的关于AI行为的质量或适当性的评价信息。这可能包括用户对AI生成文本的满意度评分、对智能体动作的赞同或否定,或者更为具体的指导性意见和修正建议。

奖励建模

  • 奖励建模是一种强化学习的方法,它利用人类反馈来创建或优化奖励函数。在强化学习中,智能体通过尝试不同的行为来最大化预期的累积奖励。然而,确定合适的奖励函数(即如何量化每个状态或动作的好坏程度)通常是难题,特别是对于复杂的、难以形式化描述的任务。

结合二者:

  • RLHF(Reinforcement Learning with Human Feedback) 就是一种利用人类反馈来改进奖励模型进而训练智能体的技术。首先,收集大量的带有标签的人类反馈数据,然后利用这些数据训练一个奖励模型,这个模型能够预测在给定状态下智能体行为应该得到的奖励值。
  • 这个奖励模型反映了人类对智能体行为偏好的内在评价标准,智能体则通过强化学习算法(比如Proximal Policy Optimization, PPO)来更新其策略,使其在未来执行的动作更倾向于获得高奖励,即更符合人类的期望和标准。

这样,通过奖励建模,人类反馈得以转化为AI学习过程中的明确指导信号,促使AI智能体在各种应用场景下表现得更加人性化和合理化。在诸如ChatGPT这样的大型语言模型中,RLHF已经被证明是有效改善模型响应质量和遵循社会规范的重要手段。

2.2 人类反馈强化学习(HFRL)和安全可控的强化学习(RLHF)

       在实践上,这种方法已经成功应用于诸如OpenAI的GPT系列模型和其他大型语言模型的训练中,以提高其对人类价值观和意图的理解及响应能力。例如,通过人类反馈强化学习(Human Feedback Reinforcement Learning, HFRL)和安全可控的强化学习(Reinforcement Learning from Human Feedback, RLHF)等技术,模型不仅能学习一般的自然语言任务,还能够在特定的社会交互、伦理约束下行动,更接近理想的人工智能对齐状态。

       人类反馈强化学习(HFRL)和安全可控的强化学习(RLHF)等技术,确实强化了模型在遵循人类价值观和道德规范方面的能力。这些技术的核心理念是将人类反馈纳入强化学习的训练过程中,让模型能够根据真实的、具有主观性的评估标准进行学习和优化。

       在HFRL和RLHF中,人类专家或用户会为模型的行为提供反馈,这些反馈可以是明确的评分、二元偏好比较(哪种行为更好)、或是对模型生成内容的直接修正。模型通过学习这些反馈,调整自身的策略,以便在执行自然语言任务时,不仅追求任务完成度,更能尊重社会规范、遵守伦理要求,以及体现人类普适的价值观。

       例如,在大语言模型的应用中,通过HFRL和RLHF训练的模型,在生成文本、解答问题或进行对话时,能够更好地理解并遵循礼貌原则、避免产生有偏见或冒犯性的内容,从而实现更安全、可靠和人性化的交互,更加接近我们理想中的人工智能对齐状态。这种技术有助于构建更加负责任和可信的人工智能产品和服务。

       人类反馈强化学习(Human Feedback Reinforcement Learning, HFRL)是一种强化学习方法,其中智能体的学习过程受到人类评估或直接反馈的引导。这种方法通常结合了传统的强化学习框架,即智能体通过与环境互动并依据奖励信号调整其行为策略,但它引入了一个额外的环节,即通过收集和整合人类对智能体行为的评价来优化奖励函数或者直接指导智能体学习更优的策略。

       具体到安全可控的强化学习(Reinforcement Learning from Human Feedback, RLHF),这是一种HFRL的特定应用形式,强调在训练过程中确保智能体的行为更加安全、可靠和符合人类价值观。RLHF通常包含几个关键步骤:

  1. 初始阶段,模型基于自我监督学习或其他预训练方式获得基础能力。
  2. 随后,通过让人类评估者对模型生成的输出或行动打分,获取高质量的人类偏好数据。
  3. 这些评分随后被用来作为奖励信号,用于强化学习过程,使得模型在后续迭代中倾向于产生更高分的行为。
  4. 奖励建模在这个框架下扮演着核心角色,因为它涉及到如何从有限的人类反馈中有效地推断出一个连续、全面且能反映人类偏好的奖励函数。

       奖励建模是强化学习中的一个子领域,它关注如何设计和学习奖励函数,这个函数定义了智能体应该追求的目标状态或行为。在RLHF中,奖励建模可能涉及从人类标注数据中提取特征、构建代理奖励函数或学习一个复杂的、能够模拟人类评判标准的模型。

       简而言之,RLHF是一种通过精心设计和实施奖励建模技术,利用人工标注的数据来指导强化学习智能体学习更加贴近人类期望行为的先进方法。这样的方法已经在像ChatGPT这样的大型语言模型中取得了显著成功,提高了它们的沟通质量、适切性和安全性。

2.3 奖励建模、HFRL与RLHF之间的关系

       奖励建模、HFRL(Human Feedback Reinforcement Learning)和RLHF(Reinforcement Learning from Human Feedback)在强化学习的语境中有着密切的关系,它们共同致力于通过人类反馈来优化智能体的学习过程。

  • 奖励建模 (Reward Modeling): 在强化学习中,奖励建模是指设计或学习一个奖励函数,该函数量化了智能体在环境中采取不同行动时的价值。在标准强化学习设置中,奖励通常是事先定义好的,但在某些复杂场景下,特别是当智能体需要模仿或满足人类偏好的时候,直接定义一个完备且恰当的奖励函数非常困难。奖励建模技术则允许我们从有限的人类示例或反馈中学习这个奖励函数,而不是硬编码。

  • HFRL (Human Feedback Reinforcement Learning): HFRL 是一种更广泛的概念,它指的是任何运用人类反馈来改进强化学习算法的技术。这种技术集合了强化学习的基本原则(智能体通过最大化长期累积奖励来学习)和人类专家或用户对智能体行为的评价。HFRL 可以包括多种形式的反馈,如直接的评分、偏好比较或是修正后的动作建议。

  • RLHF (Reinforcement Learning from Human Feedback): RLHF 是 HFRL 的一个具体分支和应用实例,它专门针对如何将人工标注的反馈融入强化学习算法以训练更符合人类预期的智能体。在RLHF中,通常会有一个预训练的模型,然后通过收集人类对模型输出的评价数据来微调模型,这些评价数据被用来构建或修改强化学习中的奖励函数,从而使模型在后续的强化学习迭代中能够更好地适应和模拟人类偏好。

       总结起来,奖励建模是HFRL中的一个关键技术,尤其是在RLHF中,它扮演着至关重要的角色,帮助从人类反馈中构建有效的奖励信号,以此来精确地塑造和指导强化学习智能体的行为策略。       

4. 智能体与大语言模型

智能体(Agent)和大语言模型(Large Language Model,LLM)都是人工智能领域内的概念,它们各自代表了AI的不同应用形态和能力范围。

智能体(Agent)

  • 在人工智能中,智能体通常指的是具有感知环境、做出决策并采取行动以达到特定目标的实体。它可以是软件程序、机器人或其他类型的硬件设备。智能体的核心在于它能自主地适应环境变化并通过学习(如强化学习、监督学习等)不断优化自己的行为策略。例如,在游戏环境中,智能体可能需要学会怎样移动、攻击和防御以获得最高得分。

大语言模型(LLM)

  • 大语言模型是一种深度学习模型,特别指那些经过大规模训练、能够理解和生成自然语言的强大模型,如GPT系列、BERT、T5以及通义千问等。它们通过对海量文本数据集的学习,可以完成多种自然语言处理任务,如文本生成、问答、翻译、摘要、情感分析等。这类模型并不直接作用于物理世界,而是专注于理解和生成语言表达,并且往往不具备像智能体那样的自主行动能力。

尽管两者存在明显区别,但在某些高级应用场景中,智能体与大语言模型可能会结合使用。例如,一个智能体为了与人类进行有效沟通,可能会内嵌一个大语言模型作为其“语言中枢”,用于理解人类指令和生成相应的对话回应。同时,通过强化学习与人类反馈相结合的方式,大语言模型的能力也可以被进一步引导和优化,使其生成的语言输出更加贴合场景需求和人类偏好,从而实现更智能化的行为交互。

 智能体(agent)与奖励建模(Reward Modeling)

       在强化学习环境中,智能体(agent)扮演着积极学习的角色,它不断地探索环境,并通过执行各种动作(actions)来与环境交互。每次智能体执行一个动作后,环境会依据某种预设的或动态的奖励机制(reward mechanism)回馈给智能体一个数值奖励(reward signal),这个奖励通常是正数、负数或零,代表了环境对智能体所采取行动的好坏程度。

       在标准强化学习(RL)中,智能体与环境的交互过程如下:

  1. 智能体观察环境状态(State):智能体首先观察到当前环境的状态,这个状态可以是任何能够描述环境当前状况的信息。

  2. 智能体选择动作(Action):基于所观察到的环境状态,智能体根据其当前的策略(Policy)选择一个动作执行。策略可以理解为智能体在某一状态下选择动作的规律或概率分布。

  3. 执行动作并接收奖励(Reward Signal):智能体执行选定的动作后,环境会根据该动作及其对环境的影响给出一个即时奖励信号。奖励信号通常是一个数值,反映了环境对智能体动作好坏的反馈,正值表示奖励,负值表示惩罚,零值可能表示中性反馈。

  4. 环境状态转移(State Transition):执行动作后,环境会发生相应的变化,进入一个新的状态。智能体接下来将基于这个新的状态再次进行动作选择。

  5. 学习过程:通过不断与环境的交互,智能体依据收到的奖励信号,利用强化学习算法(如Q-learning、Sarsa、Actor-Critic等)更新其策略,以期在长期累积奖励上取得最大化,从而学习到最优策略。

       奖励建模技术则在此基础上进一步优化了智能体学习的过程,特别是在定义和理解复杂的、难以直接量化的奖励信号方面,它通过从人类反馈中学习奖励函数,使得智能体能够更好地适应复杂任务,遵循人类的价值观和期望行为。

       智能体的目标就是通过不断的试错学习,逐步调整和完善自己的行为策略,以便在未来的选择中获得更高的累积奖励(cumulative reward)。这种学习过程通常由强化学习算法(如Q-learning、SARSA、Policy Gradient等方法)实现,它们能帮助智能体在面对复杂环境时找出最优策略,即长期来看能够最大化累计奖励的一系列行为选择规则。

      在奖励建模这一特定技术中,强化学习环境中的奖励函数不再是固定的,而是通过学习来自人类专家或其他指示源的偏好信息来动态构建和优化,使得智能体的学习过程更加贴合人类期望的行为规范。

5.人类反馈与智能体

       人类反馈在智能体的学习和行为优化中起着至关重要的作用,特别是在强化学习(Reinforcement Learning, RL)和基于人类反馈的强化学习(Reinforcement Learning with Human Feedback, RLHF)框架中。智能体(如AI模型或机器人)通过与环境互动并根据接收到的奖励信号调整策略,以达到学习最优行为的目的。当直接定义或量化环境中的奖励函数存在困难时,人类反馈提供了有价值的信息来源。

      在RLHF中,人类反馈用来指导智能体学习什么样的行为是可取的或不可取的。这种反馈可以采取多种形式,如直接的评分、偏好排序、纠正错误的行动或提供具体的修正建议。通过收集和分析这些反馈,研究人员可以构建或调整奖励模型,使得智能体能够从人类的意愿和价值观出发,更准确地学习和模仿人类期望的行为模式。

       具体到大规模语言模型的训练中,人类反馈强化学习使得模型不仅能够按照预定任务进行操作,还能在面临复杂伦理、社会或文化情景时,生成更符合人类社会规范和价值观的文本内容。例如,在生成回复、解答问题或进行创作时,经过人类反馈优化的模型能够避免输出不当或有害的信息,提高了模型的实用性和安全性。

6.人类反馈、智能体与大语言模型

       人类反馈、智能体与大语言模型三者在现代人工智能研究中有着紧密的联系和互动关系,尤其是在提升模型性能和增强智能体行为合理性方面。

  1. 人类反馈

    在训练和优化AI模型时,人类反馈是一种重要的指导信号。特别是在强化学习和迭代式训练过程中,人类可以对模型的输出或智能体的行为进行评价,给予正向或负向反馈,帮助模型更好地学习和适应人类期望的目标状态。例如,在训练大语言模型时,通过人工标注数据、直接评价模型生成的文本质量或通过对比方法让模型学习更接近人类表达习惯的内容。
  2. 智能体(Agent)

    智能体是模拟在某种环境中执行动作并追求特定目标的实体。在集成大语言模型的情况下,智能体可能利用大语言模型作为其内部组件,以实现自然语言理解和生成,从而增强与人类或其他智能体的沟通能力。智能体可以根据接收到的人类反馈调整自身的决策策略或行为模式。
  3. 大语言模型(LLM)

    大语言模型本身是通过大量文本数据训练出来的,能够生成和理解自然语言。当与强化学习结合,即通过人类反馈进行强化学习(Reinforcement Learning with Human Feedback, RLHF)时,大语言模型可以根据反馈不断调整自身参数,使其生成的文本或作出的决策更符合人类规范和社会价值观。

       综上所述,人类反馈作为一种重要的教育资源,可用于指导智能体尤其是其中包含的大语言模型进行学习和改进,进而使得智能体在处理复杂任务时能够更准确地模拟人类智慧,并产生更为人性化和实用的交互效果。在实践中,这种结合已应用于诸如聊天机器人、虚拟助手、自动写作助手等多种场景。

7.人类反馈、智能体、大语言模型与奖励建模      

      人类反馈、智能体、大语言模型以及奖励建模之间存在紧密联系,它们共同构成了现代强化学习在自然语言处理中的一个重要应用框架。

  1. 人类反馈

    在机器学习尤其是强化学习中,人类反馈是指由人提供给AI系统的关于其行为好坏的评估信息。在训练大语言模型时,人类反馈可以用来调整模型的输出,使其更加贴近真实世界中人类期望的行为和反应。
  2. 智能体(Agent)

    在人工智能领域,智能体是一个能够在环境中执行动作并依据反馈学习策略的软件实体。当应用于语言模型时,智能体可以被视为模型本身,它可以生成文本、回答问题或执行其他语言任务,并根据接收到的反馈调整自己的策略。
  3. 大语言模型

    这些模型,比如GPT系列、BERT等,拥有大量的参数和复杂的结构,可以捕捉到语言数据中的丰富模式。它们可以被视作智能体,在强化学习场景下,智能体的“动作”就是生成特定的文本输出。
  4. 奖励建模

    在强化学习中,奖励建模是指建立一个模型来估计智能体在不同状态下采取行动后所获得的奖励值。在大语言模型的背景下,奖励模型可能是基于人类对模型输出的评分或其他形式的偏好信号训练出来的,用于量化模型响应的质量。

结合以上概念,基于人类反馈强化学习(RLHF)的工作流程大致如下:

  • 使用大语言模型生成一系列文本输出;
  • 收集人类对这些输出的反馈数据,形成一个奖励信号集合;
  • 利用这些反馈数据训练奖励模型,使模型学会预测何种类型的文本输出会获得高奖励;
  • 将奖励模型集成到强化学习框架中,对原始的大语言模型进行微调,从而使模型在生成新文本时倾向于选择那些预期会得到高奖励的输出。

        这样,通过不断迭代和学习,大语言模型就能更好地适应和满足人类的沟通需求和价值观,从而展现出更强的交互能力和更好的表现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/729065.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C#实现插入排序算法

C#实现插入排序算法 以下是使用C#实现插入排序算法的示例代码: using System;class InsertionSort {static void Main(string[] args){int[] arr { 64, 25, 12, 22, 11 };Console.WriteLine("排序前:");PrintArray(arr);InsertionSortAlgori…

JavaScript 二分查找(迭代与递归)

二分搜索被定义为一种在排序数组中使用的搜索算法,通过重复将搜索间隔一分为二。二分查找的思想是利用数组已排序的信息,将时间复杂度降低到O(log N)。 二分查找算法示例 何时在数据结构中应用二分查找的条件: 应用二分查找算法&#xff1a…

阿里云k8s环境下,因slb限额导致的发布事故

一、背景 阿里云k8s容器,在发布java应用程序的时候,客户端访问出现500错误。 后端服务是健康且可用的,网关层大量500错误请求,slb没有流入和流出流量。 经过回滚,仍未能解决错误。可谓是一次血的教训,特…

[React 进阶系列] React Context 案例学习:使用 TS 及 HOC 封装 Context

[React 进阶系列] React Context 案例学习:使用 TS 及 HOC 封装 Context 具体 context 的实现在这里:[React 进阶系列] React Context 案例学习:子组件内更新父组件的状态。 根据项目经验是这样的,自从换了 TS 之后,…

光线追踪12 - Defocus Blur(虚焦模糊)

现在我们的最后一个特性是虚化模糊。注意,摄影师通常称之为景深,所以请确保在光线追踪的朋友中只使用虚化模糊这个术语。 真实相机具有虚化模糊是因为它们需要一个大孔(而不仅仅是针孔)来收集光线。一个大孔会导致所有物体失去焦点…

社交媒体革新者:揭秘Facebook对在线互动的影响

1. Facebook的兴起与发展 Facebook由马克扎克伯格在哈佛大学宿舍创建,最初只是服务于哈佛大学学生的社交网络。然而,其后快速扩张到其他大学和全球,成为了全球最大的社交媒体平台之一。其发展历程不仅是数字时代的典范,也是创业成…

CrySiS勒索病毒最新变种来袭,加密后缀为kharma

CrySiS勒索病毒,又称Dharma,首次出现是在2016年,2017年5月此勒索病毒万能密钥被公布之后,之前的样本可以解密,导致此勒索病毒曾消失了一段时间,不过随后又马上出现了它的一款最新的变种样本,加密…

101 向一个不存在的路径发送请求, get 得到 404, post 得到 405

前言 这是 最近碰到的一个问题, 大概是在 2022.05.30 前端这边 发送了一个业务请求过来, 这个请求路径是服务端这边不存在的 但是 奇怪的一点就是, 如果是以 get 请求发送过来, 服务端响应的是正确的 404 "Not Found", 但是 如果是以 post 请求发送过来, 服务端这边…

Springboot整合rabbitmq(二)

spring boot,为了简化rabbitMQ的使用,它在这里面给咱们提供了一个模板对象。 这个模板对象是什么? 这个模板对象叫RabbitTemplate对象。说白了其实是用来简化rabbitMQ的操作 也就是说之后我们可以通过这个模板对象直接去向rabbitMQ中发送消息…

1分钟做的AI利润表分析报告,效果怎样?

各位数据的朋友,大家好,我是老周道数据,和你一起,用常人思维数据分析,通过数据讲故事! 自从去年年初ChatGPT3.5推出以来,AI大模型的话题就一直非常热了。相比于AI聊天、生成图片,亦…

STL空间配置器

参考《STL源码剖析-侯捷》一书 (SGI版本STL) 前置 六大组件 空间配置器实现 SGI版本的空间配置器有两个,一个名为allocator,一个名为alloc。前者符合部分标准,但效率不好,只是对operator new和operator delete进行了封装&#…

工业互联网平台的专题报告

文 | BFT机器人 前言: 现在是工业时代,也是数字化时代。随着信息技术的快速发展,工业不得不依托数字化转型升级。当前数字化转型已经成为企业提升竞争力的关键手段。 工业互联网平台作为数字化转型的重要支撑,能够帮助企业实现生…

(day 2)JavaScript学习笔记(基础之变量、常量和注释)

概述 这是我的学习笔记,记录了JavaScript的学习过程,我是有一些Python基础的,因此在学习的过程中不自觉的把JavaScript的代码跟Python代码做对比,以便加深印象。我本人学习软件开发纯属个人兴趣,大学所学的专业也非软件…

Linux系统编程(六)高级IO

目录 1. 阻塞和非阻塞 IO 2. IO 多路转接(select、poll、epoll) 3. 存储映射 IO(mmap) 4. 文件锁(fcntl、lockf、flock) 5. 管道实例 - 池类算法 1. 阻塞和非阻塞 IO 阻塞 IO:会等待操作的…

猫咪挑食怎么办?预防猫咪挑食的生骨肉冻干分享

在现今社会,养猫的人越来越多,大家都把自家的小猫当作宝贝来宠爱。然而,这种宠爱有时也会导致猫咪养成挑食的不良习惯。那么,猫咪挑食怎么办呢? 今天,我要分享一个既能确保猫咪不受苦,又能有效…

嵌入式学习第二十六天!(网络传输:TCP编程)

TCP通信: 1. TCP发端: socket -> connect -> send -> recv -> close 2. TCP收端: socket -> bind -> listen -> accept -> recv -> send -> close 3. TCP需要用到的函数: 1. co…

MySQL--索引底层数据结构详解

索引是什么? 索引是帮助MySQL高效获取数据的排好序的数据结构,因此可知索引是数据结构。 概念很抽象,但是类比生活中的例子就很容易理解,比如一本厚厚的书,我们想取找某一小节,我们可以根据目录去快速找到…

Python实现快速排序算法

Python实现快速排序算法 下面是使用 Python 实现的快速排序算法的示例代码&#xff1a; def quick_sort(arr):if len(arr) < 1:return arrelse:pivot arr[0]less_than_pivot [x for x in arr[1:] if x < pivot]greater_than_pivot [x for x in arr[1:] if x > pi…

Spring Boot中Excel数据导入导出的高效实现

&#x1f31f; 前言 欢迎来到我的技术小宇宙&#xff01;&#x1f30c; 这里不仅是我记录技术点滴的后花园&#xff0c;也是我分享学习心得和项目经验的乐园。&#x1f4da; 无论你是技术小白还是资深大牛&#xff0c;这里总有一些内容能触动你的好奇心。&#x1f50d; &#x…

基于SpringBoot+MYSQL的大学生租房平台

目录 1、 前言介绍 2、主要技术 3、系统流程 3.1、操作流程 3.2、登录流程 3.3、删除信息流程 3.4、添加信息流程 4、功能需求 5、系统设计 5.1、功能结构设计 5.1、数据库概念设计 6、运行截图(部分) 6.1、管理员功能实现 6.1.1、房东管理 6.1.2、信息审批管理 …