网站建设 验证码/推广代理平台登录

网站建设 验证码,推广代理平台登录,商城网站如何搭建,网站做强制访问控制为了将大语言模型植入到小程序中,来支持用户的问答。那我们首先需要做的是什么呢,不是引入大语言模型,而且为大语言模型搭建一个私有化知识库,但是这是这节呢,我们先不搭建私有化知识库,在这之前&#xff0…

        为了将大语言模型植入到小程序中,来支持用户的问答。那我们首先需要做的是什么呢,不是引入大语言模型,而且为大语言模型搭建一个私有化知识库,但是这是这节呢,我们先不搭建私有化知识库,在这之前,我们还需要做一个前置工作,那就是数据准备。

        小版本的语言模型本身的能力不像大参数量的模型那样,有用强大的知识库和泛化能力。我们需要为其提供一个外部的知识库,为模型提供额外的知识储备,进而利用模型的推理能力回答用户的问题。搭建知识库之前,我们就需要将数据,存储到知识库中。那么首先,我们就需要解析文件得到元数据。

一、文本解析

为了解析到元数据,我们采用一个开源的工具,Apache Tika进行文件内容解析,这是一个由java开发的内容分析工具包。

<dependency><groupId>org.apache.tika</groupId><artifactId>tika-core</artifactId><version>3.0.0</version>
</dependency>
<dependency><groupId>org.apache.tika</groupId><artifactId>tika-parsers-standard-package</artifactId><version>3.0.0</version>
</dependency>

 我们先创建一个工具类TikaUtil,编写一个函数用来解析我们传入的文件内容。

 二、文本切片

 有了向量数据库后,我们就需要把数据存入向量数据库中了,在这之前呢,我们需要写完成一个文件解析的功能,因为,要解释到元数据,才进行接下来的步骤,我们这里选择Apache Tika进行文件内容解析,这是一个由java开发的内容分析工具包。

<dependency><groupId>org.apache.tika</groupId><artifactId>tika-core</artifactId><version>3.0.0</version>
</dependency>
<dependency><groupId>org.apache.tika</groupId><artifactId>tika-parsers-standard-package</artifactId><version>3.0.0</version>
</dependency>

 我们先创建一个工具类TikaUtil,编写一个函数用来解析我们传入的文件内容。

    public String extractText(MultipartFile file) {try {// 创建解析器--在不确定文档类型时候可以选择使用AutoDetectParser可以自动检测一个最合适的解析器Parser parser = new AutoDetectParser();// 用于捕获文档提取的文本内容。-1 参数表示使用无限缓冲区,解析到的内容通过此hander获取BodyContentHandler bodyContentHandler = new BodyContentHandler(-1);// 元数据对象,它在解析器中传递元数据属性---可以获取文档属性Metadata metadata = new Metadata();// 带有上下文相关信息的ParseContext实例,用于自定义解析过程。ParseContext parseContext = new ParseContext();parser.parse(file.getInputStream(), bodyContentHandler, metadata, parseContext);// 获取文本return bodyContentHandler.toString();} catch (Exception e) {e.printStackTrace();return null;}}

我们使用该工具即可获得文件的元数据。但是在问答的时候,我们不能将整个文件全部输入到大模型中,一方面是模型本身是拥有上上下文窗口大小限制,另一方面是大量的信息可能影响模型的推理时间和准确率。为了解决这种情况,我们需要将文本分块,把内容切割成一个一个的文本块,将每个块作为一个知识单元,再将其转换为向量表示存入向量数据库,这样大模型在检索的时候只需要将相关的文本块添加到上下文中,既能保证回答的准确性,也解决了上下文过长的问题。

对于分块的方法,在Langchain框架中,有多种分块策略:

  1. 固定大小分块:按固定字符数或单词数分割文本,简单直接,但可能破坏句子或段落的完整性。

  2. 按句子分块:使用自然语言处理工具(如NLTK、spaCy)按句子边界分割文本,适合处理句子级别的任务。

  3. 按段落分块:按段落分割文本,适合处理段落级别的任务,段落通常由换行符分隔。

  4. 重叠分块:在固定大小分块的基础上,允许块之间有重叠部分,避免信息丢失。

  5. 递归分块:递归地将文本分割成更小的部分,直到满足特定条件,适合处理复杂文本结构。

  6. 语义分块:根据语义或主题分割文本,通常需要自然语言处理技术识别语义边界。

在java社区,Langchain4J  旨在为 Java 开发者提供类似于 LangChain(基于 Python)的功能。LangChain4J 的目标是将 LangChain 的核心概念和功能移植到 Java 生态系统中,使 Java 开发者能够更方便地构建基于大语言模型(LLMs)的应用程序。Langchain4J

Langchain4J也为我们提供了多种文本分块方法:

  • DocumentByParagraphSplitter
  • DocumentByLineSplitter
  • DocumentBySentenceSplitter
  • DocumentByWordSplitter
  • DocumentByCharacterSplitter
  • DocumentByRegexSplitter
  • Recursive: DocumentSplitters.recursive(...)

在这之前,我们先新建一个TikaVo类,用作传输文档解析分片后的结果。

@Accessors(chain = true)
@Data
public class TikaVo implements Serializable {private List<String> text;private List<String> metadata;
}

这里,我们采用递归分割的方式,将输入的文本分割成块。

    private TikaVo splitParagraphs(String content) {DocumentSplitter splitter = DocumentSplitters.recursive(TARGET_LENGTH, LENGTH_TOLERANCE, new OpenAiTokenizer());List<TextSegment> split = splitter.split(Document.document(content));return new TikaVo().setText(split.stream().map(TextSegment::text).toList()).setMetadata(split.stream().map(textSegment -> JSON.toJSONString(textSegment.metadata())).toList());}

到这里,文件处理算是完成了,这里,我们可以写一个接口来测试一下效果,我这里就不展示了。感兴趣的小伙伴,也可以试试其他的切片方法。

后面,我们将介绍,如何将处理好的文本,存储到数据库中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/72893.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Centos7配置本地yum源

Centos7配置本地yum源 1、基于iso镜像的centos源 1.1 准备iso <span style"color:#000000"><span style"background-color:#ffffff"><code class"language-bash"><span style"color:#008000"># 首先看自己使用…

VNA操作使用学习-14 再测晶振特性

再测一下4Mhz晶振&#xff0c;看看特性曲线&#xff0c;熟悉一下vna使用。 s11模式&#xff0c;找遍了各种format都无法显示&#xff0c;只有这一种&#xff08;s11&#xff0c;Resistance&#xff09;稍微显示出一个谐振&#xff0c;但是只有一个点。 s21模式 这是201p&#…

Tr0ll2靶机详解

一、主机发现 arp-scan -l靶机ip&#xff1a;192.168.55.164 二、端口扫描、漏洞扫描、目录枚举、指纹识别 2.1端口扫描 nmap --min-rate 10000 -p- 192.168.55.164发现21端口的ftp服务开启 以UDP协议进行扫描 使用参数-sU进行UDP扫描 nmap -sU --min-rate 10000 -p- 19…

基于开源模型的微调训练及瘦身打造随身扫描仪方案__用AI把手机变成文字识别小能手

基于开源模型的微调训练及瘦身打造随身扫描仪方案__用AI把手机变成文字识别小能手 一、准备工作&#xff1a;组装你的"数码工具箱" 1. 安装基础工具&#xff08;Python环境&#xff09; 操作步骤&#xff1a; 访问Python官网下载安装包安装时务必勾选Add Python to…

GitHub 超火的开源终端工具——Warp

Warp 作为近年来 GitHub 上备受瞩目的开源终端工具&#xff0c;以其智能化、高性能和协作能力重新定义了命令行操作体验。以下从多个维度深入解析其核心特性、技术架构、用户评价及生态影响力&#xff1a; 一、背景与核心团队 Warp 由前 GitHub CTO Jason Warner 和 Google 前…

使用C#创建安装Windows服务程序

在实际工作中&#xff0c;如果我们需要开发一个运行在后台&#xff0c;无需用户交互&#xff0c;不需要界面的应用程序&#xff0c;我们可以通过Windows服务来实现。 本文主要介绍如何基于C#创建一个Windows服务&#xff0c;来实现西门子PLC的定时读取保存。 一、Windows服务…

吴恩达机器学习笔记复盘(六)梯度下降算法

简介 梯度下降&#xff08;Gradient Descent&#xff09;是一种常用的优化算法&#xff0c;广泛应用于机器学习、深度学习等领域&#xff0c;在这里是用于求J&#xff08;w,b&#xff09;局部最小值。 我自己觉得这样说有点过于抽象。换个直观点的说法就是&#xff0c;一个人…

使用JAVA-进行维吉尼亚密码的解密与加密

维吉尼亚密码 来源于百度百科 维吉尼亚密码_百度百科 具体代码 import java.util.*;public class WJMYmm {//常量 26public static final int N 26;//密码public static void main(String[] args) {//字母String ZM"abcdefghijklmnopqrstuvwxyz";char[] zm ZM.…

LeetCode 解题思路 22(Hot 100)

解题思路&#xff1a; 递归思路&#xff1a; 传入当前节点的最小值和最大值&#xff0c;递归判断左右子树。结束条件&#xff1a; 当前节点为空或不满足二叉搜索树。 Java代码&#xff1a; class Solution {public boolean isValidBST(TreeNode root) {return isValidBST(ro…

乐享数科:政策助推假日经济,2月普惠金融-景气指数稳中有升

数据显示&#xff0c;2025年2月普惠金融-景气指数达48.99点&#xff0c;较1月上升0.03点。 企业运行持续向好&#xff0c;企业信心预期和经营活力回升。“假日经济”与“政策效应”相互叠加&#xff0c;市场供求格局有所改善&#xff0c;景气水平稳步恢复。 普惠金融-景气指数…

leetcode日记(108)验证回文串

看上去很简单&#xff0c;其实很麻烦。 一开始写的递归&#xff0c;但是内存超限……搜了下发现原因是每次递归调用都会创建一个新的字符串副本&#xff0c;这在处理长字符串时会占用大量内存。 class Solution { public:bool isPalindrome(string s) {if(s.size()0||s.size(…

用css绘制收银键盘

最近需求说需要自己弄个收银键盘&#xff0c;于是乎直接上手搓 主要基于Vue3写的&#xff0c;主要是CSS <template><view class"container"><view class"info"><image class"img" src"" mode"">&l…

智能车间管理系统(源码+文档+讲解+演示)

引言 在现代制造业中&#xff0c;智能车间管理系统正成为推动工业4.0和智能制造的关键力量。它通过整合先进的信息技术和自动化技术&#xff0c;优化生产流程&#xff0c;提高生产效率&#xff0c;降低成本&#xff0c;并确保产品质量。 系统概述 智能车间管理系统采用前后端…

单片机开发资源分析的实战——以STM32F103C8T6为例子的单片机资源分析

目录 第一点&#xff1a;为什么叫STM32F103C8T6 从资源手册拿到我们的对STM32F103C8T6的资源描述 第二件事情&#xff0c;关心我们的GPIO引脚输出 第三件事情&#xff1a;去找对应外设的说明部分 前言 本文章隶属于项目&#xff1a; Charliechen114514/BetterATK: This is…

腾讯云MySQL数据库架构分析与使用场景

TDSQL-C for MySQL TDSQL-C MySQL 版&#xff08;TDSQL-C for MySQL&#xff09;是腾讯云自研的新一代云原生关系型数据库。融合了传统数据库、云计算与新硬件技术的优势&#xff0c;为用户提供具备高弹性、高性能、海量存储、安全可靠的数据库服务。TDSQL-C MySQL 版100%兼容…

荣耀手机卸载应用商店、快应用中心等系统自带的

1.下载abd ADB Download - Get the latest version of ADB and fastboot 2.手机打开开发者选项 3.手机接电脑打开USB调试 4.下载MT管理器查看系统包名 D:\1.LFD\ADB\platform-tools-latest-windows\platform-tools>adb shell adb.exe: no devices/emulators found 这边是…

网络流基本概念及实现算法

基本概念 流网络 对于一个有向图, 抽象成水管里的水的模型, 每根管子有容量限制, 计为 G ( V , E ) G (V, E) G(V,E), 首先不考虑反向边 对于任意无向图, 都可以将反向边转化为上述形式 如果一条边不存在, 定义为容量为 0 0 0, 形式上来说就是 c ( u , v ) 0 c(u, v) 0 c(…

【css酷炫效果】纯CSS实现球形阴影效果

【css酷炫效果】纯CSS实现球形阴影效果 缘创作背景html结构css样式完整代码基础版进阶版(动态版) 效果图 想直接拿走的老板&#xff0c;链接放在这里&#xff1a;上传后更新 缘 创作随缘&#xff0c;不定时更新。 创作背景 刚看到csdn出活动了&#xff0c;赶时间&#xff0…

Linux如何在设备树中表示和引用设备信息

DTS基本知识 dts 硬件的相应信息都会写在.dts为后缀的文件中&#xff0c;每一款硬件可以单独写一份xxxx.dts&#xff0c;一般在Linux源码中存在大量的dts文件&#xff0c;对于arm架构可以在arch/arm/boot/dts找到相应的dts&#xff0c;一个dts文件对应一个ARM的machie。 dtsi 值…

C++20 中的同步输出流:`std::basic_osyncstream` 深入解析与应用实践

文章目录 一、std::basic_osyncstream 的背景与动机二、std::basic_osyncstream 的基本原理三、std::basic_osyncstream 的使用方法&#xff08;一&#xff09;基本用法&#xff08;二&#xff09;多线程环境下的使用&#xff08;三&#xff09;与文件流的结合 四、std::basic_…