AI系统性学习05—向量数据库

文章目录

  • 1、Chroma向量数据库
    • 1.1 安装Chroma
    • 1.2 初始化Chroma客户端
    • 1.3 创建一个合集
    • 1.4 添加数据
    • 1.5 查询数据
    • 1.6 持久化数据
    • 1.7 集合操作
      • 1.7.1 创建集合
      • 1.7.2 获取集合
      • 1.7.3 删除集合
      • 1.7.4 其他操作
      • 1.8 向集合添加数据
      • 1.9 查询集合数据
      • 1.10 更新集合数据
      • 1.11 删除集合数据
      • 1.12 向量计算
  • 2、Qdrant向量数据库
    • 2.1 什么是Qdrant?
    • 2.2 什么是向量数据库?⭐️⭐️⭐️
    • 2.3 为什么需要向量数据库?
    • 2.4 Qdrant快速入门
    • 2.5 QDrant集合(Collections)
    • 2.6 Qdrant向量数据(Points)
    • 2.7 Qdrant关联数据(Payload)
    • 2.8 Qdrant搜索⭐️⭐️⭐️

1、Chroma向量数据库

Chroma是一款开源的向量数据库,它使用向量相似度搜索技术,可以快速有效地存储和检索大规模高维向量数据。它的应用场景包括推荐系统、图像和视频搜索、自然语言处理等领域,可以帮助用户快速地找到相似的数据和信息。

Chroma是一款应用嵌入式数据库,以包的形式嵌入到我们的代码,Chroma的优点就是简单,如果你在开发LLM应用需要一个向量数据库实现LLM记忆功能,需要支持文本相似语言搜索,又不想安装独立的向量数据库,Chroma是不错的选择。

1.1 安装Chroma

pip install chromadb

1.2 初始化Chroma客户端

import chromadb
chroma_client = chromadb.client()

1.3 创建一个合集

合集(collection)在chroma数据库中的作用就类似表,存储向量数据(包括文档和其他源数据)的地方,下面创建一个集合:

# 创建集合
collection = chroma_client.create_collection(name="test")

1.4 添加数据

Chroma会存储我们的数据,并根据文本数据的向量创建专门的向量索引方便后面查询。

  • 使用内置的嵌入模型计算向量
# 假设这里是需要存储的文本
text1 = "This is a document"
text2 = "This is another document"# 使用内置的嵌入模型计算向量
collection.add(documents=[text1,text2],metadatas=[{"source": "my_source"}, {"source": "my_source"}],ids=["id1", "id2"]
)
  1. documents参数就是需要写入的文本数据数组,支持一次插入多条数据
  2. metadatas是每条写入的数据关联的一些属性
  3. ids 是每条写入数据的id
  • 添加数据的时候指定向量值
# 指定向量值
collection.add(embeddings=[[1.2, 2.3, 4.5], [6.7, 8.2, 9.2]],documents=[text1, text2],metadatas=[{"source": "my_source"}, {"source": "my_source"}],ids=["id1", "id2"]
)

1.5 查询数据

results = collection.query(query_texts=["This is a query document"],n_results=2
)

其中n为n个最相似的结果。默认情况下,Chroma中的数据是存储在内存中,重启程序数据就丢了,当然你可以设置Chroma的数据持久化到硬盘,这样程序启动的时候会去加载磁盘中的数据。

1.6 持久化数据

client = chromadb.PersistentClient(path="/data/tizi365.db")

客户端对象一些常用的函数

client.reset() # 清空并完全重置数据库

1.7 集合操作

前面提到过,chromadb中的集合类似mysql中的数据表,因此其命名本身也存在一些限制:

  • 名称长度必须介于3到63个字符之间。
  • 名称必须以小写字母或数字开头和结尾,中间可以包含点、破折号和下划线。
  • 名称不能包含两个连续的点。
  • 名称不能是有效的IP地址。
    创建集合,需要指定集合名称和一个可选的向量计算函数(也叫embedding嵌入函数)。如果提供了嵌入函数,则必须在每次获取集合时提供它。需要注意的是,如果你在创建时候指定了向量计算函数,则获取集合时也应该提供向量计算函数

1.7.1 创建集合

# 通过embedding_function参数指定向量计算函数,不指定则使用内置的函数
collection = client.create_collection(name="my_collection", embedding_function=emb_fn)

创建时候,还可以指定向量计算方法,类似如下:

collection = client.create_collection(name="collection_name",metadata={"hnsw:space": "cosine"} # l2 是默认的计算方法)

1.7.2 获取集合

# 如果创建集合的使用指定了向量计算函数,引用集合的时候也要指定向量计算函数
collection = client.get_collection(name="my_collection", embedding_function=emb_fn)

1.7.3 删除集合

# 删除指定集合
client.delete_collection(name="my_collection")

1.7.4 其他操作

collection.peek() # 返回集合中前 10 个数据的列表
collection.count() # 返回集合中的数据总数
collection.modify(name="new_name") # 重命名集合

1.8 向集合添加数据

使用.add方法将数据添加到Chroma,类似如下:

collection.add(documents=["lorem ipsum...", "doc2", "doc3", ...],metadatas=[{"chapter": "3", "verse": "16"}, {"chapter": "3", "verse": "5"}, {"chapter": "29", "verse": "11"}, ...],ids=["id1", "id2", "id3", ...]
)

如果 Chroma 收到一个文档列表(documents),它会自动使用集合的嵌入函数对文档进行向量计算(如果创建集合时未提供嵌入函数,则使用默认值)。Chroma 还会存储文档本身。如果文档太大,无法使用所选的嵌入函数计算,则会出现异常。

每个文件都必须有一个唯一的ID(ids)。两次添加相同的 ID 会导致只存储初始值。可以为每个文档提供一个可选的元数据字典(metadatas)列表,以存储更多信息,用于支持查询的时候筛选数据。

或者,你也可以直接提供文档相关向量数据的列表,Chroma直接使用你填写的向量数据,而不会自动计算向量。(但是需要注意的是提供的向量维度(长度)与集合的维度不一致),则会出现异常。
你也可以将文档存储在其他地方,只需向 Chroma 提供向量数据和元数据列表即可。你可以使用 ids 将向量与存储在其他地方的文档关联起来。

collection.add(embeddings=[[1.1, 2.3, 3.2], [4.5, 6.9, 4.4], [1.1, 2.3, 3.2], ...],metadatas=[{"chapter": "3", "verse": "16"}, {"chapter": "3", "verse": "5"}, {"chapter": "29", "verse": "11"}, ...],ids=["id1", "id2", "id3", ...]
)

需要注意的是,向量数据库的核心功能是基于向量数据的语义搜索,为减小向量数据库的大小,提高效率,我们可以选择在向量数据库存储向量数据和一些需要筛选的属性条件就行,其他数据,例如文章内容等数据,存储到其他专门的数据库中,只要通过id关联起来就可以了。

1.9 查询集合数据

collection.query(query_embeddings=[[11.1, 12.1, 13.1],[1.1, 2.3, 3.2], ...],n_results=10,where={"metadata_field": "is_equal_to_this"},where_document={"$contains":"search_string"}
)

查询将按顺序返回与每个查询向量(query_embedding)最匹配的 n_results 个结果。可以提供一个可选的 where 过滤字典,根据与每个文档相关的元数据过滤结果。此外,还可提供一个可选的 where_document 过滤字典,用于根据文档内容过滤结果。

如果提供的 query_embeddings 与集合的维度不一致,则会出现异常,为了确保向量维度一致,统一使用同一个文本嵌入模型计算向量就行。

你也可以通过一组查询文本进行查询。Chroma 会首先使用集合的嵌入函数计算每一个查询文本的向量,然后使用生成的文本向量执行查询。

# 直接通过文本查询,相似的内容,这里chroma会使用默认嵌入模型计算向量
collection.query(query_texts=["doc10", "thus spake zarathustra", ...],n_results=10,where={"metadata_field": "is_equal_to_this"},where_document={"$contains":"search_string"}
)

另外可以使用.get从集合中按照id查询数据

collection.get(ids=["id1", "id2", "id3", ...],where={"style": "style1"}
)

.get 还支持 where 和 where_document 筛选器。如果没有提供 id,它将返回集合中符合 where 和 where_document 筛选器的所有项目。

1.10 更新集合数据

# 根据id批量更新数据
collection.update(ids=["id1", "id2", "id3", ...],embeddings=[[1.1, 2.3, 3.2], [4.5, 6.9, 4.4], [1.1, 2.3, 3.2], ...],metadatas=[{"chapter": "3", "verse": "16"}, {"chapter": "3", "verse": "5"}, {"chapter": "29", "verse": "11"}, ...],documents=["doc1", "doc2", "doc3", ...],
)

如果在集合中找不到 id,将记录错误并忽略更新。如果提供的文档没有相应的向量,将使用集合的嵌入函数计算向量。

1.11 删除集合数据

Chroma 支持使用 .delete 按 id 从集合中删除数据。与每个数据相关的向量、文档和元数据都将被删除。

collection.delete(ids=["id1", "id2", "id3",...],where={"chapter": "20"}
)

1.12 向量计算

默认情况下,Chroma 使用 Sentence Transformers的 all-MiniLM-L6-v2 模型计算向量。该嵌入模型可以创建句子和文档向量。该嵌入模型功能在本地计算机上运行,需要下载模型文件(这是自动完成的)。
前面的代码都是使用默认嵌入实现的,现在使用OpenAI提供的接口来完成嵌入并存入数据库中。

import chromadb
from chromadb.utils import embedding_functions
from chromadb.api.types import Documents, EmbeddingFunction, Embeddings# 初始化客户端
chroma_client = chromadb.Client()# 使用openai的嵌入接口
openai_ef = embedding_functions.OpenAIEmbeddingFunction(api_key="REPLACE BY YOUR KEY",model_name="text-embedding-ada-002"
)class MyEmbeddingFunction(EmbeddingFunction):def __call__(self, texts: Documents) -> Embeddings:return openai_ef.embed_with_retries(texts)# 创建集合
collection = chroma_client.create_collection(name="test", embedding_function=MyEmbeddingFunction())

2、Qdrant向量数据库

2.1 什么是Qdrant?

Qdrant是一个开源向量数据库,专为下一代AI应用程序设计。它是面向云原生的,并提供RESTful和gRPC API以管理嵌入。Qdrant的特性强大,支持图像、语音和视频搜索,以及与AI引擎的集成。

2.2 什么是向量数据库?⭐️⭐️⭐️

在这里插入图片描述

向量数据库是一种专门设计用于高效存储和查询高维向量的数据库。在传统的OLTP和OLAP数据库中(如上图所示),数据以行和列的方式组织(这些被称为表),查询是基于这些列中的值进行的。然后,在某些应用中,如图像识别、自然语言处理和推荐系统,数据通常以高维空间中的向量表示,这些向量加上一个id和有效负载,就是我们存储在类似于Qdrant的向量数据库中的元素。

在这个背景下,向量是对象或数据点(point)的数学表示,向量的每个元素对于对象的某个特征或者属性。例如,在图像识别系统中,向量可以表示为一个图像,向量的每个元素代表像素值或该像素特征/描述符。在音乐推荐系统中,每个向量代表一首歌曲,向量的每个元素代表歌曲的每个特征,比如节奏、流派、歌词等。

向量数据库针对高维向量的高效存储和查询进行了优化,通常使用了专门的数据结构和索引技术,如层次式可导航小世界(HNSW,用于实现近似最近邻搜索)和乘积量化等。这些数据库能够在允许用户按照某个距离度量标准,找到与给定查询向量最接近的向量的同时,实现快速相似性和语义搜索。最常用的距离度量标准有欧式距离、余弦相似度和点积,在Qdrant中这三种度量标准得到了完全的支持。

以下是对这三种向量相似度算法的简要介绍:

  • 余弦相似度(Cosine Similarity) - 余弦相似度是一种衡量两个事物相似程度的方式。可以将其视为一把标尺,用于测量两个点之间的距离,但与其测量距离不同,它测量的是两个事物之间的相似程度。它常用于文本中比较两个文档或句子之间的相似程度。余弦相似度的输出范围从0到1,其中0表示两个事物完全不相似,1表示两个事物完全相同。这是一种简单而有效的比较两个事物的方法!
  • 点积(Dot Product) - 点积相似度度量是另一种衡量两个事物相似程度的方式,类似于余弦相似度。在处理数字时,它通常用于机器学习和数据科学中。点积相似度通过将两组数字中的值相乘,然后将这些乘积加起来来计算得到。和越高的总和意味着两组数字越相似。它就像一个衡量两组数字彼此匹配程度的比例尺。
  • 欧式距离(Euclidean Distance) - 欧式距离是一种测量空间中两点之间距离的方式,类似于我们在地图上测量两个地方之间距离的方式。它的计算方式是找到两点坐标之间差值的平方和的平方根。这种距离度量方式通常在机器学习中用于衡量两个数据点的相似性或差异性,换句话说,用于了解它们之间有多远。

2.3 为什么需要向量数据库?

使用向量数据库的其他好处包括:

  • 高维数据的高效存储和索引。
  • 能够处理数十亿个数据点的大规模数据集。
  • 支持实时分析和查询。
  • 能够处理来自图像、视频和自然语言文本等复杂数据类型所导出的向量。
  • 提高机器学习和人工智能应用的性能并减少延迟。
  • 与构建自定义解决方案相比,减少开发和部署时间和成本。

2.4 Qdrant快速入门

  • 使用docker安装Qdrant
docker pull qdrant/qdrant
docker run -p 6333:6333 -p 6334:6334 -v ~/data:/qdrant.storage:z qdrant/qdrant
  • 访问WebUI:localhost:6333
    在这里插入图片描述
  • 创建集合(collections)
    Qdrant向量数据库的集合概念可以类比MYSQL的表结构,用于统一存储同一类向量数据,集合中存储的每一条数据,在Qdrant中称为点(points),这里的点有数学几何空间的点类似的意思,代表向量在几何空间中的表示(你就当成一条数据看待就行)。
PUT /collections/{collection_name}
{"vectors": {"size": 300,"distance": "Cosine"}
}

参数说明:

  • collection_name 集合名字(必填)
  • vectors 参数定义
    • size:向量的长度(也叫维度)
  • distance:向量相似度算法,主要有“Cosine”、“Euclid”、"Dot"三种算法。
  • 添加向量 (Points)
    创建好集合之后,我们可以向集合添加向量数据,在Qdrant中向量数据使用point表示,一条point数据包括三部分idpayload(关联数据)向量数据(vector)三部分。
PUT /collections/{collection_name}/points
{"points": [{"id": "5c56c793-69f3-4fbf-87e6-c4bf54c28c26", // id"payload": {"color": "red"}, // 关联的属性数据,通常业务这里可以关联业务的属性,例如:订单ID、商品ID、标题等等属性"vector": [0.9, 0.1, 0.1] // 向量数据,代表当前业务数据的特征}]
}
  • 向量搜索
    添加向量数据之后,我们可以通过向量进行语义相似度搜索。
POST /collections/{collection_name}/points/search
{"vector": [0.2, 0.1, 0.9, 0.7], // 向量参数"limit": 3 // 返回相似度最高的3条数据
}

需要将你搜索的内容,先转换为向量,然后再根据该向量在向量数量数据库中搜索。

  • 属性过滤
// collection_name - 集合名字
POST /collections/{collection_name}/points/search
{"filter": { // 这里主要用于过滤payload的关联属性,整体语法格式类似elasticsearch语法,这个参数是可选的"must": [ //筛选color=red的point数据{"key": "color","match": {"value": "red"}}]},"vector": [0.2, 0.1, 0.9, 0.7], // 向量参数"limit": 3
}

2.5 QDrant集合(Collections)

同一集合内每个点的向量都必须具有相同的维度,并通过单一度量进行比较。命名向量可用于在单个点中包含多个向量,每个向量都可以有自己的维度和度量要求。

距离度量用于衡量向量之间的相似性。度量的选择取决于向量获取的方式,特别是神经网络编码器训练的方法。

  • 设置多租户

    • 应该创建多少个集合?
      大多数情况下,只需要使用一个带有基于有效负载的分区的集合。这种方法称为多租户。对于大多数用户来说,这是高效的,但是需要额外配置。
    • 何时应该创建多个集合?
      当您有有限的用户数并且需要隔离时。这种方法更灵活,但可能更加昂贵,因为创建大量集合可能会导致资源开销。此外,您需要确保它们不以任何方式相互影响,包括性能方面。
  • 创建集合

PUT /collections/{collection_name}{"vectors": {"size": 300,"distance": "Cosine"}
}
  • 删除集合
DELETE /collections/{collection_name}
  • 更新集合
    向量都存储在内存中以便快速访问。针对每个向量,可以将on_disk设置为ture,以便始终将所有向量存储在磁盘上。这将启用内存映射,适用于摄取大量数据。以下命令为存储了超过10000k向量段启用索引。
PATCH /collections/{collection_name}
{"optimizers_config": {"indexing_threshold": 10000}
}
  • 获取集合信息
GET /collections/{collection_name}

2.6 Qdrant向量数据(Points)

点(points)是Qdrant操作的核心实体。一个点是由向量(vector)和可选载荷(payload)组成的记录。

您可以根据向量(矢量)相似性搜索在一个集合中分组的点。更详细的过程描述在搜索和过滤部分中。

本节介绍如何创建和管理矢量(向量)。

任何点(point)的修改操作都是异步的,并且分为两个步骤。在第一阶段,操作将被写入预写日志中。

此刻开始,即使机器供电中断,服务也不会丢失数据。

  • 点ID
    Qdrant支持使用64位无符号整数和UUID作为点的标识符。
    这意味着在每个请求中,可以使用UUID字符串来替代数字ID
PUT /collections/{collection_name}/points
{"points": [{"id": "5c56c793-69f3-4fbf-87e6-c4bf54c28c26","payload": {"color": "red"},"vector": [0.9, 0.1, 0.1]}]
}
  • 上传数据
    为了优化性能,Qdrant支持批量加载数据点。也就是说,您可以在一次API调用中加载多个数据点到服务中。批量加载可以最大程度地减少网络连接的开销。

Qdrant API支持两种批量创建方式 - 记录导向和列导向。在内部,这些选项没有区别,只是为了方便交互。

PUT /collections/{collection_name}/points{"points": [{"id": 1,"payload": {"color": "red"},"vector": [0.9, 0.1, 0.1]},{"id": 2,"payload": {"color": "green"},"vector": [0.1, 0.9, 0.1]},{"id": 3,"payload": {"color": "blue"},"vector": [0.1, 0.1, 0.9]}]
}
  • 更新数据点
    未指定的向量将保持不变。所有给定的点都必须存在。
PUT /collections/{collection_name}/points/vectors{"points": [{"id": 1,"vector": {"image": [0.1, 0.2, 0.3, 0.4]}},{"id": 2,"vector": {"text": [0.9, 0.8, 0.7, 0.6, 0.5, 0.4, 0.3, 0.2]}}]
}
  • 删除向量
    该方法仅从给定点中删除指定的向量。其他向量将保持不变。不会删除点。
POST /collections/{collection_name}/points/vectors/delete{"points": [0, 3, 100],"vectors": ["text", "image"]
}

2.7 Qdrant关联数据(Payload)

Qdrant的一个重要特性之一是能够在向量之外存储附加信息(存储管理业务属性)。在Qdrant术语中,这些附加信息被称为“负载”。

Qdrant允许您存储任何可以使用JSON表示的信息。

  • payload 类型
    除了存储负载外,Qdrant还允许您基于某些特定类型的值进行搜索。这个特性实现为搜索过程中的附加过滤器,并且可以让您在语义相似性之上嵌入自定义逻辑。

在过滤过程中,Qdrant将检查那些符合过滤条件的值的条件。如果存储的值类型不符合过滤条件,则被认为是未满足条件的。
简单来说,你可以提前设想好,存放哪些数据到json格式的数据中,然后将这个数据设置为对应向量的payload

  • 负载索引
    为了更有效地进行过滤搜索,Qdrant允许您通过指定字段的名称和类型来为负载字段创建索引。

    索引字段也会影响向量索引。

    在实践中,我们建议在那些可能最多限制结果的字段上创建索引。例如,使用对象ID的索引将比使用颜色的索引更高效,因为对象ID对于每个记录是唯一的,而颜色只有几个可能的值。

    在涉及多个字段的复合查询中,Qdrant将尝试首先使用最具限制性的索引。

    要为字段创建索引,可以使用以下内容:

    PUT /collections/{collection_name}/index
    {"field_name": "要创建索引的字段名称","field_schema": "keyword"
    }
    

2.8 Qdrant搜索⭐️⭐️⭐️

  • 相似度搜索
    在许多表示学习应用程序中,搜索最近的向量是核心要素。现代神经网络被训练成将对象转化为向量,使得在向量空间中相近的物体在现实世界中也相近。例如,具有相似含义的文本、视觉上相似的图片,或是属于相同流派的歌曲。
    在这里插入图片描述
  • 相似度度量
    有许多方法来评估向量之间的相似度。在Qdrant中,这些方法被称为相似度度量。选择哪种度量取决于向量的获取方式,尤其是神经网络编码器训练的方法。
    Qdrant支持以下最常见的度量类型:
  • 点积:Dot
  • 余弦相似度:Cosine
  • 欧几里得距离:Euclid
    在这里插入图片描述
    Qdrant通过两个步骤计算该度量,从而实现更高的搜索速度。第一步是在将向量添加到集合时进行向量归一化。这只对每个向量进行一次。

第二步是向量比较。在这种情况下,它等同于点积运算-由于SIMD的快速操作。

POST /collections/{collection_name}/points/search{"filter": {"must": [{"key": "city","match": {"value": "伦敦"}}]},"params": {"hnsw_ef": 128,"exact": false},"vector": [0.2, 0.1, 0.9, 0.7],"limit": 3
}
  • 分页
    搜索和推荐API允许跳过搜索结果的前几个结果,并仅返回从某个特定偏移量开始的结果。
POST /collections/{collection_name}/points/search{"vector": [0.2, 0.1, 0.9, 0.7],"with_vectors": true,"with_payload": true,"limit": 10,"offset": 100
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/756455.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于51单片机智能鱼缸控制系统

一、系统方案 1、本设计采用51单片机作为主控器。 2、液晶1602显示。 3、采集温度值,水质大小、水位值、DS1302显示年月日时分秒。 4、自动加热、定时喂食,自动换水、水泵加热。 5、按键设置。 二、硬件设计 原理图如下: 三、单片机软件设…

【教学类-44-08】20240319 “(幼儿用)数字练习簿1.0”(A4版)

背景需求: 我一直想把 “(幼儿用)数字练习簿”的内容复刻出来——这里面的字体始终找不到,是一种已经做成图片的手写数字字体 素材准备: 1、买了一本(幼儿用)数字练习簿,把每一页扫…

网络编程:多点通信+域套接字

一、多点通信 1.网络属性 getsockopt和setsockopt int getsockopt(int sockfd, int level, int optname, void *optval, socklen_t *optlen); int setsockopt(int sockfd, int level, int optname, const void *optval, socklen_t optlen); 功能:获取或设置套接字…

SSH服务

目录 一. 熟悉SSH服务 1.1 何为SSH协议 1.2 SSH服务优点 1.3 常见的SSH协议 1.4 SSH服务的功能 1.5 为何使用SSH服务 1.6 SSH服务的工作原理 1.6.1 公钥传输原理 1.6.2 ssh加密通讯原理 1.7 SSH服务的最佳应用场景 1.8 SSH服务远程登录的方式 1.8.1 方法一&#…

自动驾驶决策 - 规划 - 控制 (持续更新!!!)

总目录 Frenet与Cartesian坐标系 Apollo基础 - Frenet坐标系 车辆模型 车辆运动学和动力学模型 控制算法 PID控制器轨迹跟随实现 Pure Pursuit控制器路径跟随 路径跟踪算法Stanley 实现 c 无人驾驶LQR控制算法 c 实现 MPC自动驾驶横向控制算法实现 c 双环PID控制详细讲解 …

【DL经典回顾】激活函数大汇总(二十六)(Identity附代码和详细公式)

激活函数大汇总(二十六)(Identity附代码和详细公式) 更多激活函数见激活函数大汇总列表 一、引言 欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里,激活函数扮演着不可或缺的…

大模型面试题最全总结,没有一道是送分题。。。

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂同学、参加社招和校招面试的同学,针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 今天分享…

3月19日做题

[NPUCTF2020]验证🐎 if (first && second && first.length second.length && first!second && md5(firstkeys[0]) md5(secondkeys[0]))用数组绕过first1&second[1] 这里正则规律过滤位(Math.) (?:Math(?:\.\w)?) : 匹配 …

优化器算法SGD、Adam、AdamW等

文章目录 SGDSGD with momentumSGD with Nesterov AccelerationAdaGradRMSpropAdaDeltaAdamAdamW参考资料 假设有: 待优化的目标函数为 f ( w ) f(w) f(w),使用优化算法来最小化目标函数 f ( w ) : a r g m i n w f ( w ) f(w):argmin_wf(w) f(w):argmin…

【Mysql】面试题汇总

1. 存储引擎 1-1. MySQL 支持哪些存储引擎?默认使用哪个? 答: MySQL 支持的存储引擎包括 InnoDB、MyISAM、Memory 等。 Mysql 5.5 之前默认的是MyISAM,Mysql 5.5 之后默认的是InnoDB。 可以通过 show engines 查看 Mysql 支持…

外包2月,技术退步惊现!大专生逆袭大厂,全靠这份神秘资料!

大家好,我是一名大专生,19年通过校招进入湖南某软件公司,从事功能测试工作已近4年。今年8月,我意识到长期舒适的环境让我变得不思进取,技术停滞不前,甚至因此失去了谈了2年的女朋友。我下定决心&#xff0c…

金蝶云星空——插件dll重新发布报错:鏃犳硶鏄剧ず椤甸潰锛屽洜涓哄彂鐢熷唴閮ㄦ湇鍔″櫒閿欒銆�

项目场景: 金蝶插件开发 问题描述 今天更新了插件dll然后重启IIS金蝶就报如下错误: 解决方案: 折腾了一天结果发现是给自己挖坑了,这次更新我担心插件代码有问题就把原dll重命名了然后把最新dll更新到金蝶bin文件中&#xff0c…

【DBC专题】-11-使用Cantools将CAN/CANFD DBC自动生成C语言代码

目录 1 安装Python和Cantools 1.1 查看Python已安装的Package包 1.2 在Python中安装Cantools插件包 1.3 获取更多Cantools工具的更新动态 2 经典CAN/CANFD DBC自动生成C语言代码 2.1 批处理文件CAN_DBC_To_C.bat内容说明 2.2 经典CAN/CANFD DBC文件要求 2.3 如何使用生…

网站引用图片但它域名被墙了或者它有防盗链,我们想引用但又不能显示,本文附详细的解决方案非常简单!

最好的办法就是直接读取图片文件&#xff0c;用到php中一个常用的函数file_get_contents(图片地址)&#xff0c;意思是读取远程的一张图片&#xff0c;在输出就完事。非常简单&#xff5e;话不多说&#xff0c;直接上代码 <?php header("Content-type: image/jpeg&quo…

clipboard好用的复制剪切库

clipboard是现代复制到剪贴板的工具&#xff0c;其 gzip 压缩后只有 3kb&#xff0c;能够减少选择文本的重复操作&#xff0c;点击按钮就可以复制指定内容&#xff0c;支持原生HTMLjs&#xff0c;vue3和vue2。使用方法参照官方文档&#xff0c;so easy&#xff01;&#xff01;…

装X神器,装X图片生成器,高富帅模拟器

先展示两张效果 基金装X图 短信存款图 神器功能展示 总共有12大类可供用户选择 还有一些美感的&#xff1a; 总结 总之种类非常多&#xff0c;有了这个神器你懂的&#xff5e; 关注下方公众号&#xff0c;回复【zzsq】即可获取。

2、鸿蒙学习-申请调试证书和调试Profile文件

申请发布证书 发布证书由AGC颁发的、为HarmonyOS应用配置签名信息的数字证书&#xff0c;可保障软件代码完整性和发布者身份真实性。证书格式为.cer&#xff0c;包含公钥、证书指纹等信息。 说明 请确保您的开发者帐号已实名认证。每个帐号最多申请1个发布证书。 1、登录AppGa…

Linux软件管理(1)

软件管理 下载 wget Linux wget是一个下载文件的工具&#xff0c;它用在命令行下。 wget工具体积小但功能完善&#xff0c;它支持断点下载功能&#xff0c;同时支持FTP和HTTP下载方式&#xff0c;支持代理服务器和设置起来方便简单。 1.语法 wget [选项]……[URL]…… 2、…

阅读基础知识1

一 网络 1. 三次握手四次挥手 三次握手&#xff1a;为了建立长链接进行交互即建立一个会话&#xff0c;使用 http/https 协议 ① 客户端产生初始化序列号 Seqx &#xff0c;向服务端发送建立连接的请求报文&#xff0c;将 SYN1 同步序列号&#xff1b; ② 服务端接收建立连接…

洛谷_P1068 [NOIP2009 普及组] 分数线划定_python写法

P1068 [NOIP2009 普及组] 分数线划定 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 知识点&#xff1a; 这道题用到了自定义排序规则 n, m map(int,input().split()) data [] for i in range(n):l list(map(int,input().split()))data.append(l)import functoolsdef my_cm…