深度学习的笔记

1. 从huggingface上仅下载pytorch模型权重和配置文件到服务器

import os
import shutil
from huggingface_hub import snapshot_download# 直接指定模型和下载路径
model_name = 'openai/clip-vit-base-patch32'
download_path = '/home/xxx/.cache/huggingface/hub/models--anas-awadalla--mpt-7b'# 确保下载路径存在
os.makedirs(download_path, exist_ok=True)
print('*'*10, f'Start downloading {model_name}', '*'*10)# 下载模型
snapshot_download(repo_id=model_name,cache_dir=download_path,local_dir=download_path,local_dir_use_symlinks=False,ignore_patterns=["*.h5","*safetensors","*msgpack"],force_download=True,resume_download=False,etag_timeout=60)print('*'*10, 'Download finish', '*'*10)# 清理下载的模型目录
for item in os.listdir(download_path):if os.path.isdir(os.path.join(download_path, item)) and item.startswith('models'):shutil.rmtree(os.path.join(download_path, item))

2. 从huggingface的镜像站上下载数据集:

import os
from datasets import load_datasetos.environ["HF_DATASETS_BASE_URL"] = "https://hf-mirror.com/"# 数据集名称
dataset_name = 'lukaemon/mmlu'
download_path = '/data/share/xxx/'# 子集列表
subsets = ['subset1', 'subset2', 'subset3']  # 替换为实际的子集名称# 确保下载路径存在
os.makedirs(download_path, exist_ok=True)
print('*' * 10, f'Start downloading subsets of {dataset_name}', '*' * 10)# 下载数据集的每个子集
for subset in subsets:print(f'Downloading subset: {subset}')dataset = load_dataset(dataset_name, subset, cache_dir=download_path,trust_remote_code=True)["test"]print(f'Finished downloading subset: {subset}')print('*' * 10, 'Download finish', '*' * 10)

3. 关于对数概率(logits)和softmax函数:

对数概率(Logits):指的是在应用 softmax 函数之前的层的输出。它们是模型输出的原始未归一化的分数,可以理解为模型对每个类别的信心度量。这些分数可以是任意实数值,不限于0到1之间。

Softmax 函数是一种将对数概率(或任意实数值向量)转换成概率分布的方法。具体来说,它会对每个输出应用指数函数,然后对这些指数值进行归一化,使它们的和为1,从而转换为概率分布。

总结一下,对数概率(logits)是 softmax 函数的输入,而 softmax 函数的输出是一个概率分布,即模型对各个类别的预测概率。这两者经常一起使用,尤其是在处理分类问题时。

4. 你可以通过指定–name或-n参数来创建并命名一个新的Conda环境:

conda env create -f environment.yml #改成如下:conda env create -f environment.yml -n openflamingov1

5. epoch , batch ,step的关系

step = batch number * epoch number,解释如下:
step表示参数更新的次数假设有1000个数据,我想遍历10个epoch,我假设 batch_size = 10,也就是一次处理10张图片,
那么1个epoch 会有 1000/10 = 100个batch,也就是batch number = 100运行完一个batch_size的数据之后才会 计算loss ,进行反向传播,更新参数,step+1,那么1个epoch之后,更新100次,step=100
10个epoch,则表示有100 * 10 = 1000 个step来更新参数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/53079.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Oracle按照某一字段值排序并显示,相同的显示序号

Oracle按照某一字段值排序并显示,相同的显示序号 最近的工作遇到对于相同的字段,按照序号去显示值,并对相同的值进行排序 实验了半天,感觉满意的答案,分享给大家 第一种: ROW_NUMBER 语法: ROW_NUMBER() OVER (ORDER BY your_column) AS sequence_number 说明: 根据your_column…

leetcode21. 合并两个有序链表

思路: 用一个新链表来表示合并后的有序链表, 每次比较两个链表,将较小的那个结点存储至新链表中 # Definition for singly-linked list. # class ListNode(object): # def __init__(self, val0, nextNone): # self.val val # …

智能车镜头组入门(二)电路硬件的设计

自己设计的板子是参赛的必备条件,硬件在前期的投入比较高,后期基本上没问题。我们组就在硬件上吃了些亏。 负压镜头组需要四块板,一个电机驱动板,一个主板,另一个是无刷电调。 前文也说过,我们用的是mini…

[mysql]mysql排序和分页

#排序和分页本身是两块内容,因为都比较简单,我们就把它分到通一个内容里. #1排序: SELECT * FROM employees #我们会发现,我们没有做排序操作,但是最后出来的107条结果还是会按顺序发出,而且是每次都一样.这我们就有一个疑惑了,现在我们的数据库是根据什么来排序的,在我们没有进…

【与C++的邂逅】--- C++的IO流

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏: 与C的邂逅 本篇博客我们来了解C中io流的相关知识。 🏠 C语言输入输出 C语言中我们用到的最频繁的输入输出方式就是scanf ()与printf()。 sc…

论文解读《LaMP: When Large Language Models Meet Personalization》

引言:因为导师喊我围绕 “大语言模型的个性化、风格化生成” 展开研究,所以我就找相关论文,最后通过 ACL 官网找到这篇,感觉还不错,就开始解读吧! “说是解读,其实大部分都是翻译哈哈哈&#x…

系统安全设计规范(Word完整版)

1.1 总体设计 1.1.1 设计原则 1.2 物理层安全 1.2.1 机房建设安全 1.2.2 电气安全特性 1.2.3 设备安全 1.2.4 介质安全措施 1.3 网络层安全 1.3.1 网络结构安全 1.3.2 划分子网络 1.3.3 异常流量管理 1.3.4 网络安全审计 1.3.5 网络访问控制 1.3.6 完整性检查 1.…

Cpp类和对象(上)(3)

文章目录 前言一、面向过程与面向对象初步认识二、类的引入三、类的定义四、类的访问限定符及类的封装类的访问限定符类的封装 五、类的作用域(类域)六、类的实例化七、类对象模型如何计算类对象的大小类对象的存储方式猜测 八、this指针this指针的引出this指针的特性 九、C语言…

1×1卷积核【super star 卷积核】

一、11卷积的作用 我们先来给出11卷积的一般作用,如下所示: • 跨通道的特征整合 • 特征通道的升维与降维 • 减少权重参数(卷积核参数) 【 简化模型 】 1.1 特征通道的升维与降维/跨通道的特征整合/简化模型 输入数据&…

Node.js 多版本安装与切换指南

一.使用nvm的方法 1. 卸载nodejs 如果你的电脑有安装nodejs,需要先卸载掉;若没有请直接下一步。 2. 前往官网下载nvm nvm:一个nodejs版本管理工具! 官网地址:nvm文档手册 - nvm是一个nodejs版本管理工具 - nvm中文…

Oracle数据恢复—Oracle数据库误删除表数据如何恢复数据?

删除Oracle数据库数据一般有以下2种方式:delete、drop或truncate。下面针对这2种删除oracle数据库数据的方式探讨一下oracle数据库数据恢复方法(不考虑全库备份和利用归档日志)。 1、delete误删除的数据恢复方法。 利用oracle提供的闪回方法…

Linux进阶 修改文件所在组

chgrp 修改文件所属组 chgrp用于修改文件所属组。 基本语法chgrp [-R] groupname filename # -R 可选 递归修改filename下所有文件的所属组示例:不使用 -Rtotal 4 drwxr-xr-x 62 root root 4096 Jun 15 20:56 etc [root@node1 muzihua]# chgrp muzihua etc/ [root@node1 muzi…

简单题21 - 合并两个有序链表(Java)20240917

问题描述: java代码: /*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;* ListNode() {}* ListNode(int val) { this.val val; }* ListNode(int val, ListNode next) { this.val val…

【DAY20240918】03教你轻松配置 Git 远程仓库并高效推送代码!

文章目录 前言 git diff一、远程仓库?1、在 Gitee 上新建仓库:2、Git 全局设置:3、添加远程仓库:4、推送本地代码到远程仓库:5、输入用户名和密码:6、后续推送: 二、全情回顾三、参考 前言 git …

二十种编程语言庆祝中秋节

二十种编程语言庆祝中秋节 文章目录 二十种编程语言庆祝中秋节中秋快乐!家人们 🥳一 Python二 C三 C四 Java五 C#六 Perl七 Go八 Asp九 PHP十 JavaScript十一 JavaScript HTML十二 Visual Basic十三 早期 VB十四 Visual C十五 Delphi十六 Shell十七 Cobo…

【软件设计】常用设计模式--观察者模式

软件设计模式(四) 观察者模式一、观察者模式(Observer Pattern)1. 概念2. 模式结构3. UML 类图4. 实现方式C# 示例步骤1:定义观察者接口步骤2:定义主题接口步骤3:实现具体主题步骤4:…

从Prompt到创造:解锁AI的无限潜能

文章目录 🍊AI内容创作核心:提示词Prompt1 什么是提示词工程?1.1 提示词的原理是什么?1.2 提示词工程师:百万年薪的职业?1.3 谁都能成为提示词工程师吗? 2 提示词书写的基本技巧3 常见的提示词框架3.1 CO-…

场外个股期权通道商是什么业务?个人投资者可以参与场外期权吗?

今天带你了解场外个股期权通道商是什么业务?个人投资者可以参与场外期权吗?场外个股期权通道商在个股期权市场中起着重要的中介作用,提供定制化的交易服务和风险管理解决方案。 场外个股期权通道商 场外个股期权通道商是一种金融机构,主要…

15.10 在k8s部署grafana-deployment并导入k8s大盘

本节重点介绍 : grafana deployment部署k8s大盘导入 准备yaml 部署工作 1. 修改yaml中的节点选择器标签 k8s-node01改为你自己的节点 2. 在节点上创建数据目录 mkdir -pv /data/grafana3. 部署grafana # 部署 kubectl apply -f deployment.yaml # 检查 [rootprome-mast…

OpenCV高阶操作

在图像处理与计算机视觉领域,OpenCV(Open Source Computer Vision Library)无疑是最为强大且广泛使用的工具之一。从基础的图像读取、 1.图片的上下,采样 下采样(Downsampling) 下采样通常用于减小图像的…