【机器学习】数据集合集!

本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。

1

privacy

  • 更新时间:2024-11-26

  • 访问地址: GitHub

  • 描述:

    此存储库包含 TensorFlow Privacy(一种 Python)的源代码 库,其中包含用于训练的 TensorFlow 优化器的实现 具有差分隐私的机器学习模型。该库附带 用于计算提供的隐私保证的教程和分析工具。

  • 用途:

    用于训练机器学习模型的库,具有训练数据的隐私

  • 数据集网址:

    https://github.com/tensorflow/privacy

2

sagemaker-python-sdk

  • 更新时间:2024-11-26

  • 访问地址: GitHub

  • 描述:

    SageMaker Python 开发工具包是一个开源库,用于在 Amazon SageMaker 上训练和部署机器学习模型。

    借助该开发工具包,您可以使用流行的深度学习框架 Apache MXNet 和 TensorFlow 训练和部署模型。 您还可以使用 Amazon 算法训练和部署模型。 它们是针对 SageMaker 和 GPU 训练优化的核心机器学习算法的可扩展实施。 如果您在与 SageMaker 兼容的 Docker 容器中内置了自己的算法,您也可以使用这些算法来训练和托管模型。

  • 用途:

    用用于在 Amazon SageMaker 上训练和部署机器学习模型的库

  • 数据集网址:

    https://github.com/aws/sagemaker-python-sdk

3

sagemaker-training-toolkit

  • 更新时间:2024-9-10

  • 访问地址: GitHub

  • 描述:

    Amazon SageMaker 是一项完全托管的服务,适用于数据科学和机器学习 (ML) 工作流。 您可以使用 Amazon SageMaker 来简化构建、训练和部署 ML 模型的过程。

    要训练模型,您可以将训练脚本和依赖项包含在运行训练代码的 Docker 容器中。 容器提供有效隔离的环境,确保一致的运行时和可靠的训练过程。

    SageMaker 训练工具包可以轻松添加到任何 Docker 容器中,使其与 SageMaker 的训练模型兼容。 如果您使用预构建的 SageMaker Docker 映像进行训练,则此库可能已包含在内。

  • 用途:

    使用 🧠 Amazon SageMaker 在 🐳 Docker 容器中训练机器学习模型。

  • 数据集网址:

    https://github.com/aws/sagemaker-training-toolkit

4

Machine-Learning-Guide

  • 更新时间:2024-01-05

  • 访问地址: GitHub

  • 描述:

    该指南涵盖机器学习,包括应用程序、库和工具,这些应用程序、库和工具将使您更好、更高效地进行机器学习开发。

  • 用途:

    机器学习指南。了解有关机器学习工具、库、框架、大型语言模型 (LLM) 和训练模型的所有信息。

  • 数据集网址:

    https://github.com/mikeroyal/Machine-Learning-Guide

5

unstructured

  • 更新时间:2024-11-26

  • 访问地址: GitHub

  • 描述:

    该库提供了用于摄取和预处理图像和文本文档(如 PDF、HTML、Word 文档等)的开源组件。其使用案例围绕简化和优化 LLM 的数据处理工作流程展开。 模块化函数和连接器形成一个有凝聚力的系统,可简化数据摄取和预处理,使其能够适应不同的平台,并有效地将非结构化数据转换为结构化输出。

  • 用途:

    开源库和 API,用于构建用于标记、训练或生产机器学习管道的自定义预处理管道。

  • 数据集网址:

    https://github.com/Unstructured-IO/unstructured

6

arcann_training

  • 更新时间:2024-10-31

  • 访问地址: GitHub

  • 描述:

    ArcaNN 提出了一种自动化的增强采样生成训练集,用于化学反应机器学习原子间电位。 在当前版本中,它旨在简化和自动化用户选择系统的 DeePMD-kit 神经网络潜力的迭代训练过程,但训练过程的核心概念可以扩展到其他网络架构。 此代码的主要优点是其模块化、能够微调训练过程以适应您的系统和工作流程以及出色的可追溯性,因为代码记录了过程中设置的每个参数。 在迭代训练过程中,您将迭代训练神经网络电位,将其用作分子动力学模拟的反作用力场(以探索相空间),根据 query by committee 方法选择和标记一些配置,然后使用改进的训练集再次训练神经网络电位,依此类推。 这个工作流程,有时被称为主动或并发学习,在很大程度上受到了 DP-GEN 的启发,我们使用他们的命名方案来迭代过程的步骤。

  • 用途:化学反应机器学习原子间电位训练集的自动增强采样生成

  • 数据集网址:

    https://github.com/arcann-chem/arcann_training

7

Minerva

  • 更新时间:2024-8-20

  • 访问地址: GitHub

  • 描述:

    Minerva 具有强大的命令行界面 (CLI),简化了训练和评估模型的过程。此外,它还为实验提供了版本控制和配置系统,确保可重复性并促进社区内结果的比较。

  • 用途:

    旨在为从事机器学习项目的研究人员提供一个强大而灵活的框架。它包括用于数据转换、模型创建和分析指标的各种实用程序和模块。

  • 数据集网址:

    https://github.com/discovery-unicamp/Minerva

8

lab-workshops

  • 更新时间:2024-09-05

  • 访问地址: GitHub

  • 描述:

    文本挖掘、机器学习和数据可视化研讨会的材料

  • 数据集网址:

    https://github.com/YaleDHLab/lab-workshops

9

Determined 

  • 更新时间:2024-11-22

  • 访问地址: GitHub

  • 描述:

    Determined 是一个一体化深度学习平台,与 PyTorch 和 TensorFlow 兼容。

    它负责:

  1. 分布式训练可更快获得结果。

  2. 用于获得最佳模型的超参数优化。

  3. 用于降低云 GPU 成本的资源管理。

  4. 用于分析和重现性的实验跟踪。

  • 用途:Determined 是一个开源机器学习平台,可简化分布式训练、超参数优化、实验跟踪和资源管理。适用于 PyTorch 和 TensorFlow。

  • 数据集网址:

    https://github.com/determined-ai/determined

10

modulus-makani

  • 更新时间:2024-10-15

  • 访问地址: GitHub

  • 描述:

    Makani 由 NVIDIA 和 NERSC 的工程师和研究人员创立,用于训练 FourCastNet,这是一种基于深度学习的天气预报模型。

    Makani 是一种研究代码,用于在 100+ GPU 上大规模并行训练天气和气候预测模型,并支持开发下一代天气和气候模型。其中,Makani 用于在 ERA5 数据集上训练球形傅里叶神经算子 (SFNO) [1] 和自适应傅里叶神经算子 (AFNO) [2]。Makani 是用 PyTorch 编写的,支持各种形式的模型和数据并行、异步加载数据、不可预测的通道、自回归训练等等。

  • 用途:旨在支持在 PyTorch 中研究和开发基于机器学习的天气和气候模型。

  • 数据集网址:https://github.com/NVIDIA/modulus-makani

END

 温馨  小贴士

如有您想了解的计算机方向数据集

请联系我们

免费为您提供数据集搜索服务

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/62094.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux V4L2框架介绍

linux V4L2框架介绍 V4L2框架介绍 V4L2,全称Video for Linux 2,是Linux操作系统下用于视频数据采集设备的驱动框。它提供了一种标准化的方式使用户空间程序能够与视频设备进行通信和交互。通过V4L2接口,用户可以方便地实现视频图像数据的采…

[网安靶场] [更新中] UPLOAD LABS —— 靶场笔记合集

GitHub - c0ny1/upload-labs: 一个想帮你总结所有类型的上传漏洞的靶场一个想帮你总结所有类型的上传漏洞的靶场. Contribute to c0ny1/upload-labs development by creating an account on GitHub.https://github.com/c0ny1/upload-labs 0x01:UPLOAD LABS 靶场初识…

SpringBoot社团管理:用户体验优化

3系统分析 3.1可行性分析 通过对本社团管理系统实行的目的初步调查和分析,提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本社团管理系统采用SSM框架,JAVA作为开发语言&#…

uniapp内嵌的webview H5与应用通信

H5端&#xff1a; 1、找到index.html引入依赖 <script type"text/javascript" src"https://unpkg.com/dcloudio/uni-webview-js0.0.3/index.js"></script> 2、在需要通讯处发送消息 uni.postMessage({data:{code:200,msg:"处理完成&q…

org.apache.log4j的日志记录级别和基础使用Demo

org.apache.log4j的日志记录级别和基础使用Demo&#xff0c;本次案例展示&#xff0c;使用是的maven项目&#xff0c;搭建的一个简单的爬虫案例。里面采用了大家熟悉的日志记录插件&#xff0c;log4j。来自apache公司的开源插件。 package com.qian.test;import org.apache.log…

数据绑定与状态管理

鸿蒙操作系统&#xff08;HarmonyOS&#xff09;是华为公司推出的一款面向全场景的分布式操作系统。它不仅能够支持手机、平板等智能设备&#xff0c;还能够应用于智能家居、智能穿戴、车机等多种终端。为了适应多端设备的开发需求&#xff0c;华为推出了ArkUI框架&#xff0c;…

【后端面试总结】MySQL面试总结

后端的面试中数据库是一个绕不开的话题&#xff0c;而其中事务又是出镜率很高的一个知识点&#xff0c;那么事务又是由哪些关键技术组成呢&#xff0c;总结起来就是4个关键点&#xff1a;ACID 原子性&#xff1a; 定义&#xff1a; 原子性是指一个事务是一个不可分割的工作单…

2024年第15届蓝桥杯C/C++组蓝桥杯JAVA实现

目录 第一题握手&#xff0c;这个直接从49累加到7即可&#xff0c;没啥难度&#xff0c;后面7个不握手就好了&#xff0c;没啥讲的&#xff0c;(然后第二个题填空好难&#xff0c;嘻嘻不会&#xff09; 第三题.好数​编辑 第四题0R格式 宝石组合 数字接龙 最后一题:拔河 第…

matlab根据excel表头筛选表格数据

有如下表格需要筛选&#xff1a; 如果要筛选style中的A&#xff0c;color中的F2&#xff0c;num中的3。 代码如下&#xff1a; clear;clc; file_Pathstrcat(F:\csdn\,test1.xlsx); %表格路径、文件名 E1readtable(file_Path,Sheet,1); %读取表格中的字母和数字,1代表第一个…

wordpress二开-WordPress新增页面模板-说说微语

微语说说相当于一个简单的记事本&#xff0c;使用还是比较方便的。这个版本的说说微语CSS样式不兼容&#xff0c;可能有些主题无法适配&#xff0c;但是后台添加内容&#xff0c;前端显示的逻辑已经实现。可以当作Word press二开中自定义页面模板学习~ 一、后台添加说说微语模…

day05(单片机高级)PCB基础

目录 PCB基础 什么是PCB&#xff1f;PCB的作用&#xff1f; PCB的制作过程 PCB板的层数 PCB设计软件 安装立创EDA PCB基础 什么是PCB&#xff1f;PCB的作用&#xff1f; PCB&#xff08;Printed Circuit Board&#xff09;&#xff0c;中文名称为印制电路板&#xff0c;又称印刷…

图像标签格式转换

在做图像检测的时候&#xff0c;不同打标签软件得到的标签格式可能会不一样&#xff0c;此处提供lableimg&#xff08;txt格式&#xff09;和lableme&#xff08;json格式&#xff09;的互换。 json →txt import os import json import cv2 import base64 import argparsede…

【机器学习】——朴素贝叶斯模型

&#x1f4bb;博主现有专栏&#xff1a; C51单片机&#xff08;STC89C516&#xff09;&#xff0c;c语言&#xff0c;c&#xff0c;离散数学&#xff0c;算法设计与分析&#xff0c;数据结构&#xff0c;Python&#xff0c;Java基础&#xff0c;MySQL&#xff0c;linux&#xf…

CMake Qt Debug/Release可执行文件增加图标

将logo.ico复制到CMakeLists.txt的同级目录下&#xff0c;然后新建logo.rc文件&#xff0c;里边输入如下代码 IDI_ICON1 ICON DISCARDABLE "logo.ico"CMakeLists.txt修改此处 ADD_EXECUTABLE(${ModuleName} ${KIT_SRCS} ${QRC_SRCS} ${UISrcs} ${MOC_OUTPUT} logo.…

【Android+多线程】异步 多线程 知识总结:基础概念 / 多种方式 / 实现方法 / 源码分析

1 基本概念 1.1 线程 定义&#xff1a;一个基本的CPU执行单元 & 程序执行流的最小单元 比进程更小的可独立运行的基本单位&#xff0c;可理解为&#xff1a;轻量级进程组成&#xff1a;线程ID 程序计数器 寄存器集合 堆栈注&#xff1a;线程自己不拥有系统资源&#…

自动驾驶系统研发系列—智能驾驶倒车盲区终结者:智能侧向警告与制动技术解析

🌟🌟 欢迎来到我的技术小筑,一个专为技术探索者打造的交流空间。在这里,我们不仅分享代码的智慧,还探讨技术的深度与广度。无论您是资深开发者还是技术新手,这里都有一片属于您的天空。让我们在知识的海洋中一起航行,共同成长,探索技术的无限可能。 🚀 探索专栏:学…

Error: Invalid version flag: if 问题排查

问题描述&#xff1a; 国产化系统适配&#xff0c;arm架构的centos 在上面运行docker 启动后需要安装数据库 依赖perl 在yum install -y perl 时提示&#xff1a; “Error: Invalid version flag: if”

Git指令大全

文章目录 前言1. 初始化与配置初始化一个 Git 仓库设置 Git 用户名设置 Git 邮箱查看当前配置 2. 版本管理查看版本历史查看简洁的版本历史查看某个文件的修改历史查看文件的更改查看暂存区与工作区的区别 3. 分支管理创建新分支切换分支创建并切换到新分支查看所有分支删除本地…

华为鸿蒙内核成为HarmonyOS NEXT流畅安全新基座

HDC2024华为重磅发布全自研操作系统内核—鸿蒙内核&#xff0c;鸿蒙内核替换Linux内核成为HarmonyOS NEXT稳定流畅新基座。鸿蒙内核具备更弹性、更流畅、更安全三大特征&#xff0c;性能超越Linux内核10.7%。 鸿蒙内核更弹性&#xff1a;元OS架构&#xff0c;性能安全双收益 万…

《免费学习网站推荐1》

《免费学习网站推荐1》 1、综合学习类 网易公开课&#xff1a;有国内众多大学视频公开课&#xff0c;以及TED、可汗学院等国际名校公开课&#xff0c;课程涵盖文学、哲学、语言、社会、历史、商业等多个领域&#xff0c;外文课程有翻译可无障碍观看.Coursera&#xff1a;与全…