【机器学习】数据集合集!

本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。

1

privacy

  • 更新时间:2024-11-26

  • 访问地址: GitHub

  • 描述:

    此存储库包含 TensorFlow Privacy(一种 Python)的源代码 库,其中包含用于训练的 TensorFlow 优化器的实现 具有差分隐私的机器学习模型。该库附带 用于计算提供的隐私保证的教程和分析工具。

  • 用途:

    用于训练机器学习模型的库,具有训练数据的隐私

  • 数据集网址:

    https://github.com/tensorflow/privacy

2

sagemaker-python-sdk

  • 更新时间:2024-11-26

  • 访问地址: GitHub

  • 描述:

    SageMaker Python 开发工具包是一个开源库,用于在 Amazon SageMaker 上训练和部署机器学习模型。

    借助该开发工具包,您可以使用流行的深度学习框架 Apache MXNet 和 TensorFlow 训练和部署模型。 您还可以使用 Amazon 算法训练和部署模型。 它们是针对 SageMaker 和 GPU 训练优化的核心机器学习算法的可扩展实施。 如果您在与 SageMaker 兼容的 Docker 容器中内置了自己的算法,您也可以使用这些算法来训练和托管模型。

  • 用途:

    用用于在 Amazon SageMaker 上训练和部署机器学习模型的库

  • 数据集网址:

    https://github.com/aws/sagemaker-python-sdk

3

sagemaker-training-toolkit

  • 更新时间:2024-9-10

  • 访问地址: GitHub

  • 描述:

    Amazon SageMaker 是一项完全托管的服务,适用于数据科学和机器学习 (ML) 工作流。 您可以使用 Amazon SageMaker 来简化构建、训练和部署 ML 模型的过程。

    要训练模型,您可以将训练脚本和依赖项包含在运行训练代码的 Docker 容器中。 容器提供有效隔离的环境,确保一致的运行时和可靠的训练过程。

    SageMaker 训练工具包可以轻松添加到任何 Docker 容器中,使其与 SageMaker 的训练模型兼容。 如果您使用预构建的 SageMaker Docker 映像进行训练,则此库可能已包含在内。

  • 用途:

    使用 🧠 Amazon SageMaker 在 🐳 Docker 容器中训练机器学习模型。

  • 数据集网址:

    https://github.com/aws/sagemaker-training-toolkit

4

Machine-Learning-Guide

  • 更新时间:2024-01-05

  • 访问地址: GitHub

  • 描述:

    该指南涵盖机器学习,包括应用程序、库和工具,这些应用程序、库和工具将使您更好、更高效地进行机器学习开发。

  • 用途:

    机器学习指南。了解有关机器学习工具、库、框架、大型语言模型 (LLM) 和训练模型的所有信息。

  • 数据集网址:

    https://github.com/mikeroyal/Machine-Learning-Guide

5

unstructured

  • 更新时间:2024-11-26

  • 访问地址: GitHub

  • 描述:

    该库提供了用于摄取和预处理图像和文本文档(如 PDF、HTML、Word 文档等)的开源组件。其使用案例围绕简化和优化 LLM 的数据处理工作流程展开。 模块化函数和连接器形成一个有凝聚力的系统,可简化数据摄取和预处理,使其能够适应不同的平台,并有效地将非结构化数据转换为结构化输出。

  • 用途:

    开源库和 API,用于构建用于标记、训练或生产机器学习管道的自定义预处理管道。

  • 数据集网址:

    https://github.com/Unstructured-IO/unstructured

6

arcann_training

  • 更新时间:2024-10-31

  • 访问地址: GitHub

  • 描述:

    ArcaNN 提出了一种自动化的增强采样生成训练集,用于化学反应机器学习原子间电位。 在当前版本中,它旨在简化和自动化用户选择系统的 DeePMD-kit 神经网络潜力的迭代训练过程,但训练过程的核心概念可以扩展到其他网络架构。 此代码的主要优点是其模块化、能够微调训练过程以适应您的系统和工作流程以及出色的可追溯性,因为代码记录了过程中设置的每个参数。 在迭代训练过程中,您将迭代训练神经网络电位,将其用作分子动力学模拟的反作用力场(以探索相空间),根据 query by committee 方法选择和标记一些配置,然后使用改进的训练集再次训练神经网络电位,依此类推。 这个工作流程,有时被称为主动或并发学习,在很大程度上受到了 DP-GEN 的启发,我们使用他们的命名方案来迭代过程的步骤。

  • 用途:化学反应机器学习原子间电位训练集的自动增强采样生成

  • 数据集网址:

    https://github.com/arcann-chem/arcann_training

7

Minerva

  • 更新时间:2024-8-20

  • 访问地址: GitHub

  • 描述:

    Minerva 具有强大的命令行界面 (CLI),简化了训练和评估模型的过程。此外,它还为实验提供了版本控制和配置系统,确保可重复性并促进社区内结果的比较。

  • 用途:

    旨在为从事机器学习项目的研究人员提供一个强大而灵活的框架。它包括用于数据转换、模型创建和分析指标的各种实用程序和模块。

  • 数据集网址:

    https://github.com/discovery-unicamp/Minerva

8

lab-workshops

  • 更新时间:2024-09-05

  • 访问地址: GitHub

  • 描述:

    文本挖掘、机器学习和数据可视化研讨会的材料

  • 数据集网址:

    https://github.com/YaleDHLab/lab-workshops

9

Determined 

  • 更新时间:2024-11-22

  • 访问地址: GitHub

  • 描述:

    Determined 是一个一体化深度学习平台,与 PyTorch 和 TensorFlow 兼容。

    它负责:

  1. 分布式训练可更快获得结果。

  2. 用于获得最佳模型的超参数优化。

  3. 用于降低云 GPU 成本的资源管理。

  4. 用于分析和重现性的实验跟踪。

  • 用途:Determined 是一个开源机器学习平台,可简化分布式训练、超参数优化、实验跟踪和资源管理。适用于 PyTorch 和 TensorFlow。

  • 数据集网址:

    https://github.com/determined-ai/determined

10

modulus-makani

  • 更新时间:2024-10-15

  • 访问地址: GitHub

  • 描述:

    Makani 由 NVIDIA 和 NERSC 的工程师和研究人员创立,用于训练 FourCastNet,这是一种基于深度学习的天气预报模型。

    Makani 是一种研究代码,用于在 100+ GPU 上大规模并行训练天气和气候预测模型,并支持开发下一代天气和气候模型。其中,Makani 用于在 ERA5 数据集上训练球形傅里叶神经算子 (SFNO) [1] 和自适应傅里叶神经算子 (AFNO) [2]。Makani 是用 PyTorch 编写的,支持各种形式的模型和数据并行、异步加载数据、不可预测的通道、自回归训练等等。

  • 用途:旨在支持在 PyTorch 中研究和开发基于机器学习的天气和气候模型。

  • 数据集网址:https://github.com/NVIDIA/modulus-makani

END

 温馨  小贴士

如有您想了解的计算机方向数据集

请联系我们

免费为您提供数据集搜索服务

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/62094.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux V4L2框架介绍

linux V4L2框架介绍 V4L2框架介绍 V4L2,全称Video for Linux 2,是Linux操作系统下用于视频数据采集设备的驱动框。它提供了一种标准化的方式使用户空间程序能够与视频设备进行通信和交互。通过V4L2接口,用户可以方便地实现视频图像数据的采…

[网安靶场] [更新中] UPLOAD LABS —— 靶场笔记合集

GitHub - c0ny1/upload-labs: 一个想帮你总结所有类型的上传漏洞的靶场一个想帮你总结所有类型的上传漏洞的靶场. Contribute to c0ny1/upload-labs development by creating an account on GitHub.https://github.com/c0ny1/upload-labs 0x01:UPLOAD LABS 靶场初识…

SpringBoot社团管理:用户体验优化

3系统分析 3.1可行性分析 通过对本社团管理系统实行的目的初步调查和分析,提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本社团管理系统采用SSM框架,JAVA作为开发语言&#…

org.apache.log4j的日志记录级别和基础使用Demo

org.apache.log4j的日志记录级别和基础使用Demo,本次案例展示,使用是的maven项目,搭建的一个简单的爬虫案例。里面采用了大家熟悉的日志记录插件,log4j。来自apache公司的开源插件。 package com.qian.test;import org.apache.log…

2024年第15届蓝桥杯C/C++组蓝桥杯JAVA实现

目录 第一题握手,这个直接从49累加到7即可,没啥难度,后面7个不握手就好了,没啥讲的,(然后第二个题填空好难,嘻嘻不会) 第三题.好数​编辑 第四题0R格式 宝石组合 数字接龙 最后一题:拔河 第…

matlab根据excel表头筛选表格数据

有如下表格需要筛选: 如果要筛选style中的A,color中的F2,num中的3。 代码如下: clear;clc; file_Pathstrcat(F:\csdn\,test1.xlsx); %表格路径、文件名 E1readtable(file_Path,Sheet,1); %读取表格中的字母和数字,1代表第一个…

day05(单片机高级)PCB基础

目录 PCB基础 什么是PCB?PCB的作用? PCB的制作过程 PCB板的层数 PCB设计软件 安装立创EDA PCB基础 什么是PCB?PCB的作用? PCB(Printed Circuit Board),中文名称为印制电路板,又称印刷…

【机器学习】——朴素贝叶斯模型

💻博主现有专栏: C51单片机(STC89C516),c语言,c,离散数学,算法设计与分析,数据结构,Python,Java基础,MySQL,linux&#xf…

【Android+多线程】异步 多线程 知识总结:基础概念 / 多种方式 / 实现方法 / 源码分析

1 基本概念 1.1 线程 定义:一个基本的CPU执行单元 & 程序执行流的最小单元 比进程更小的可独立运行的基本单位,可理解为:轻量级进程组成:线程ID 程序计数器 寄存器集合 堆栈注:线程自己不拥有系统资源&#…

Error: Invalid version flag: if 问题排查

问题描述: 国产化系统适配,arm架构的centos 在上面运行docker 启动后需要安装数据库 依赖perl 在yum install -y perl 时提示: “Error: Invalid version flag: if”

华为鸿蒙内核成为HarmonyOS NEXT流畅安全新基座

HDC2024华为重磅发布全自研操作系统内核—鸿蒙内核,鸿蒙内核替换Linux内核成为HarmonyOS NEXT稳定流畅新基座。鸿蒙内核具备更弹性、更流畅、更安全三大特征,性能超越Linux内核10.7%。 鸿蒙内核更弹性:元OS架构,性能安全双收益 万…

五种创建k8s的configMap的方式及configmap使用

configmap介绍 Kubernetes 提供了 ConfigMap 来管理应用配置数据,将配置信息从容器镜像中解耦,使应用更灵活、可移植。 1、基于一个目录来创建ConfigMap ​ 你可以使用 kubectl create configmap 基于同一目录中的多个文件创建 ConfigMap。 当你基于目…

如何将本地项目上传到gitee上

本地项目代码想上传到gitee管理、使用idea编辑器操作上传 新建仓库、填写信息 创建好了仓库,把HTTPS路径复制一下,之后会用到。 用命令进入项目进行git初始化 执行命令: cd 文件夹 git init 用idea把项目打开,然后配置一下gi…

大型语言模型LLM - Finetuning vs Prompting

资料来自台湾大学李宏毅教授机器学课程ML 2023 Spring,如有侵权请通知下架 台大机器学课程ML 2023 Springhttps://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.php2023/3/10 课程 機器如何生成文句 内容概要 主要探讨了大型语言模型的两种不同期待及其导致的两类…

Scikit-learn Pipeline完全指南:高效构建机器学习工作流

在机器学习工作流程中,组合估计器通过将多个转换器(Transformer)和预测器(Predictor)整合到一个管道(Pipeline)中,可以有效简化整个过程。这种方法不仅简化了数据预处理环节,还能确保处理过程的一致性,最大限度地降低数据泄露的风险。构建组合估计器最常用的工具是Scikit-learn…

kali Linux中foremost安装

记录一下 foremost工具介绍 foremost是基于文件开始格式,文件结束标志和内部数据结构进行恢复文件的程序。该工具通过分析不同类型文件的头、尾和内部数据结构,同镜像文件的数据进行比对,以还原文件。它默认支持19种类型文件的恢复。用户还可…

ChatGPT如何辅助academic writing?

今天想和大家分享一篇来自《Nature》杂志的文章《Three ways ChatGPT helps me in my academic writing》,如果您的日常涉及到学术论文的写作(writing)、编辑(editing)或者审稿( peer review)&a…

2024年11月26日Github流行趋势

项目名称:v2rayN 项目维护者:2dust yfdyh000 CGQAQ ShiinaRinne Lemonawa 项目介绍:一个支持Xray核心及其他功能的Windows和Linux图形用户界面客户端。 项目star数:70,383 项目fork数:11,602 项目名称:fre…

大数据面试SQL题-笔记02【查询、连接、聚合函数】

大数据面试SQL题复习思路一网打尽!(文档见评论区)_哔哩哔哩_bilibiliHive SQL 大厂必考常用窗口函数及相关面试题 大数据面试SQL题-笔记01【运算符、条件查询、语法顺序、表连接】大数据面试SQL题-笔记02【查询、连接、聚合函数】​​​​​​​ 目录 01、查询 01…

Unity类银河战士恶魔城学习总结(P145 Save Skill Tree 保存技能树)

【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili 教程源地址:https://www.udemy.com/course/2d-rpg-alexdev/ 本章节实现了技能树的保存 警告!!! 如果有LoadData()和SaveData()…