每周编辑精选|微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff...

Orca-Math 是微软研究院发布的数学推理模型,该模型展示了较小的专业模型在特定领域的价值,它们可以匹配甚至超越更大模型的性能。微软近期开源了用于训练 Orca-Math 的 Orca-Math-200K 数学单词问题数据集,现已在 hyper.ai 官网提供下载,快来体验吧!

3 月 11 日-3 月 15 日,hyper.ai 官网更新速览:

* 优质公共数据集:10 个

* 优质公共教程:2 个

* 社区文章精选:3 篇

* 热门百科词条:10 条

访问官网:hyper.ai

公开数据集精选

1. Orca-Math-200K 微软数学单词问题数据集

Orca-Math-200K 是微软创建的一个高质量的合成数据集,包含约 20 万小学数学题目,此数据集中的所有答案都是使用 Azure GPT4-Turbo 生成的。

直接使用:

https://my5353.com/30060

2. MULTI-Benchmark:带有文本和图像的多模态理解排行榜

该数据集为上海交通大学发布的多模态基准测试 MULTI ,旨在评测多模态大模型在理解复杂的表格和图像、以及进行长文本推理的能力。该测试提供多模态输入,并要求回答是精确的或开放式的,反映了现实生活中的考试风格。MULTI 包含逾 18,000 个问题,涵盖从公式推导到图像分析及跨模态推理的多样化任务。

直接使用:

https://my5353.com/30062

3. IEPile 大规模信息抽取语料库 

IEPile 是由浙江大学研发的大规模高质量的双语(中英)信息抽取 (IE) 指令微调数据集,涵盖了命名实体识别 (NER) 、关系抽取 (RE) 和事件抽取 (EE) 三大核心子任务。该数据集包含约 200 万条指令样本,总计约 3.2 亿 Token,涵盖了通用、医学、金融等多个领域。

直接使用:

https://my5353.com/30064

4. FFHQ-UV-Intrinsic 用于 3D 人脸重建的面部属性数据集

FFHQ-UV-Intrinsic 是 Ubisoft LaForge 基于 FFHQ-UV 数据集构建的内在面部属性数据集,该数据集包含了 10,000 个主体的面部内在属性,包括漫反射、镜面反射、环境光遮挡和半透明贴图。它是首个公开的、大规模提供高分辨率的内在属性的面部数据集。

直接使用:

https://my5353.com/30113

5. GITQA 多模态图推理问答数据集

GITQA 是香港科技大学和南方科技大学构建的首个包含视觉图的推理问答数据集。该数据集包含超过 423K 个问答实例,每个实例包含相互对应的图结构-文本-视觉信息及其相应的问答对。

直接使用:

https://my5353.com/30116

6. SMolInstruct 化学指令微调数据集

SMolInstruct 是俄亥俄州立大学提出的一个大规模、全面且高质量的化学指令微调数据集,该数据集包含 14 个不同的化学任务,共超过 300 万个样本,涵盖 160 万个独特的分子。

直接使用:

https://my5353.com/30133

7. MusicPile 大型音乐数据集

MusicPile 是由 Multimodal Art Projection Research Community 、 Skywork AI 和香港科技大学联合推出的一个大型音乐-语言预训练数据集。该数据集包含 517 万个样本,约 41.6 亿 Token,来源包括音乐书籍、 YouTube 音乐字幕、 ABC 记谱法作品等。MusicPile 覆盖了广泛的音乐常识、知识问答及典型乐理内容,对提升大模型的音乐理解与创作能力具有关键作用。

直接使用:

https://my5353.com/30136

8. seq-monkey 序列猴子开源数据集 1.0

序列猴子是出门问问提供的超大规模语言模型,序列猴子数据集是用于训练序列猴子模型的数据集合,现抽取了部分数据集向公众开放:涉及领域包括:中文通用文本语料、古诗今译语料、文本生成语料。

直接使用:

https://my5353.com/30139

9. 豆瓣电影短评论数据集 V2

该数据集包含豆瓣电影网站中 28 部电影的超过 200 万条短评论。它可以用于文本分类、文本聚类、情感分析、语义网络构建以及其他一些与网络挖掘或 NLP 相关的领域。

直接使用:

https://my5353.com/30011

10. AdaDR—论文「基于自适应 GCN 方法进行药物重新定位」的数据集

该数据集为论文「基于自适应 GCN 方法进行药物重新定位」使用的数据集。为了全面评估所提出的模型性能,研究团队使用了四个基准数据集:Gdataset (Gottlieb et al. 2011)、 Cdataset (Luo et al. 2016)、 Ldataset (Yu et al. 2021) 和 LRSSL (Liang et al. 2017),可应用于药物重新定位任务。

直接使用:

https://my5353.com/30057

更多本周更新数据集,请访问

https://hyper.ai/datasets

公共教程精选

1. 使用迁移学习进行花卉分类

该教程演示了如何使用迁移学习在一组花卉图像数据集上执行图像分类。教程中将利用一个预训练的卷积神经网络 (CNN) 作为特征提取器,并在其上构建一个自定义分类器来预测花卉的种类。

在线运行教程:

https://my5353.com/n30069

2. 量化 Vision Transformers(Vit)以实现高效部署:策略和最佳实践

随着各行业对先进计算机视觉系统的需求持续激增,Vision Transformers 的部署已成为研究人员和从业者的焦点。然而,要充分发挥这些模型的潜力,需要对其架构有深入的了解。此外,制定有效部署这些模型的优化策略也同样重要。

本教程全面探讨了 Vision Transformer 架构、关键组件以及使它们与众不同的基本原理。在教程的最后,通过代码演示讨论了一些优化策略,使模型更加紧凑,以便于部署。

在线运行教程:

https://my5353.com/n30119

社区文章精选

1. 仅需 5% 训练样本达到最优性能,清华大学研究团队发布条件去噪扩散模型 SPDiff,实现长程人流移动模拟

清华大学研究团队提出了一种新颖的条件去噪扩散模型 SPDiff,该模型能够有效地利用交互动力学,通过社会力引导的扩散过程来模拟人群行为。相关论文已发表于 AAAI 2024。

查看完整报道:

https://my5353.com/n30069

2. 北师大研究团队建立 ECA-Net 模型,预测中国未来 70 年的风能利用潜力

近期,来自北京师范大学环境学院的研究团队发表论文,在全球变暖的大背景下,评估了我国风能潜势将如何发生变化。该研究采用了 22 个 CMIP6 全球气候模型作为输出,从而对模型间的不确定性进行可靠评估。结果显示,本世纪我国整体的风能密度将呈现轻微下降趋势。相关论文已发表于「ACS Publications」。

查看完整报道:

https://my5353.com/n30119

3英伟达 2024 GTC 倒计时,黄仁勋会带来面向中国市场的新举措吗?

2024 年 GTC AI 大会定档 3 月 18 日—21 日,黄仁勋将在北京时间 3 月19 日凌晨 4:00—6:00 带来一年一度的分享,主题为「见证 AI 的变革时刻」。HyperAI超神经基于老黄最近的演讲访谈与行业趋势,大胆预测了一下其演讲话题。

查看完整报道:

https://my5353.com/n30151

百科词条精选

1. 平均精度 (mAP)

2. 实例分割 Instance Segmentation

3. 交并比 Intersection over Union (IoU)

4. 多项式插值 Polynomial Interopolation

5. 倒数排名融合  Reciprocal Rank Fusion (RRF)

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://hyper.ai/wiki

B 站直播预告

日期

时间

内容

3 月 11 日
星期一

10:00

17:00

MIT深度学习课程 

2020

MIT深度学习课程 

2021

3 月 12 日

星期二

10:00

Python API 开发

——初学者综合课程

3 月 13 日

星期三

10:00

14:00

SQL 教程—初学者课程

生成式 AI 全套课程

3 月 14 日

星期四

21:00

面向初学者的 

Flutter 课程

3 月 15 日

星期五

10:00

面向初学者的 

Flutter 课程

3 月 16 日

星期六

10:00

哈佛 CS50

—Python 人工智能课程

3 月 17 日

星期日

10:00

一天内学习 PyTorch 

进行深度学习

超神经电视台 7×24h 不间断直播,持续输出 AI 行业见解,一起来学习吧:

http://live.bilibili.com/26483094

daf64cd73f7ecd4cb3c7c23a42c50d42.gif

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

* 为 1200+ 公开数据集提供国内加速下载节点

* 收录 300+ 经典及流行在线教程

* 解读 100+ AI4Science 论文案例

* 支持 500+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai/

 往期推荐 

601cc0034cc8532bfeaa9466f72f3f02.png

b87e3facb60beb600ae16601610d6cd1.png

f3ffc32d6d9c3fc1edef6b8774d20fa4.png

21e5c4903e892777dec49b35b4ea2cbc.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/754550.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MS17_010 漏洞利用与安全加固

文章目录 环境说明1 MS17_010 简介2 MS17_010 复现过程3 MS17_010 安全加固 环境说明 渗透机操作系统:kali-linux-2024.1-installer-amd64漏洞复现操作系统: cn_windows_7_professional_with_sp1_x64_dvd_u_677031 1 MS17_010 简介 MS17_010 漏洞后门利用程序 Eter…

【机器学习-04】最小二乘法的推导过程及使用方法(python代码实现)

最小二乘法是一种常用的数据拟合方法,它可以通过最小化残差平方和来找到数据的最佳拟合线。有了上述内容铺垫之后,本文将介绍最小二乘法的推导过程,并提供使用Python实现最小二乘法的代码示例。 1.模型及方程组的矩阵形式改写 首先&#xff…

robots协议详解:爬虫也要有边界感

随着互联网的迅猛发展,信息的获取变得越来越便捷,而网络爬虫(Spider)技术就是其中之一。网络爬虫是一种自动化程序,它能够遍历互联网上的网页,提取信息,用于各种用途,例如搜索引擎索引、数据挖掘、价格比较等。但是,爬虫技术虽然强大,但是也是一把双刃剑,在正当使用…

git设置别名及查看别名

设置别名 git config --global alias.lg "具体的参数"git config --global alias.lg "log --dateformat:%Y/%m/%d %H:%M:%S --prettyformat:%C(yellow)%h%C(reset) %C(bold blue)%ad%C(reset) %an %C(green)%s%C(reset)"查看别名 git config --list | fi…

关于前端的学习

目录 前言: 1.初识HTML: 1.1超文本: 1.2标记语言: 2.关于html的基本框架: 3.HTML基本文字标签: 3.1.h标题标签: 3.3 文本内容: 3.4换行的和分割的: 3.5 特殊文字标签: 3.5.1表面上看着三对的结果呈现都是一样的: 3.5.2但是其背后的效果其实是不一样的: 3.6转义字符:…

Smart Light Random Memory Sprays Retinex 传统图像增强 SLRMSR

文章目录 前言1、Smart Light Random Memory Sprays Retinex概况2、Smart Light Random Memory Sprays Retinex的实现2.1、SLRMSR算法的伪代码2.2、初始化记忆喷雾(CreateInitialMemorySpray)2.3、更新记忆喷雾 (UpdateMemorySpray)2.4、计算颜色校正因子…

Android下的匀速贝塞尔

画世界pro里的画笔功能很炫酷 其画笔配置可以调节流量,密度,色相,饱和度,亮度等。 他的大部分画笔应该是通过一个笔头图片在触摸轨迹上匀速绘制的原理。 这里提供一个匀速贝塞尔的kotlin实现: class EvenBezier {p…

Tensorflow2.0 - 链式法则例子

本笔记简单记录链式法则的原理,关于链式法则,本身和高等数学中的链式求导法则是一样的,深度学习中相关资料可以参考这里: 【深度学习之美22】BP算法详解之链式法则 - 知乎10.5 什么是计算图?我们知道, 神经…

uniapp微信小程序随机生成canvas-id报错?

uniapp微信小程序随机生成canvas-id报错? 文章目录 uniapp微信小程序随机生成canvas-id报错?效果图遇到问题解决 场景: 子组件,在 mounted 绘制 canvas;App、H5端正常显示,微信小程序报错; 效…

内网穿透的应用-如何使用Docker安装DockerUI可视化管理工具无公网IP远程访问

文章目录 前言1. 安装部署DockerUI2. 安装cpolar内网穿透3. 配置DockerUI公网访问地址4. 公网远程访问DockerUI5. 固定DockerUI公网地址 前言 DockerUI是一个docker容器镜像的可视化图形化管理工具。DockerUI可以用来轻松构建、管理和维护docker环境。它是完全开源且免费的。基…

华为配置终端定位基本实验配置

配置终端定位基本示例 组网图形 图1 配置终端定位基本服务示例 组网需求数据准备配置思路配置注意事项操作步骤配置文件 组网需求 如图1所示,某公司网络中,中心AP直接与RU连接。 管理员希望通过RU收集Wi-Fi终端信息,并提供给定位服务器进行定…

Flutter-仿淘宝京东录音识别图标效果

效果 需求 弹起键盘,录制按钮紧挨着输入框收起键盘,录制按钮回到初始位置 实现 第一步:监听键盘弹起并获取键盘高度第二步:根据键盘高度,录制按钮高度计算偏移高度,并动画移动第三步:键盘收起…

C语言 02 安装

C 语言的编译器有很多,其中最常用的是 GCC,这里以安装 GCC 为例。 Windows 这里以 Windows 11 为例 官方下载地址:https://www.mingw-w64.org/ 选择 Downloads 选择 Windows 的 GCC 环境 MingW-W64-builds 选择 GitHub 根据操作系统位…

Qt5.14.2 深入理解Qt多线程编程,掌握线程池架构实现高效并发

在高并发的软件系统中,多线程编程是解决性能瓶颈和提高系统吞吐量的有效手段。作为跨平台的应用程序开发框架,Qt为我们提供了强大的多线程支持。本文将深入探讨Qt多线程编程的实现细节,并介绍线程池的设计思想,帮助读者彻底掌握Qt…

网盘聚合工具:统筹管理所有网盘资源 | 开源日报 No.203

alist-org/alist Stars: 35.6k License: AGPL-3.0 alist 是一个支持多存储的文件列表/WebDAV 程序,使用 Gin 和 Solidjs。 该项目的主要功能、关键特性、核心优势包括: 支持多种存储方式易于部署和开箱即用文件预览(PDF、markdown、代码等&…

SpringBoot2.7集成Swagger3

Swagger2已经在17年停止维护了,取而代之的是 Swagger3(基于openApi3),所以新项目要尽量使用Swagger3. Open API OpenApi是业界真正的 api 文档标准,其是由 Swagger 来维护的,并被linux列为api标准&#x…

Web基础06-AJAX,Axios,JSON数据

目录 一、AJAX 1.概述 2.主要作用 3.快速入门 4.AJAX的优缺点 (1)优点 (2)缺点 5.同源策略 二、Axios 1.概述 2.快速入门 3.请求方式别名 三、JSON 1.概述 2.主要作用 3.基础语法 4.JSON数据转换 (1…

Windows11安装Msql8.0版本详细安装步骤!

文章目录 前言一、下载Mysql二、安装Mysql三、登录验证三、环境变量配置总结 前言 每次搭建新环境的时候,都需要网上搜寻安装的步骤教程!为了以后方便查阅!那么本次就记录一下Windows11安装Msql8.0的详细步骤!也希望能帮助到有需…

抖音无水印视频关键词批量下载|视频下载工具

抖音无水印视频关键词批量下载操作说明 我们根据自己的需要开发了抖音视频批量下载工具,现在市面上的视频无水印工具只能通过单个视频链接进行提取,太不方便 所以我们延伸出了 不仅可以通过单个视频链接进行提取也可通过关键词进行视频搜索 进行批量和有…

Python基于深度学习的中文情感分析系统,附源码

博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…