每周编辑精选|MathPile 数学推理语料库开源、协和眼科牵头用 AI 助力 13 种眼底疾病检测

近日,上海交通大学生成式人工智能研究实验室 (GAIR),开源了专为数学领域量身定制的高质量且多样化的预训练数据集 MathPile,及其可商用版本 MathPile-Commercial,现在在 hyper.ai 官网可以下载啦!还有更多如 MathVista、Math23K 等热门数学数据集等你使用哦~

2 月 19 日-2 月 23 日,hyper.ai 官网更新速览

  • 优质公共数据集:10 个

  • AI4S 论文案例:4 篇

  • 热门百科词条:10 条

访问官网:hyper.ai

公开数据集精选

1. MathPile 数学推理预训练语料库

上海交通大学生成式人工智能实验室推出了 MathPile 数据集。这是一套专门针对数学领域的高质量、多样化预训练语料库,其中包含约 95 亿 tokens,旨在提升大模型在数学推理方面的能力。

直接使用

https://hyper.ai/datasets/29543

2. MathPile-Commercial 数学推理预训练语料(可商用版)

MathPile-Commercial 是 MathPile 的商业用途版本,是通过剔除 MathPile 中禁止商业用途的文档获得的(最新版本,即 v0.2)。具体来说,研究团队对源数据进行了非商业用途检测,利用 arXiv 源的元数据中的许可信息,并对其他源采用了关键字匹配。

直接使用

https://hyper.ai/datasets/29545

3. AI 生成的图像数据集

该数据集包含由 Copilot 生成的 19 张男孩图像。Copilot 是一个人工智能伴侣,可以创建富有想象力和创新的内容。这些图像适用于面部和姿势检测任务,因为它们的面部表情、姿势、背景、光照和遮挡各不相同。

直接使用

https://hyper.ai/datasets/29527

4. AI 生成的多样化肖像数据集

该数据集包含 140 张由先进 AI 算法精心制作的高质量图像,其中有 70 张女性肖像和 70 张男性肖像。该数据集中的每张图像都证明了人工智能在模仿人类外表的复杂性方面具有非凡的能力。

直接使用

https://hyper.ai/datasets/29529

5. THUCNews 中文文本分类数据集

THUCNews 是根据新浪新闻 RSS 订阅频道 2005~2011 年间的历史数据筛选过滤生成的,包含 74 万篇新闻文档 (2.19 GB) ,均为 UTF-8 纯文本格式。研究团队在原始新浪新闻分类体系的基础上,重新整合划分出了 14 个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

直接使用

https://hyper.ai/datasets/29521

6. ShareGPT 90k 中英文双语人机问答数据集

ShareGPT-Chinese-English-90k 是中英文平行双语优质人机问答数据集,覆盖真实复杂场景下的用户提问数据。该数据集可用于训练高质量的对话模型。

直接使用

https://hyper.ai/datasets/29523

7. SMP-2017 中文对话意图识别数据集

该数据集为 SMP2017 中文人机对话技术评测 (ECDT) 任务一数据集。该评测旨在促进中文人机对话系统相关研究的发展。

直接使用

https://hyper.ai/datasets/29515

8. 今日头条文本分类数据集

该数据集为今日头条中文新闻(短文本)分类数据集。数据来源为今日头条客户端。共包含 15 个分类,382,688 条文本,采集时间为 2018 年 05 月。

直接使用

https://hyper.ai/datasets/29517

更多本周更新数据集,请访问

https://hyper.ai/datasets

ScienceAI 论文案例精选

1. 协和眼科牵头 ,5 家眼科中心同发力,用 AI 助力 13 种眼底疾病检测

眼科疾病的诊断高度依赖于图像识别,眼科专业非常适合深度学习等技术的应用。为进一步挖掘深度学习在眼底疾病诊断中的潜在价值,由北京协和医院眼科主任陈有信牵头、全国 5 家眼科中心与北京致远慧图科技有限公司、中国人民大学信息学院李锡荣教授合作,共同开发了深度学习系统。该系统助力初级眼科医生的诊断一致性提高了约 12%,为 13 种主要眼底疾病的自动检测提供了一种新的方法。相关论文已发表于「Nature」期刊。

查看完整报道

https://hyper.ai/news/29549

2. 超 5 万人参与,浙大吴息凤教授团队新作:健康与办公场所绿化水平有关

生态环境对人类健康的影响是潜移默化的。浙江大学公共卫生学院吴息凤教授课题组通过卷积神经网络模型,基于街景图像的绿色视图指数对可见绿色暴露进行评估,进而探讨了工作场所可视绿化水平与成年人代谢综合征之间是否存在有益关联。课题组通过逻辑回归模型对杭州市 5 万多名成年人的工作环境室外可视绿化水平进行评估,证实了两者间的有益关联。相关成果已发表于「Environment International」期刊。

查看完整报道

https://hyper.ai/news/29559

3. 上海交大 AI4S 团队提出「智能化科学设施」构想,建立跨学科 AI 科研助手

上海交通大学人工智能研究院 AI for Science 团队杨小康教授等人提出了一种智能化科学设施的建设构想,形成科学领域大模型、生成式模拟与反演、自主智能无人实验及大规模可信科研协作等创新功能。相关研究成果已发表于「中国科学院院刊」。

查看完整报道

https://hyper.ai/news/29559

4. 亚马逊工程师严选,超 40 篇 LLM 论文汇总

越来越多的企业、传统行业开始探索如何应用大语言模型与自身业务相结合,快速膨胀的市场需求也反向推动了相关领域的研究进一步深化、创新,arXiv 等平台上的论文更新也愈发频繁。为了帮助大家更快检索高价值论文,亚马逊工程师 Eugene Yan 等人建立了一个语言模型论文阅读清单,持续分享前沿论文,目前已经汇总了 40 余篇高质量论文。

查看完整论文汇总

https://hyper.ai/news/29582

热门百科词条精选

  1. 召回率 Recall Rate

  2. 人类反馈强化学习 RLHF

  3. 通用人工智能 AGI

  4. 检索增强生成 RAG

  5. 神经辐射场 NeRF

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://hyper.ai/wiki


以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

  • 为 1200+ 公开数据集提供国内加速下载节点

  • 收录 300+ 经典及流行在线教程

  • 解读 100+ AI4Science 论文案例

  • 支持 500+ 相关词条查询

  • 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅

https://hyper.ai/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/697319.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(十四)【Jmeter】线程(Threads(Users))之开放模型线程组(Open Model Thread Group)

简述 操作路径如下: 开放模型线程组(Open Model Thread Group) 是 JMeter 5.5 版本中引入的一个新特性,它允许用户创建具有可变负载的负载配置文件。相较于传统的线程组,开放模型线程组提供了更多的灵活性和动态调整的能力。 优点: 灵活性:允许测试人员根据测试需求动…

python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。 import pdfplumberfile_path rD:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf with pdfplumber.open(file_path) as pdf:page pdf.pages[0]print(page.extract_text()) # 所以文字prin…

Verilog刷题笔记33

题目: You are given a four-bit input vector in[3:0]. We want to know some relationships between each bit and its neighbour: out_both: Each bit of this output vector should indicate whether both the corresponding input bit and its neighbour to t…

Kafka3.x进阶

来源:B站 目录 Kafka生产者生产经验——生产者如何提高吞吐量生产经验——数据可靠性生产经验——数据去重数据传递语义幂等性生产者事务 生产经验——数据有序生产经验——数据乱序 Kafka BrokerKafka Broker 工作流程Zookeeper 存储的 Kafka 信息Kafka Broker 总…

戏曲文化苑|戏曲文化苑小程序|基于微信小程序的戏曲文化苑系统设计与实现(源码+数据库+文档)

戏曲文化苑小程序目录 目录 基于微信小程序的戏曲文化苑系统设计与实现 一、前言 二、系统功能设计 三、系统实现 1、微信小程序前台 2、管理员后台 (1)戏曲管理 (2)公告信息管理 (3)公告类型管理…

PostgreSQL 的实体化视图介绍

PostgreSQL 实体化视图提供一个强大的机制,通过预先计算并将查询结果集存储为物理表来提高查询性能。本教程将使用 DVD Rental Database 数据库作为演示例子,指导你在 PostgreSQL中创建实体化视图。 了解实体化视图 实体化视图是查询结果集的快照&…

docker安装PostGIS扩展

去docker仓库查找你想要安装的镜像版本,并pull下来 我下载的版本: [rootlocalhost ~]# docker pull postgis/postgis:12-3.2运行容器 [rootlocalhost ~]# docker run --name postgis --privilegedtrue --restartalways -e POSTGRES_USER12345678 -e P…

【高德地图】Android高德地图初始化定位并显示小蓝点

&#x1f4d6;第3章 初始化定位并显示小蓝点 ✅第1步&#xff1a;配置AndroidManifest.xml✅第2步&#xff1a;设置定位蓝点✅第3步&#xff1a;初始化定位✅完整代码 ✅第1步&#xff1a;配置AndroidManifest.xml 在application标签下声明Service组件 <service android:n…

FPS游戏之漫谈截帧技术

什么是截帧技术 简而言之就是截取当前屏幕的内容&#xff0c;然后一般是以图片的形式存入本地 为什么需要这个技术 因为有需求 比如我们需要把我牛逼的战绩炫耀下&#xff0c;是不是以图文的形式分享到朋友圈是不是最直观&#xff1f;&#xff1f;&#xff1f; 在Unity引擎中…

Aigtek高压放大器是什么东西做的

在许多电子应用中&#xff0c;需要将低电压信号放大到较高电压以满足特定的需求。为了实现这个目标&#xff0c;高压放大器被广泛采用。高压放大器是一种专用电子设备&#xff0c;使用特定的电路和器件来增益输入信号的电压。它通常由以下几个主要组成部分构成。 电源供应 高压…

Linux编译器---gcc/g++使用详解

目录 前言 gcc/g介绍 gcc/g的编译指令&#xff08;以gcc为例&#xff09; ​编辑 gcc选项 预处理(进行宏替换) 编译&#xff08;生成汇编&#xff09; 汇编&#xff08;生成机器可识别代码&#xff09; 链接&#xff08;生成可执行文件或库文件&#xff09; 函数库 概念 …

网络金融治理模式下第三方支付风险与应对路径

随着经济社会的高速发展&#xff0c;消费模式日益多样化&#xff0c;其中&#xff0c;第三方支付作为一种便捷的消费支付模式&#xff0c;在顺应时代发展潮流中应运而生。这种支付模式通过中国人民银行批准&#xff0c;持有《支付业务许可证》&#xff0c;并与银行签约&#xf…

训练yolov8+SAM的过程记录

1-首先将拿到的数据集进行重新命名(dataset1:是经过校色之后裁剪的图片;dataset2:原图) 图片文件从1.jpg开始命名的代码: folder_path = rC:\Users\23608\Desktop\Luli_work\data\fanStudent\tongueseg\Fan\Fan\.jpg new_folder = rC:\Users\23608\Desktop\Luli_work\da…

stable diffusion官方版本复现

踩了一些坑&#xff0c;来记录下 环境 CentOS Linux release 7.5.1804 (Core) 服务器RTX 3090 复现流程 按照Stable Diffusion的readme下载模型权重、我下载的是stable-diffusion-v1-4 版本的 1 因为服务器没法上huggingface&#xff0c;所以得把权重下载到本地&#xff…

初识表及什么是数据表

一、了解表 1.1.概述 表是处理数据和建立关系型数据库及应用程序的基本单元&#xff0c;是构成数据库的基本元素之一&#xff0c;是数据库中数据组织并储存的单元&#xff0c;所有的数据都能以表格的形式组织&#xff0c;目的是可读性强。 1.2.表结构简述 一个表中包括行和列…

当项目经理的一定要考PMP嘛?

PMP资格认证并不是强制性要求&#xff0c;但强烈建议考虑获取该资格&#xff01;首先让我们来了解一下PMP是什么&#xff0c;然后再谈谈为什么建议考取PMP资格的理由。 PMP&#xff08;Project Management Professional&#xff09;是项目管理专业人员的资格认证。该认证由全球…

SCI一区 | Matlab实现GAF-PCNN-MSA格拉姆角场和双通道PCNN融合注意力机制的多特征分类预测

SCI一区 | Matlab实现GAF-PCNN-MSA格拉姆角场和双通道PCNN融合注意力机制的多特征分类预测 目录 SCI一区 | Matlab实现GAF-PCNN-MSA格拉姆角场和双通道PCNN融合注意力机制的多特征分类预测效果一览基本介绍模型描述程序设计参考资料 效果一览 基本介绍 1.【SCI一区级】Matlab实…

老子云3D资源服务与应用平台详解

老子云平台定位 老子云目标客群 老子云平台架构 老子云平台价值 核心优势 -AMRT标准格式 -自动模型轻量化 -持续精进的底层技术算法 -千万级轻量化3D资源素材市场 功能服务 -格式转换 -蒙皮动画轻量化 -倾斜摄影轻量化 -效果编辑器 -应用编辑器 -3D OFD应用 -A3D PPT -3D资源…

力扣日记2.22-【回溯算法篇】47. 全排列 II

力扣日记&#xff1a;【回溯算法篇】47. 全排列 II 日期&#xff1a;2023.2.22 参考&#xff1a;代码随想录、力扣 47. 全排列 II 题目描述 难度&#xff1a;中等 给定一个可包含重复数字的序列 nums &#xff0c;按任意顺序 返回所有不重复的全排列。 示例 1&#xff1a; 输…

SpringBoot中定义了Bean,但是为什么依赖注入的时候注入不了

背景&#xff1a; 扩展RedisTemplate的实现的时候写了这样一段代码&#xff1a; public class BusinessRedisTemplate extends RedisTemplate<String, String> {private final String prefix "business";public BusinessRedisTemplate (RedisConnectionFact…