每周编辑精选|COIG-CQIA 数据集上线、在线运行 ComfyUI 文生图工作流

为了填补高质量中文数据集的空白,中国科学院、零一万物、北京大学等 10 家机构联合开发出了 COIG-CQIA 数据集。令人惊讶的是,该数据集中「弱智贴吧」的数据质量,居然大幅度超过知乎、豆瓣、思否等知识社区。 COIG-CQIA 数据集现已上线 hyper.ai 官网,快来一探究竟吧!

4 月 8 日-4 月 12 日,hyper.ai 官网更新速览:

  • 优质公共数据集:10 个

  • 优质教程精选:2 个

  • 社区文章精选:5 篇

  • 热门百科词条:5 条

访问官网:hyper.ai

公共数据集精选

1. COIG-CQIA 高质量中文指令微调数据集

COIG-CQIA 全称为 Chinese Open Instruction Generalist – Quality is All You Need,是一个开源的高质量指令微调数据集,旨在为中文 NLP 社区提供高质量且符合人类交互行为的指令微调数据。

直接使用: https://go.hyper.ai/Pg37L

2. EgoExoLearn 跨视角技能学习数据集

EgoExoLearn 数据集包含了 120 小时的视频数据,这些数据是从日常生活场景和专业实验室中采集的。数据集中的视频不仅包括示范视频,还包括执行者在观看示范后,使用自己的第一人称视角 (egocentric) 录制的视频。

直接使用: https://go.hyper.ai/cYsPM

3. S2S-SIM 船舶协同感知模拟数据集

S2S-Sim 数据集是上海大学开发的第一个船舶协同感知模拟数据集。该数据集共包含 7,000 帧数据,其中有 96,881 个船舶边界框的精确标注。它的目的是支持船舶之间的有效协同感知,特别关注于自动驾驶系统与船舶协同感知领域的研究。

直接使用:https://go.hyper.ai/AVWp2

4. Common Corpus-zh 中文公共领域数据集

Common Corpus 是由 Pleias 、 HuggingFace 等机构联合创建的,是目前规模最大的公共领域数据集,专门用于训练大型语言模型 (LLMs)。该数据集汇集了来自全球多样文化遗产项目的 5,000 亿词汇,包括英语、法语、中文、西班牙语、德语和意大利语等多种语言,是目前为止最全面的语言资源库。

直接使用:https://go.hyper.ai/hvuV5

5. TriviaQA 用于阅读理解和问答的大型数据集

TriviaQA 是一个阅读理解数据集,包含超过 65 万个问答证据三元组。TriviaQA 包括来自维基百科和网络的 662K 文档中的 95K 问答对。

直接使用:https://go.hyper.ai/aant8

6. HalluQA 中文大模型幻觉评估数据集

HalluQA 数据集包含 450 个对抗性问题,跨越多个领域,并涉及到中国历史文化、习俗和社会现象。

直接使用:https://go.hyper.ai/pWyqe

7. AI 模型生成的洪水分析和预测数据集

该数据集为论文 「Global prediction of extreme floods in ungauged watersheds」的研究数据,主要内容为 AI 模型生成的洪水重新分析 (1984-2021) 和重新预测 (2014-2021) 数据以及相应的 GloFAS 基准数据。

直接使用:https://go.hyper.ai/bpsG3

8. MASSTAR 多模态大型场景数据集

MASSTAR 是一个由中山大学、香港科技大学等机构联合提出的多模态大规模场景数据集,包含超过 1,000 个场景级别的 3D 网格模型,其中一部分模型来自真实世界。

直接使用: https://go.hyper.ai/eLZUy

9. VideoBadminton 羽毛球视频动作识别数据集

VideoBadminton 是由奥本大学与国立中央大学共同创建的羽毛球运动的高质量视频数据集。该数据集包含了来自国立中央大学校队的 19 名男女运动员的羽毛球视频数据,涵盖了 18 种羽毛球动作,共 7,822 个视频片段,总时长达 145 分钟。

直接使用: https://go.hyper.ai/w5ToD

10. FineFake 细粒度多领域假新闻检测数据集

FineFake 是一个用于细粒度多领域假新闻检测的数据集,由北京航空航天大学和北京邮电大学联合创建。该数据集共有 16,909 个数据样本,覆盖了 6 个语义主题和 8 个不同的平台。每个新闻样本都包含了多种形式的内容,包括文本、图片和潜在的社交环境信息。

直接使用: https://go.hyper.ai/CNWIn

更多公共数据集,请访问

https://hyper.ai/datasets

公共教程精选

1. 最高可降低 16 倍成本,ComfyUI Stable Cascade 教程已上线,一键部署!

该教程为 AI 绘画 ComfyUI Stable Casecade 工作流使用教程,教程已经搭建了好环境,内置了 Stable Cascade 默认文生图工作流,直接将节点连接完成,简化使用流程,2 秒即可出图。

在线运行: https://go.hyper.ai/lJGLF

2. 农作物病害图像分类教程

该教程为使用 PyTorch 进行农作物病害图像分类,有助于训练机器学习模型来检测植物疾病,或开发自动植物诊断算法学习。

在线运行: https://go.hyper.ai/

社区文章精选

1. 超全大模型资源汇总|30 个优质 NLP 数据集和模型,一键使用 8 个 demo,建议收藏!

本文汇总了大模型相关资源,包括 15 个数据集、15 个模型和 8 个大模型demo,内含下载和使用链接。

查看完整文章: https://go.hyper.ai/sYC6h

2. 有效识别 63 万个三维空间构型,清华大学牵头发布 Uni-MOF 模型,预测 MOF 吸附能力

清华大学化工系卢滇楠教授团队牵头提出了一种三维 MOF 材料吸附行为预测的机器学习模型 Uni-MOF,该模型不仅可以通过预训练识别和恢复纳米多孔材料的三维结构,还进一步考虑了温度、压力和不同气体分子等操作条件,既适用于科学研究又适用于实际应用。相关成果已发表于「Nature」期刊。

查看完整报道: https://go.hyper.ai/VWFVo

3. 血常规、尿检等指标就能识别卵巢癌!中山大学刘继红团队牵头,四大医学院联合构建 AI 融合模型

中山大学、南方医科大学、华中科技大学和浙江大学联合构建了卵巢癌诊断人工智能融合模型 MCF,输入常规实验室检验数据和年龄即可计算卵巢癌的患病风险。模型准确率优于 CA125 和 HE4** 等传统生物标志物。相关成果已发表于《柳叶刀·数字健康》(The Lancet Digital Health) 。

查看完整报道: https://go.hyper.ai/prEbC

4. 透视 Insilico 英矽智能:AI 制药明星企业的飞跃、困境与破局

已融资 4.075 亿美元的英矽智能,在今年 1 月冲击港股未果,并在 3 月 27 日第二次递交上市申请。中美科技博弈之下,「美国创业、中国联合 CEO,美国股东、中国总部……」的处境,令其压力倍增,如何破局、能否成功摘下「AI 制药第一股」仍未可知。本文从技术发展、团队组成、商业发展等几方面深度介绍了这家 AI 制药明星企业。

查看完整报道: https://go.hyper.ai/llREq

热门百科词条精选

1. 浪链 Lang Chain

2. 混合专家模型 MoE

3. 分组查询注意力 GQA

4. 倒数排名融合 RRF

5. 召回率 Recall Rate

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://hyper.ai/wiki

B 站直播预告

日期时间内容
4 月 15 日 星期一10:00谷歌历年 I-O 发布会
4 月 16 日星期二10:00MIT 深度学习课程 2020
4 月 17 日星期三10:00MIT 深度学习课程 2021
4 月 18 日星期四10:00Python API 开发初学者综合课程
4 月 19 日星期五10:00面向初学者的Flutter 课程
4 月 20 日星期六10:00哈佛 CS50Python 人工智能课程
4 月 21 日星期日10:00斯坦福 HAI 研讨会

超神经电视台 7×24h 不间断直播,点击即可收获 AI 领域的「电子榨菜」:

http://live.bilibili.com/26483094

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区, 致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

  • 为 1200+ 公开数据集提供国内加速下载节点

  • 收录 300+ 经典及流行在线教程

  • 解读 100+ AI4Science 论文案例

  • 支持 500+ 相关词条查询

  • 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/810637.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

为何进口的主食冻干大量养猫达人推荐?五大优质主食冻干养猫必选

不少新手养猫人都会好奇,为何进口主食冻干的价格如此高昂,却仍受到众多养猫达人的青睐?与国产主食冻干相比,进口产品价格高出3-4倍,那么这高昂的价格背后,进口主食冻干究竟物有所值,还是只是一个…

web安全-SSH私钥泄露

发现主机 netdiscover -r 192.168.164.0 扫描端口 看到开放80和31337端口都为http服务 浏览器访问测试 查看80端口和31337端口网页和源代码并无发现有用信息 目录扫描 扫描出80端口并无有用信息 扫描31337端口 发现敏感文件robots.txt和目录.ssh 访问敏感文件和目录 /.ss…

GEEKCTF 2024

Welcome flag{welcome_geekers}

nginx 如何对用户屏蔽网站首页但是对蜘蛛开放

使用 Nginx 的 if 指令结合 $http_user_agent 变量来实现条件判断。不过,请注意,Nginx 官方文档通常建议避免在配置中过度使用 if 指令,因为它可能会导致不可预测的行为,尤其是在复杂的配置中。然而,对于简单的用例&am…

【统计建模选题】大数据和人工智能背景下新能源汽车某方面的统计研究

针对新能源汽车行业,在大数据和人工智能背景下的统计研究是一个前沿且具有实际意义的研究方向。为了确保研究主题不偏离“大数据与人工智能”的主题框架,同时选取合适的指标进行研究,以下是一些建议: 1.体现大数据与人工智能主题…

商城系统个性化功能——可视化编辑

商城系统的普及化,让很多中小企业和商家也开始接触商城系统管理,之前在使用第三方平台时,大多数商城系统的样式都是固定的,商城页面也不能按照自己的想法去调整。 现在,随着商城系统越来越普遍,商城系统功…

行列视在行业中占据的优势

行列视(RCV)生产数据应用系统具有多种优势,这些优势使得它在行业中能够脱颖而出。以下是一些主要的优势: 1. 指标数据快速治理:行列视能够实现指标的快速治理、统一管理、共享、应用及分析。通过采用多种方式如从上至…

05—面向对象(上)

一、面向对象编程 1、类和对象 (1)什么是类 类是一类具有相同特性的事物的抽象描述,是一组相关属性和行为的集合。 属性:就是该事物的状态信息。行为:就是在你这个程序中,该状态信息要做什么操作&#x…

加固系统安全,防范ssh暴力破解之Fail2Ban

你是否还在担心你的服务器被攻击?你是否还在担心你的博客的安全?你是否还在担心你的隐私?别急fail2ban它来了,它可以解决你的一切问题。 Fail2Ban 是什么? 现在让我们一起来认识一下今天的主角 – Fail2Ban。简单说来…

数据结构复习指导之顺序表上基本操作的实现(插入、删除、查找)

文章目录 顺序表基本操作实现 知识总览 1.顺序表的初始化 1.1静态分配顺序表的初始化 1.2动态分配顺序表的初始化 2.插入操作 2.1插入操作流程 2.2插入操作时间复杂度 3.删除操作 3.1删除操作流程 3.2删除操作时间复杂度 4.查找操作 4.1按位查找 4.2按位查找时间…

深入了解TypeScript:从基础语法到高级特性

在当今的软件开发领域中,TypeScript(TS)作为JavaScript的超集语言,越来越受到开发者的关注和喜爱。它扩展了JavaScript的语法,并引入了静态类型检查,为开发者提供了更好的开发工具和更可靠的代码结构。本篇…

Linux环境下的进程间通信(IPC)机制:DBus、共享内存、套接字与管道详解

在Linux环境中,进程间通信(IPC)是一个核心概念,允许运行中的进程相互交换数据。IPC机制包括但不限于dbus-daemon、共享内存、套接字和管道。本文将深入探讨这些机制的工作原理、用途以及它们之间的差异。 1、dbus-daemon DBus是…

TinyEMU源码分析之中断处理

TinyEMU源码分析之中断处理 1 触发中断2 查询中断2.1 查询中断使能与pending状态(mie和mip)2.2 查询中断总开关与委托(mstatus和mideleg)2.2.1 M模式2.2.2 S模式2.2.3 U模式 3 处理中断3.1 获取中断编号3.2 检查委托3.3 进入中断3…

软件设计师-基础知识科目-数据库技术基础识9

九、数据库技术基础识: 数据库设计阶段: 需求分析阶段 -> 确定系统边界。逻辑设计阶段 -> 关系规范化分。 数据库三级模式和两层映射: 三级模式: 外模式、概念模式(也称模式)、内模式&#xff08…

Python实现植物大战僵尸

"植物大战僵尸" 是一个复杂的游戏,涉及到图形界面、游戏逻辑、音效、动画等多个方面。要用Python实现这样的游戏,你需要用到一些额外的库,比如pygame来处理图形和音效,numpy来处理游戏数据等。 以下是一个简单的示例&a…

新员工入职培训时长缩短36%!智能陪练产品再升级

诸多预测认为,2024 年将成为国内大模型产业应用爆发的元年。中关村科金作为领先的对话式 AI 技术解决方案提供商,自主研发的智能陪练产品,以学、练、考、培一体化的方式,为企业提供全方位的综合培训服务。 借助大模型技术方面的突…

视频号小店新商机逐渐爆发,高门槛仍挡不住商家前进的脚步!

大家好,我是电商花花。 不知道大家有没有发现一件很有意思的事情,就是现在有越来越多的商家涌入抖音小店,部分商家还是想在视频号小店里博一丝机会。 我们都知道视频号小店是除了抖音小店之外,最火热的项目了,部分商…

C 共用体

共用体是一种特殊的数据类型,允许您在相同的内存位置存储不同的数据类型。您可以定义一个带有多成员的共用体,但是任何时候只能有一个成员带有值。共用体提供了一种使用相同的内存位置的有效方式。 定义共用体 为了定义共用体,您必须使用 u…

SpringBoot多数据源配置及使用

1.application.properties数据配置 首先现在配置文件中定义三个数据库相关信息 # 数据库1 targetLibraryMain.datasource.url jdbc:kingbase8://127.0.0.1:54321/DATA_ONE?useUnicodetrue&characterEncodingutf8&serverTimezoneGMT%2B8&allowMultiQueriestrue …

JavaScript核心基础(李立超2022版)

2022年李立超老师最新JavaScript基础主要内容包括: JS基本语法、变量、数据类型(原始值和类型转换等)、运算符、流程控制语句、对象、 函数(箭头函数、作用域、作用域链、高阶函数、闭包、递归等)、 面向对象(类、属性…