来源: AINLPer公众号(每日干货分享!!)
编辑: ShuYini
校稿: ShuYini
时间: 2024-2-28
该数据集由匹兹堡、卡内基梅隆等大学提出,它是第一个需要对生物医学研究文本进行推理,特别是其定量内容的问答数据集。该数据集包括以下三个不同的子集:PubMedQA Labeled (PQA-L):这个子集包含了从 PubMed 文章中收集的 1,000 个手动注释的是/否/可能的问答数据 。PubMedQA Artificial (PQA-A):这个子集包含了 211,300 个 PubMed 文章,根据论文标题自动生成的问题和使用简单启发式方法生成的是/否答案标签 。PubMedQA Unlabeled (PQA-U):这个无标签的子集包含了从 PubMed 文章中收集的 61,200 个上下文-问题对数据 。
这个数据集的主题分布涵盖了广泛的研究领域,包括回顾性、前瞻性和队列研究,不同年龄组,以及与医疗保健相关的主题,比如治疗结果、预后和疾病风险因素。
相关数据集与论文获取,GZ: AINLPer公众号 回复:PMQA数据集