医疗作为和民生健康息息相关的产业,通过天池大赛开放出一批有临床科研价值的数据集,涵盖了预防、辅诊、医学科研等主题。
与此同时,阿里云天池平台也积极推动产学研的共同进步,开源了多个本地生活领域的数据集,如aBeacon(室内定位)、ALWAES(POI校准)、RL-Dispatch(物流调度)等多个来源于真实场景的脱敏数据集,与全球学者/科研人员共享技术成果。
数据集1:
DiaKG: 中国是世界上糖尿病(diabetes)患者最多的国家,国务院颁布的《“健康中国2030”规划纲要》将糖尿病列为重点预防和监控的慢性病之一。基于此背景下天池团队联合上海瑞金医院宁光院士团队,从历年40多篇糖尿病专家指南权威文献中,标注出涵盖22,050个医学实体和6,890对实体关系的糖尿病知识图谱,是业界首个慢病领域的开放知识图谱。
数据集论文/链接:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=88836
数据集2:
Spinal Disease Dataset: 脊柱疾病核磁影像数据集。脊柱退化性疾病,如腰椎间盘突出等症状正呈现出年轻化的趋势,困扰着老年人群体和办公族,正确的预防和干预能够有效防止疾病的恶化。核磁(MRI)作为非侵入式检查手段,适合对普通人群的常规检查,是预防脊柱退化性疾病的可靠检查手段。天池联合湘雅医院、万里云等单位开放了业界首个脊柱MRI数据集,目标是促进研究者们关注人工智能算法在脊柱退化性疾病的研究。
数据集论文/链接:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=79463
数据集3:
CBLUE:中文医疗信息处理评测基准,是由中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办医疗自然语言处理评测基准,旨在推动中文医学NLP技术和社区的发展。评测基准包括来源于真实医疗场景的任务数据集,包括:医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务。CBLUE是国内首个医学自然语言处理挑战榜,目标是一起来推动医疗行业标准化数据集的发展,并进一步助力行业发展。
数据集论文/链接:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414
查看本文全部内容,欢迎访问天池技术圈官方地址:https://tianchi.aliyun.com/forum/post/283794