基因行业容器存储解决方案

1、基因行业背景

1.1. 中国基因市场分析

基因组学是未来精准医疗的“基石”。70%的基因企业选择使用云计算来处理基因组相关业务。过去一年内,阿里云为基因医学影像数据提供了安全可靠的存储,500%数据增长,增长迅猛。强大无限制的计算能力,阿里云支撑了百万以上的基因样本数据分析工作。

2. 基因行业的存储痛点和需求分析

2.1. 基因组学数据管理相对复杂

一家大型基因测序功能公司每日会产生 10TB 到 100TB 的下机数据,大数据生信分析平台需要达到 PB 级别的数据处理能力,这背后需要生物科技和计算机科技的双向支撑。测序应用从科研逐步走向临床应用,计算模式从离线向在线演进,交付效率越来越重要。多变的数据处理流程,以及大量的生物信息软件版本的管理,大量排队的数据处理任务,由于生物信息软件的运行特性CPU平均利用率仍然不足,难以无人职守的处理失败任务,成本居高不下等等问题存在于以下的现有的系统中,催生了生物信息行业对云计算和云原生技术的拥抱姿态,在成本,弹性,效率,规模也提出了更高要求。

从基因业务角度理解,基因行业的数据处理的主要需求是提升效率,降低成本。基因场景的数据传输要求高速、稳定。如下图所示,是基因业务的数据处理流程图。

典型的基因行业数据传输与交付场景如下:• 测序服务商海量数据上云,数据上云有多重途径,通过OSS工具、存储网关、闪电立方等。一般1PB数据离线迁移,最快1周上云。• 科技服务公司:企业客户数据交付。数据交付,通知杭州到上海,同账号的跨地域复制的数据交付,在线迁移服务,完成跨地域、跨账号交付。杭州传到全球访问,全球访问加速。杭州传到企业用户,基于阿里云ram子账号,企业客户自己账号系统的交付体系。• 样本数据保存进行高吞吐分析计算,对存储要求高吞吐、高IOPS,对计算资源要求弹性、横向扩展。• 科研院所分析结果实现全球数据分发快速,一般每天交付19TB数据,全球14个数据中心保障快速就近交付。• 分析结果长期保存归档,要求高性价比、高可靠性。

2.2. 典型的基因行业的数据存储痛点

1、数据存储:数据增长快,存储费用高,管理困难;长期保存数据可靠性难以保障;需要寻求低成本大数据量的数据压缩方式;元数据管理混乱,数据清理困难。

2、分发共享:海量数据需要快速、安全的分发到国内多地及海外;传统硬盘寄送方式周期长,可靠性低;多地中心数据需要共享访问。

3、计算分析:批量样本处理时间长,资源需求峰谷明显,难以规划;大规模样本的数据挖掘需要海量计算资源,本地集群难以满足;计算工作流流程迁移困难、线上线下调度困难、跨地域管理困难;线下弹性能力差,按需计算需求。

3、阿里云基因容器存储解决方案

阿里云上的基因行业的容器存储解决方案架构如下:

阿里云基因文件存储解决方案说明:

• 基于AGS/ACK工作流搭建极速、低成本、高精度的基因测序的容器计算环境,根据业务需求,按需弹性提供计算资源,解决业务高峰期排队问题的同时,提高资源利用率。

• 文件存储可以对接容器基因计算环境,满足基因测序的计算和数据共享需求:

• NAS为基因行业用户提供低时延、高 IOPS 的文件存储,用于基因数据分析中的共享存储,保存下机数据和组装后的数据,以及过程中的中间数据。

• NAS计算结果数据会同步到 OSS 存储,文件存储集成OSS 提供海量存储空间,同时通过冷数据归档存储,降低存储成本。保存测序仪下机数据和组装后数据以及分析结果数据,用于数据的分发、归档、交付。保证10000+用户同时上传、下载数据,提高数据交付效率。

阿里云整体解决方案在基因行业的优势:

• 生态闭环:70%的基因行业客户都在阿里云上,包括100%的测序工厂头部客户跟阿里云有高速专线,基因数据在阿里云上各个基因客户之间高速流动;

• 产品成熟:K8S、ACK、AGS、OSS、NAS等产品都已经商业化多年,在基因行业客户得到广泛使用。对比友商,我们的产品稳定,功能丰富,性价比高;

• 行业老兵:服务基因行业多年,深入理解客户的业务场景和痛点,针对性的解决了数据上云、数据分析、数据交付的问题,给客户提供端到端的解决方案;

• 全球化:借助阿里云全球基础设施以及跨境高速通道,帮助客户拓展海外业务。

阿里云文件存储解决方案在基因行业的优势:

• 扩展能力强:集群最大规模支持近万个节点,容量可达数十PB规模;便于基因海量数据的性能升级和容量扩展。

• 性能能力强:协助客户使用高性能文件存储;有力支撑基因业务增长带来的大容量和高性能需求;大大提高海量数据快速分发和基因计算分析效率。

• 更经济:通过阿里云文件存储服务构建基因测序高性能工作负载;没有一次性成本投入或冗长的采购周期,享受按需付费、更经济的基础设施资源。

• 灵活敏捷:阿里云高性能文件存储服务,与ACK等计算集群整合,支持集群直接挂载文件系统;多种产品选型:通用型NAS、CPFS公共云及CPFS一体机,满足不同基因用户性能、成本、多云部署需求;灵活售卖方式,资源弹性伸缩,按需购买;支持云下和云上整体解决架构,既提供线下固定资产输出方案,满足对数据存储管理和基因业务高性能的双重要求,也提供快速数据上云的方案。

• 数据生命周期管理:支持数据智能流转至低频节约成本;支持集成OSS,实现数据计算、分发、归档、交付的智能数据流转;智能数据冷热分层,同时满足基因快速高效计算和海量基因数据成本优化需求。阿里云文件存储解决方案用户收益:

• 敏捷,按需使用,弹性扩展• 超高性能存储提高基因计算的高性能和效率

• 数据冷热分层,降低成本

4、基因行业容器文件存储介绍

阿里云文件存储NAS为非结构化数据提供存储服务。随着云原生的快速发展,许多公司的容器化应用程序使用NAS存储数据,有些甚至存储PB级数据。阿里云在云原生布局上提供容器K8s服务(ACK)、弹性容器实例(ECI)、容器服务ACK/ASK,容器实例使用NAS文件系统作为持久化存储。容器存储离不开共享文件存储。通常,彼此共享数据的容器自然需要共享文件存储,长期运行的容器也可使用共享文件存储应对故障。阿里云文件存储同时满足容器应用场景对持久化存储弹性伸缩、灵活挂载、高性能的需求。此外,容器镜像的配置文件或初始加载数据存储可以在 NAS 文件存储上实现共享,在容器批量加载时实时读取,多 POD 间通过 NAS 共享持久化数据,在 POD 故障时可以进行故障切换。阿里云NAS是容器存储的自然选择,因为它是一种完全托管的服务,配置简单,添加或删除数据时自动扩展,和容器基础架构一样灵活便捷。它还可以扩展到每秒数GB的吞吐量以及每秒数万的IOPS。它基于 POSIX 文件接口,提供 NFS / SMB 协议,天然适配原生操作系统,提供共享访问,同时保证数据一致性和锁互斥。文件存储中的数据在可用区内以多副本冗余方式存储,避免数据的单点故障风险。

文件存储目前包括三款产品,分别是通用型NAS、极速型NAS和CPFS并行文件存储,为企业应用、大数据处理、小文件存储、高性能计算等场景提供全方位解决方案。了解更多阿里云文件存储

阿里云文件存储主要具备以下特性:无缝对接容器存储插件,简化的云原生体验

文件存储基于POSIX/NFS/SMB文件接口,现有应用无需任何改造,可直接从本地磁盘平滑迁移至文件存储。针对容器编排,文件存储提供了CSI、Flexvolume存储插件,简化部署和使用,拥有完整的云原生体验。

共享持久化数据,故障灵活切换

文件存储具备多节点共享访问能力,文件存储还可以在不同可用区(不支持跨地域)、不同VPC之间共享。多Pod间通过NAS共享持久化数据,在POD故障时可以进行故障切换。统一的名字空间,统一的管理方式。弹性文件系统无需扩容缩容,0-10PB完全按量。

高性能加速,在容器批量加载时实时读取

文件存储基于分布式存储架构,具备性能水平扩展能力。提供不同类型、不同规格存储产品,充分满足各类应用的吞吐、延迟、IOPS和小文件等性能需求。文件存储支持us时延,数十GB吞吐,加速存储访问,提升应用性能,在容器批量加载时实时读取数据,支撑有状态应用、AI数据智能应用。

企业级应用特性,Pod存储安全可靠

文件存储支持副本、纠删码技术,同时通过备份、快照提供完整的数据保护和恢复机制。支持传输、落盘加密,确保数据不会被任何人窃取和篡改。统一命名空间支持海量pod存储隔离和统一管理。

持久化数据生命周期管理,优化成本

文件存储提供按量付费模式,您只需为正在使用的存储空间付费,不需要提前配置存储,并且不存在最低费用或设置费用。借助文件存储的共享能力可以节约大量的冗余数据拷贝和同步费用。数据生命周期管理,支持冷热分层,自动归档冷数据,降低成本90%。

 

本文作者:孟威

原文链接:https://developer.aliyun.com/article/768760?utm_content=g_1000161277

本文为阿里云原创内容,未经允许不得转载。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/515395.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

位置转经纬度~此key未开启WebserviceAPI服务功能

文章目录1. 现象2. 腾讯位置服务3. 登录开发者平台4. 开启WebserviceAPI5. 测试地址转经纬度api1. 现象 此key未开启WebserviceAPI服务功能,您可登陆https://lbs.qq.com/进行控制台key管理页面,找到此key并设置启用webserviceAPI 2. 腾讯位置服务 ht…

程序员今年在相亲市场上这么受欢迎?

前段时间有一个很火的网络段子:杭州的工程师在某婚恋交友网注册了一个账号,经过一个多月的“无人无津”后,他在公司职位栏加上了“JAVA开发工程师”短短几天就收到238封交友私信,最后还因为私信太多回复不了,他选择暂时…

云原生时代,谁是容器的最终归宿?

前言 “云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。云原生的代表技术包括容器、服务网格、微服务、不可变基础设施和声明式 API。这些技术能够构建容错性好、易于管理和便于观察的松耦合系统。结合可靠的自动化…

腾讯云~安装MongoDB

文章目录一、 安装建议二、 安装步骤2.1. 下载2.2. 解压缩2.3. 重命名2.4. 配置环境变量2.5. 使其生效2.6. 配置MongoDB2.7. 启动MongoDB2.8. 网络安全组一、 安装建议 MongoDB 可以在mac/win/linux上安装,我个人建议在linux上安装会更好,这样测试起来更…

全部满分!阿里云函数计算通过可信云21项测试

今日,“2020 可信云线上峰会”正式召开。会上,中国信通院公布了混合云安全、云组网、函数即服务、消息队列、云计算安全运营中心等首次评估结果。阿里云函数计算通过了基础能力要求、平台可观测能力、服务性能、服务安全和服务计量准确性等 21 项测试&am…

Springboot集成Elasticsearch

在springboot中集成Elasticsearch&#xff0c;以我开发的博客系统项目为例,这是一篇文章内容。 准备 本次Elasticsearch使用的是单机版&#xff0c;版本为6.7.8&#xff0c;并且装好中文分词器。 Springboot集成Elasticsearch 首先在pom文件中引入Elasticsearch依赖。 <!-…

CentOS 替代品

我推荐替代产品&#xff1a;AlmaLinux 免费&#xff0c;和centos相似度都比较高&#xff0c;社区活跃度高 官网&#xff1a;https://almalinux.org/

卡顿人生,如何拯救?

原文链接&#xff1a;https://yqh.aliyun.com/detail/17536?utm_contentg_1000161682 本文为阿里云原创内容&#xff0c;未经允许不得转载。

三个月前被 K8S 弃用,Docker 火了!获 2300 万美元融资

整理 | 寇雪芹头图 | 下载于视觉中国出品 | CSDN云计算&#xff08;ID:CSDNcloud)美国加州时间 3月16号&#xff0c;Docker 宣布获得 2300 万美元的 B 轮融资。经过此轮融资&#xff0c;Docker的总资金达到5800万美元&#xff0c;主导本轮投资的是硅谷风投公司 Tribe Capital&a…

阿里腾讯今日头条纷纷翻牌子,ClickHouse到底有什么本事?

ClickHouse是近年来备受关注的开源列式数据库&#xff0c;主要用于数据分析&#xff08;OLAP&#xff09;领域。目前国内社区火热&#xff0c;各个大厂纷纷跟进大规模使用&#xff1a; 今日头条 内部用ClickHouse来做用户行为分析&#xff0c;内部一共几千个ClickHouse节点&am…

开启VScode的nvue、vue文件类型支持 - 代码高亮

装Vetur创建&#xff0c;配置&#xff0c;ok 注意&#xff1a;后面的值都是vue 效果图

Dubbo-go 发布 1.5 版,朝云原生迈出关键一步

引语 计算机技术浪潮每 10 年都有一次技术颠覆&#xff0c;相关知识体系最迟每 5 年都会革新一次&#xff0c;大概每两年贬值一半&#xff0c;在应用服务通信框架领域亦然。凡是有长期生命的通信框架&#xff0c;大概有 5 年的成长期和 5 年的稳定成熟期。每个时代都有其匹配的…

互联网究竟是怎么诞生的?

作者 | 小枣君来源 | 鲜枣课堂&#xff08;ID&#xff1a;xzclasscom&#xff09;1957年10月4日&#xff0c;苏联发射了人类第一颗人造卫星——斯普特尼克一号。斯普特尼克一号&#xff08;Спутник-1&#xff09;这颗卫星的升空&#xff0c;轰动了整个世界&#xff0c;也…

引入阿里云GA,商米加速IoT产品和解决方案全球化布局

在全球化战略布局下&#xff0c;今年以来&#xff0c;商米联合全球合作伙伴推出了多款智能IoT 产品和数字化解决方案&#xff0c;为商户提供更专业地服务。同时&#xff0c;今年6月份&#xff0c;商米还引入阿里全球加速GA&#xff0c;加速实现信息化办公系统全球部署&#xff…

企业方案 vscode

文章目录1. 下载插件2. 配置1. 下载插件 2. 配置 {"mithrilEmmet.vnodeFactoryFunctionName": "m", // Specifies the name of vnode factory function. E.g. for mithril, use m; for hyperscript, use h."mithrilEmmet.outputDefaultTagName"…

问答题:如何构建一套满足GPT-3的存储系统?

这几天GPT-3成为人工智能甚至整个科技圈最为热门的话题。作为著名人工智能科研公司 OpenAI 开发的文字生成 (text generation) 人工智能&#xff0c;GPT-3的相关论文在2020年5月份就已经发表&#xff0c;由于使用了45TB的数据&#xff0c;并采用了天文数字级别的1,750亿参数量而…

抖音实战~手机号一键注册登录流程(验证码)

文章目录一、 一键注册登录流程二、前端2.1. 验证码获取流程2.2. 验证码获取代码三、后端验证码3.1. 前置处理3.2. 拦截器添加3.3. 获取验证码一、 一键注册登录流程 二、前端 2.1. 验证码获取流程 1.点击->获取验证码调用后端获取验证码api接口2.验证码59秒倒计时3.重复点…

《2021中国数据资产化工具市场研究报告》隆重发布

早在五年前&#xff0c;数据是21世纪“新石油”的口号就已响彻行业。 在2020年4月&#xff0c;我国首次将“数据”与土地、劳动力、资本、技术并列为五大生产要素&#xff0c;并提出要“加快培育数据要素市场&#xff0c;完善数据要素的市场化配置机制”。企业作为市场主体&am…

秒懂云通信:如何用阿里云语音通知服务(小白指南)

简介&#xff1a; 手把手教你如何使用阿里云语音通知服务&#xff0c;超详细控制台步骤解析&#xff0c;快速上手&#xff01;更有1650元短信体验代金券和免费试用&#xff0c;点击速抢&#xff1a;https://yqh.aliyun.com/live/cloudcommunication-videos 一、如何开通阿里云…

Mysql如何统计表的大小

在开发中遇到一个问题&#xff0c;我要统计哪个表中的数据增长度快。于是就想要找出每个表的大小。 SELECT CONCAT(table_schema,.,table_name) AS Table Name, CONCAT(ROUND(table_rows/1000000,4),M) AS Number of Rows, CONCAT(ROUND(data_length/(1024*1024),4),M) AS Dat…