分享

华为OceanStor Pacific:基因测序的存储密码

 科技正能量 2021-07-02
基因(Gene)一词最早来自于希腊语,意思为“生”。“基因”始终带着神秘色彩,在人类大约2.5 万个基因中,一条支持着生命的基本构造和性能,储存着生命的种族、血型、生长、疾病等信息的DNA序列与我们息息相关。
 
如今,基因测序作为基因检测的重要方法,已经可以通过基因组信息以及相关数据系统,预测罹患多种疾病的可能性。
 


承载基因测序任务的关键,是其背后的海量数据。作为一项天然数据密集型业务,基因测序可以基于更多的历史样本,快速研发新药或提供精准的诊疗服务。高性能计算(HPC) 是推动基因测序进步的重要驱动力,与之相匹配的则必须有高性能的存储才能够满足其业务需求,使得基因测序发挥最大的作用。

基因测序行业的存储需求变迁
 
在基因测序领域,人类第一次完整基因组测序耗费了13年时间,如今在HPC的加持下,时间已经降低到1天以内。基于更丰富的样本,通过高性能数据分析技术可以及时筛查遗传疾病、发现罹癌风险并精准用药,推进精准医疗的发展。在新药研发方面,制药企业借助HPC加速药物筛选和分子分析,可大幅缩短新药的研发周期。
 
基因测序行业也由原本的实验室内的科研项目逐步走向临床应用,海量数据为 HPDA 创造了巨大的业务机会,带动基因测序快速发展的同时,也面临以下问题:
 
首先,在数据存储方面,从最初的人类基因组开始细分扩展,目前已经涉及到肿瘤,遗传病检测。扩展到植物,远古生物,细菌,病毒,微生物的基因检测。因此数据种类和数据量是异常庞大,经常以PB为单位保存。
 
其次,在数据分析方面,大规模样本的数据分析和挖掘需要海量计算资源。例如,一个人的基因组大概是3个GB,包含了30亿个碱基。在全基因测序过程中,为了保证基因数据的完整性,需要平行测序30次,当最终测序完成后,全基因组数据将达到大概100GB左右。面对海量的数据,数据密集型分析可能会导致存储系统出现瓶颈,降低数据分析效率。
 
第三,在数据安全方面,基因数据相对比较隐私,但传统的基因企业能力较弱,安全措施不到位,防御能力很弱。而数据量的爆炸式增长使数据管理、安全存储、安全分析和业务洞察变得异常困难。
 
因此,基因测序行业亟需高性能存储与其面临的痛点相结合,来解决行业当中存在的一系列难题。
 
华为 OceanStor Pacific
三个挑战,一个对策

从整个基因工程来看,可以分为基因测序、基因数据分析和基因数据归档三个阶段。这三个阶段,均面临着对高端存储的明确需求:
 
其一,由于基因测序的整个过程不允许被中断,这就要求支撑测序应用的存储系统,具备极致的稳定性和可靠性;其二,基因数据分析工作中,对存储系统的性能、小文件处理能力提出很高要求;其三,在数据归档阶段,需要将海量基因数据长期、完整、安全的保存起来,存储系统的采购成本、能耗,是一个很大的挑战。
 
解决上述挑战,也许只需要一个答案,这就是华为OceanStor Pacific。
 
作为一款分布式横向扩展存储系统,华为OceanStor Pacific 提供各种数据密集型场景所需的高性能和灵活访问,如HPC、AI/ML、大数据分析、大规模虚拟化、内容存储、地震分析、生命科学、金融和任何需要存储海量数据并提供高性能、多协议访问的应用。
 
基因测序,自然也是被其赋能的一个关键场景。ESG对华为 OceanStor Pacific 进行了实测和验证。该测试旨在验证OceanStor Pacific 的性能、可靠性、数据管理和TCO,具体在基因工程中是如何表现的呢?
 
首先,基因工程在数据流程的不同阶段,会使用到不同的存储服务,较高的数据复杂性,面临着存储系统一致性的挑战。
 
我们知道,协议互通能够提高分析效率,因为使用一个协议写入的数据,在无数据迁移的情况下,可以通过多个协议进行读取,并保证语义无损和高稳定性能。而OceanStor Pacific 的多协议互通能力允许应用通过多个协议共享一份数据。
 
ESG是世界十大研究和分析咨询公司之一(由Institute of Industry Analyst Relations评出),它为技术厂商、IT专业人士和机构投资者提供数据中心技术和业务发展方面的战略指导。
 
ESG在多协议测试环境中分析了 OceanStor Pacific,验证了语义完整性、存储性能和高级功能,如快照、配额、QoS、对象存储多版本和对象多版本,确认华为 OceanStor Pacific 平台可以实现跨文件和对象协议的持续无损高性能。
 
其次,基因数据处理需要高带宽和高 IOPS,尤其人工智能等技术的加入,对性能瓶颈也提出了新的考验:带宽瓶颈可能是由网络、磁盘或内存不足造成,而IOPS 瓶颈则可能是CPU 算力不足或调用堆栈深度等软件问题引起的。
 


那么,OceanStor Pacific 文件系统采用元数据分布、大小 I/O 分流、磁盘索引等技术,同时满足高带宽和高 IOPS 需求。对此,ESG在对华为OceanStor Pacific 并行文件系统的性能测试中也进行了确认。
 
第三,精准地分析解读人类基因密码,需要庞大数据库的支撑,需要高通量、高密度、高性价比的工具平台来支撑大人群、大样本、大数据资源的累积,高密度的设计和低TCO,也是基因测序行业对存储系统的现实要求。
 


在这方面,ESG的测试结果显示:华为 OceanStor Pacific 的五年 TCO 比高密横向扩展 NAS 系统低61%。由于 OceanStor Pacific 提供极高密度的平台,所以最大的节省(64%)来自托管成本。资本支出(CapEx)也节省了 62%,同时供电和冷却也有 32%的优势。
 
实际上,随着数据量的不断暴增,基因测序行业所面临的存储挑战,仍然在不断加剧,而华为 OceanStor Pacific用ESG测试这些实打实的数字,验证了能够全面赋能基因测序行业的发展。
 
承担起向“数据密集型”转型的重任

基因测序是一个典型的巨量数据驱动的行业,基因测序行业PB级别数据存储包含规划、分配、回收、归档等过程,同时每天要运行十几个T的基因下机数据,海量数据的分析和解读是一个极大地挑战。
 


因此测序数据的导入、处理和分析对文件存储系统有着极高的要求。同时,随着基因测序企业环境中存在的工具和技术越来越多,维护基础设施、确保持续正常运行、以及保证性能级别所涉及的成本和复杂性变得更高。数据保护、数据迁移、硬件成本和快速数据增长率等一系列问题就成为困扰业务发展的挑战。
 
经过ESG测试总结:华为 OceanStor Pacific 有效解决这些挑战。华为OceanStor Pacific 存储系统能够为多种业务提供高性能、低时延,并在多协议间提供一致的语义;华为 DPC 实现了单个客户端并发访问多个存储节点,消除了单客户端和单流的性能瓶颈;系统还提供了超高密度,仅需 5 RU 即可扩展到 1.68PB;并且 华为 OceanStor Pacific 平台的单客户端和多客户端性能、多协议支持以及在 5年 TCO 分析中展现的价值都让 ESG 印象深刻。
 
基因测序等新的产业变化,对高端存储提出新的挑战,同时也在加速存储技术的革新,从基因密码到地球脉动,从浩瀚宇宙再到气象预测,,从HPC部分场景向HPC/HPDA全场景扩展,华为 OceanStor Pacific 存储开始承担起加速产业向“数据密集型”转型的重任。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多