最近两年 ↓ 新建的千万级存储大项目 嘿嘿,越来越多 …… 因为对很多头部客户来说 政府、广电、医卫、证券、科研单位... 超大容量存储都变成了刚需 大家都在忙着一件事 ↓ 论单体规模 … 前面我们说过 海量存储系统“水深坑多” 那么曙光ParaStor 如何涉水避坑、海纳百川呢? ↓ 挑战1:底层数据管理技术 底层数据管理,说白了 就是对海量磁盘的管理能力 这种管理 大多采用OS自带的本地文件系统 或者开源文件系统 进行底层磁盘管理 以降低代码开发量,缩短研发周期 这种间接的磁盘管理方式 无法更直接、高效地发挥磁盘性能 读写数据时要调用ext4、zfs接口 好比每次调用磁盘,还得先开一道门 海量存储系统,磁盘成千上万块 如果单磁盘的性能无法充分发挥 最终影响存储系统的整体性能和可靠性 而曙光希望直接操控磁盘 也就是大家常说的「得盘率」 挑战2:不同场景下性能优化 比如,AI场景的图像识别 就是典型的海量小文件的存储场景 每个小文件都是KB级的 在峰值阶段,每秒会生成大量小文件 都需要写入存储系统中 会产生高频随机I/O读写 这就是“小文件、大麻烦”的困境 在现实中,从成本考虑 客户的存储介质依然以机械磁盘为主 往往无法应对海量小文件的性能挑战 曙光ParaStor采用“混搭”方案 实现【机械磁盘+闪存】深度融合 高频热点IO需求,交给闪存完成 同时通过小文件合并、元数据缓存 动态智能预读等多种神操作 完美解决“小文件、大存储”的难题 同时又不会有明显成本增加 在某些新兴应用场景下 需要高性能的对象存储 ParaStor的对象接口 对IO协议栈进行极简优化 性能可达到业内领先水平 还有一些是大带宽场景 比如,非编、渲染、科研计算等 会产生大文件 有时单个文件达到TB级 这些场景下访问存储系统时 就需要大带宽 曙光ParaStor也有绝招 通过高性能网络RDMA协议、 专属高性能POSIX客户端等技术 能让单一客户端读写带宽均超过25GB/s 这指标,代表了业界最高水准 总之,曙光ParaStor完美匹配 对带宽、IOPS、时延的个性化需求场景 挑战3:一致性和高可靠性 1、一致性 对此,曙光打造了一套分布式锁 DLM(Distributed Lock Management) 分布式锁是ParaStor的内嵌服务模块 是对于共享资源的高效协调器 实现所有客户端对于同一文件的有序访问 保证海量数据的强一致性 运转着上万块磁盘 硬盘的状态监控和预警处理至关重要 如果没有智能的处理方式 那么就是一种毁灭性灾难 曙光ParaStor除了通过成熟技术 比如,多副本、纠删码等 来防范单故障外 挑战4:异构数据统一纳管 曙光ParaStor的1个存储节点 真正实现了海量异构数据资源的融合 挑战5:海量节点智能化管理 各节点间的信息实时同步开销 会成为存储系统的不可承受之重 曙光ParaStor在集群通信管理模块中 以分组为单位进行管理信令交互 实现管理流量的去中心化错峰交互 集群信息秒级同步 存储厂商那么多 为啥曙光能成为 海量存储的领域的“扛把子”? 1、自研技术,高可控性 2009年,曙光就已经组建存储研发team 拥有国内一流的分布式存储研发团队 建队初始,曙光初心就是 把核心技术牢牢掌握在自己手上 通过10多年的自研历程 曙光已经累积200余项核心技术发明专利 连续8年领跑国内分布式存储市场 (数据来源:IDC) |
|
来自: kaller_cui > 《云计算》