分享

新时代机器学习平台:3950X RTX3090三卡解决方案

 漫步之心情 2020-11-13
新时代机器学习平台:3950X+RTX3090三卡解决方案

Nvidia RTX3090

30 系列 Ampere 架构 GPU 大幅度提升了 CUDA 核心数量, 3090 提升到了 10496 个 CUDA 核心, 相应配置了 24GB GDDR6X 显存. 但是对应也大幅度提升了功耗, 首次引进了 12pin 供电规格.

当然, 3080 对于机器学习用来说一点都不香, 区区 10GB 显存, 还不如 2080Ti/1080Ti 呢.

24GB 的 3090, 可以说在炼丹性价比上超过了 20K 售价的 Titan RTX

新时代机器学习平台:3950X+RTX3090三卡解决方案

英伟达(NVIDIA)TITAN RTX

不过公版 3090 引入了新的问题: 3 插槽, 大多数非公版风冷卡 2.5 槽, 超高, 12 pin, 本来8槽机箱能塞四张卡, 现在可能只能插两张 3090 了.

要么选择更贵的一体水冷卡, 但是一体水冷的问题还是在于, 当你装超过两张卡的时候, 没有地方装冷排.

选择分体水冷, 目前看到的问题有:

  • 公版挡板还是三槽

  • PCB 本身还是超高

  • 一套价格仍然昂贵, 特别是需要巨大的冷排

  • 前期组装成本高(说白了麻烦的事情对在座各位好处有限), 特别是东西大概率是公家的, 导师经不起这么高风险、高维护成本, 别装出了问题把毕业搞黄了

首先先说供电, 由于显卡数量相对少了, 这是最好解决的问题:

双路 3090 电源

新时代机器学习平台:3950X+RTX3090三卡解决方案

美商海盗船 (USCORSAIR) AX1600i 1600W

海盗船有个基于 USB 的监控工具, 直通到虚拟机里面就能看当前各路输出状态. 对于不具备 SMBus 的消费级平台来说挺好的. 主要特点还是转换效率到了钛金水平. 消费级毕竟没有冗余

三路 3090 电源

新时代机器学习平台:3950X+RTX3090三卡解决方案

振华(SUPER FLOWER) 额定2000W LEADEX P 2000电源

2000W 级别的电源已经没什么电源了, 再上去很多都是给矿设计的. 振华 2000W 算是从四路泰坦时代过来的货

机箱

新时代机器学习平台:3950X+RTX3090三卡解决方案

美商海盗船 (USCORSAIR) 780T 黑色 全塔机箱

之前 10 槽 900D 退市了, 780T 有 9 条, 基本满足 3 块三槽卡或3+2+3使用(因为第一条插槽通常被 M.2 占据)

并且这个机箱提供了比较充足的机械硬盘位, 可以便于放较大的数据集.

CPU/主板

新时代机器学习平台:3950X+RTX3090三卡解决方案

AMD 锐龙 R9 3950X 16核32线程

新时代机器学习平台:3950X+RTX3090三卡解决方案

华硕(ASUS)PRO WS X570-ACE

华硕这块 Pro WS X570 是目前 X570 系列比较少见提供带外的 ATX 主板. 3950X 也是目前最接近 HEDT 配置的常规平台处理器.

从价格方面考虑, CPU+主板基本上就是人家一块 TRX40 的价格. 并且可以避免 TRX40 那种买了之后纠结 16/24/32/64 核的尴尬, 而且四条内存插槽支持 ECC, 最大 128GB 够用而且不贵.

主板支持平台管理功能, 对于实验室有大量机器的场景来说算是非常贴心. 毕竟 X299/X399 都是消费级主板, 并不会考虑 BMC 功能.

新时代机器学习平台:3950X+RTX3090三卡解决方案

这块板把 CPU 的 24 条 lane 全部分给了三条 PCIe, 可以组成 16+8/8+8+8 两种配置, 因为支持 PCIe 4.0, 即便是 x8 的带宽也达到了 PCIe 3.0x16 的水平

因为第一条槽被 22110 的 M2 占据的原因, 234 槽为第一卡, 56 槽可以安装双槽水冷卡或者PCIe 万兆卡/SSD 卡, 第三槽安装另外一张显卡.

华硕还很贴心配了显卡支架.

新时代机器学习平台:3950X+RTX3090三卡解决方案

不推荐 TRX40 的原因很简单: 不见得能装更多卡, 以及机器学习还是更看显卡, 花钱要花在刀刃上.

同时要注意第二槽的水冷卡尽可能选择短卡, 现在 3090 的风冷卡普遍在远离插槽侧的风扇采用了透风设计以增加风流量.

新时代机器学习平台:3950X+RTX3090三卡解决方案

当然从散热的角度考虑, 第二槽插入网卡是最合适的.

内存

Micron 32GB 3200 Unbuffered ECC

X570 平台最大可以支持 128GB 无缓冲ECC. ECC 对于 24/7 运行非常重要.

网络

如果选用双卡方案, 可以考虑用中间的 8x 插槽接入万兆或者 40G 级别的网卡:

主要建议的是 XL710 方案的 QSFP 网卡或者 SFP+ 网卡, 可以降低 CPU 的负载

如果不方便使用 PCIe 网卡, 其实现在也有 USB 的 5Gbps/2Gbps 网卡:

新时代机器学习平台:3950X+RTX3090三卡解决方案

威联通(QNAP)QNA-UC5G1T USB转5G/2.5G/1G 网卡

存储

Pro WS X570 两条都支持 22110 规格, 外加一个 U.2, 我的建议是两条 22110 做 RAID1, 放系统和热训练数据.

新时代机器学习平台:3950X+RTX3090三卡解决方案

Samsung 983DCT 3.84TB

或者是一条 22110 转换为 PCIe 3.0 x4 接网卡, 那么就可以用 U.2+22110 组成 RAID1

新时代机器学习平台:3950X+RTX3090三卡解决方案

Samsung 983DCT U.2 3.84TB

X570 平台的 SATA 性能一般, 不建议接 SATA SSD, 但是可以用 Linux 的 md 软 RAID 组 RAID5/RAID6, 或者使用 ZFS 归档老数据.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多