高性能PyTorch是如何炼成的？整理的10条脱坑指南

发布时间：2020-06-23 18:57:24 所属栏目：模式来源：站长网

导读：副标题#e# 如何用最少的精力，完成最高效的 PyTorch 训练?一位有着 PyTorch 两年使用经历的 Medium 博主最近分享了他在这方面的 10 个真诚建议。在 Efficient PyTorch 这一部分中，作者提供了一些识别和消除 I/O 和 CPU 瓶颈的技巧。第二部分阐述了一些高

假设我们为 Cityscapes 训练图像分割模型，其批处理大小为 32，RGB 图像大小是 512x512x3(高、宽、通道)。我们在 CPU 端进行图像标准化(稍后我将会解释为什么这一点比较重要)。在这种情况下，我们最终的图像 tensor 将会是 512 * 512 * 3 * sizeof(float32) = 3,145,728 字节。与批处理大小相乘，结果是 100,663,296 字节，大约 100Mb; 除了图像之外，我们还需要提供 ground-truth 掩膜。它们各自的大小为(默认情况下，掩膜的类型是 long，8 个字节)——512 * 512 * 1 * 8 * 32 = 67,108,864 或者大约 67Mb; 因此一批数据所需要的总内存是 167Mb。假设有 8 个工作程序，内存的总需求量将是 167 Mb * 8 = 1,336 Mb。

听起来没有很糟糕，对吗?当你的硬件设置能够容纳提供 8 个以上的工作程序提供的更多批处理时，就会出现问题。或许可以天真地放置 64 个工作程序，但是这将消耗至少近 11Gb 的 RAM。

当你的数据是 3D 立体扫描时，情况会更糟糕。在这种情况下，512x512x512 单通道 volume 就会占 134Mb，批处理大小为 32 时，8 个工作程序将占 4.2Gb，仅仅是在内存中保存中间数据，你就需要 32Gb 的 RAM。

对于这个问题，有个能解决部分问题的方案——你可以尽可能地减少输入数据的通道深度：

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/6

首页

尾页