加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.52wenzhou.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 模式 > 正文

高性能PyTorch是如何炼成的?整理的10条脱坑指南

发布时间:2020-06-23 18:57:24 所属栏目:模式 来源:站长网
导读:副标题#e# 如何用最少的精力,完成最高效的 PyTorch 训练?一位有着 PyTorch 两年使用经历的 Medium 博主最近分享了他在这方面的 10 个真诚建议。 在 Efficient PyTorch 这一部分中,作者提供了一些识别和消除 I/O 和 CPU 瓶颈的技巧。第二部分阐述了一些高

假设我们为 Cityscapes 训练图像分割模型,其批处理大小为 32,RGB 图像大小是 512x512x3(高、宽、通道)。我们在 CPU 端进行图像标准化(稍后我将会解释为什么这一点比较重要)。在这种情况下,我们最终的图像 tensor 将会是 512 * 512 * 3 * sizeof(float32) = 3,145,728 字节。与批处理大小相乘,结果是 100,663,296 字节,大约 100Mb; 除了图像之外,我们还需要提供 ground-truth 掩膜。它们各自的大小为(默认情况下,掩膜的类型是 long,8 个字节)——512 * 512 * 1 * 8 * 32 = 67,108,864 或者大约 67Mb; 因此一批数据所需要的总内存是 167Mb。假设有 8 个工作程序,内存的总需求量将是 167 Mb * 8 = 1,336 Mb。

听起来没有很糟糕,对吗?当你的硬件设置能够容纳提供 8 个以上的工作程序提供的更多批处理时,就会出现问题。或许可以天真地放置 64 个工作程序,但是这将消耗至少近 11Gb 的 RAM。

当你的数据是 3D 立体扫描时,情况会更糟糕。在这种情况下,512x512x512 单通道 volume 就会占 134Mb,批处理大小为 32 时,8 个工作程序将占 4.2Gb,仅仅是在内存中保存中间数据,你就需要 32Gb 的 RAM。

对于这个问题,有个能解决部分问题的方案——你可以尽可能地减少输入数据的通道深度:

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读