tensorflow训练数据集（白话tensorflow分布式部署和开发）

小君 2022-12-10 10:26:58 798

tensorflow训练数据集（白话tensorflow分布式部署和开发）c）变量，或者说参数，保存在CPU上 b) 在单机单GPU的训练中，数据是一个batch一个batch的训练。在单机多GPU中，数据一次处理3个batch(假设是3个GPU训练），每个GPU处理一个batch的数据计算。单机的多GPU训练， tensorflow的官方已经给了一个cifar的例子，已经有比较详细的代码和文档介绍，这里大致说下多GPU的过程，以便方便引入到多机多GPU的介绍。单机多GPU的训练过程： a) 假设你的机器上有3个GPU;

关于tensorflow的分布式训练和部署，官方有个英文的文档介绍，但是写的比较简单，给的例子也比较简单，刚接触分布式深度学习的可能不太容易理解。在网上看到一些资料，总感觉说的不够通俗易懂，不如自己写一个通俗易懂给大家分享一下。

如果大家有看不懂的，欢迎留言，我再改文章，改到大学一年级的学生可以看懂的程度。

1. 单机多GPU训练

先简单介绍下单机的多GPU训练，然后再介绍分布式的多机多GPU训练。

单机的多GPU训练， tensorflow的官方已经给了一个cifar的例子，已经有比较详细的代码和文档介绍，这里大致说下多GPU的过程，以便方便引入到多机多GPU的介绍。

单机多GPU的训练过程：

a) 假设你的机器上有3个GPU;

b) 在单机单GPU的训练中，数据是一个batch一个batch的训练。在单机多GPU中，数据一次处理3个batch(假设是3个GPU训练），每个GPU处理一个batch的数据计算。

c）变量，或者说参数，保存在CPU上

d）刚开始的时候数据由CPU分发给3个GPU，在GPU上完成了计算，得到每个batch要更新的梯度。

worker节点2打印信息：

tensorflow训练数据集（白话tensorflow分布式部署和开发）(1)