快捷搜索:  汽车  科技

tensorflow训练数据集(白话tensorflow分布式部署和开发)

tensorflow训练数据集(白话tensorflow分布式部署和开发)c) 变量,或者说参数,保存在CPU上 b) 在单机单GPU的训练中,数据是一个batch一个batch的训练。 在单机多GPU中,数据一次处理3个batch(假设是3个GPU训练), 每个GPU处理一个batch的数据计算。单机的多GPU训练, tensorflow的官方已经给了一个cifar的例子,已经有比较详细的代码和文档介绍, 这里大致说下多GPU的过程,以便方便引入到多机多GPU的介绍。单机多GPU的训练过程: a) 假设你的机器上有3个GPU;

关于tensorflow的分布式训练和部署, 官方有个英文的文档介绍,但是写的比较简单, 给的例子也比较简单,刚接触分布式深度学习的可能不太容易理解。在网上看到一些资料,总感觉说的不够通俗易懂,不如自己写一个通俗易懂给大家分享一下。

如果大家有看不懂的,欢迎留言,我再改文章,改到大学一年级的学生可以看懂的程度。

1. 单机多GPU训练

先简单介绍下单机的多GPU训练,然后再介绍分布式的多机多GPU训练。

单机的多GPU训练, tensorflow的官方已经给了一个cifar的例子,已经有比较详细的代码和文档介绍, 这里大致说下多GPU的过程,以便方便引入到多机多GPU的介绍。

单机多GPU的训练过程:

a) 假设你的机器上有3个GPU;

b) 在单机单GPU的训练中,数据是一个batch一个batch的训练。 在单机多GPU中,数据一次处理3个batch(假设是3个GPU训练), 每个GPU处理一个batch的数据计算。

c) 变量,或者说参数,保存在CPU上

d) 刚开始的时候数据由CPU分发给3个GPU, 在GPU上完成了计算,得到每个batch要更新的梯度。

worker节点2打印信息:

tensorflow训练数据集(白话tensorflow分布式部署和开发)(1)

最后算出来的weight的值接近于2, biasis的值接近于10 。

猜您喜欢: