DL

李沐分布式深度学习视频总结2

李沐分布式深度学习视频总结2

Posted by Ezra on May 28, 2018

视频链接:https://www.bilibili.com/video/av19193624?from=search&seid=2021868981970361738

img 随机把一些梯度变为0,或者用更少的bits来传输浮点梯度 img不是每一次都更新所有的block,只更新一个允许延迟,不一定要等到前面的block传输完。

bounded delay利用filter来压缩通信 :

key caching 如果数据变化不大只发送feature,不发送key ,在发送和接受端;

DATA COMPRESS, 对数据用LZ压缩(对server很好,对worker一般2.5倍。server发送的是稀疏模型,weight很多是0,worker即使weight是0但梯度可能不是0 );

KKT filter,把梯度接近于0,且接近最优点,直接置为0img img

1529394471709