视频链接:https://www.bilibili.com/video/av19193624?from=search&seid=2021868981970361738
随机把一些梯度变为0,或者用更少的bits来传输浮点梯度
不是每一次都更新所有的block,只更新一个允许延迟,不一定要等到前面的block传输完。
bounded delay利用filter来压缩通信 :
key caching 如果数据变化不大只发送feature,不发送key ,在发送和接受端;
DATA COMPRESS, 对数据用LZ压缩(对server很好,对worker一般2.5倍。server发送的是稀疏模型,weight很多是0,worker即使weight是0但梯度可能不是0 );
KKT filter,把梯度接近于0,且接近最优点,直接置为0