1. Gandiva: Introspective Cluster Scheduling for Deep Learning
该论文针对深度学习提出了新的集群调度框架Gandiva,通过重新设计深度学习的调度接口,系统速度得到了10倍提升。该论文已在OSDI 2018会上发表。
2. Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads
在USENIX ATC 2019大会上发布新的图神经网络训练架构NeuGraph,是第一个能够支持大规模并行计算图形神经网络训练的系统。
3. Fast Distributed Deep Learning over RDMA
该论文发表在Eurosys 2019,针对大规模神经网络分布式训练的RDMA技术,提供了一个基于深度学习网络的RDMA子系统,相比传统的通讯原语RPC,系统性能提升169%。
4. Multi-Path Transport for RDMA in Datacenters
在NSDI 2018,发表了多路径传输方案MP-RDMA,有效地利用了数据中心中丰富的网络路径,以提高吞吐量,网络利用率以及在故障情况下的鲁棒性。
5. Direct Universal Access: Making Data Center Resources Available to FPGA
该论文发表在NSDI 2019,提出了通信体系结构DUA。DUA可在不改变数据中心已有网络的情况下,为数据中心中的FPGA提供一个简单而高效的通信体系结构。该架构为数据中心的硬件网络建立了统一的基础。
6. SocksDirect: Datacenter Sockets can be Fast and Compatible
在SIGCOMM 2019,该论文发表了高效的用户空间套接字层SocksDirect,可以极大地提高吞吐量并减少延迟,同时保持与Linux套接字的100%兼容。
7. Metis: Robustly Optimizing Tail Latencies of Cloud Systems
在ATC 2018大会上,该论文分享了Metis技术,以自动优化系统,配置相关参数,通过引入现实因素,让机器学习在真实场景中发挥作用。
8. Accelerating Rule-matching Systems with Learned Rankers
在ATC 2019大会上,该论文介绍了深度学习型规模匹配系统,让系统在运行时可以优化系统执行逻辑的排序。该技术平衡了DL推理准确性和成本的影响。
9. The Case for Learning-and-System Co-design
在 2019 SIGOPS Operating Systems Review 里,该论文提出了 AutoSys 框架,由“系统”和“学习”为中心的协同设计,来为构建系统优化提供了一个原则性的方法论。
10. DeepCache: Principled Cache for Mobile Deep Vision
该论文通过缓存来重用卷积神经网络的计算结果,对使用卷积神经网络模型的应用进行加速,发表在MobiCom 2018大会上。
11. Occlumency: Privacy-preserving Remote Deep-learning Inference Using SGX
该论文发表在MobiCom 2019大会上,通过在SGX Enclave中运行深度学习模型来保护用户隐私,并显著提高模型运行速度。
12. Balanced Sparsity for Efficient DNN Inference on GPU
在AAAI 2019大会上,该论文提出了一种新的模型剪枝方法,能够在保证模型精度的同时在GPU上取得高加速比。
13. SeerNet: Predicting Convolutional Neural Network Feature-Map Sparsity through Low-Bit Quantization
该论文通过一个高度量化的小网络来预测卷积神经网络模型中间计算结果的稀疏性,从而加速模型的推理。该论文发表在CVPR 2019大会上。
14. Shadow Block: Accelerating ORAM Accesses with Data Duplication
该论文发表在MICRO 2018。ORAM协议是一类重要的密码协议,能提升可信计算硬件、加密数据库等应用场景的安全性,防止访存模式相关的信息泄露。但是应用ORAM协议会带来很高的性能开销。本文针对可信计算硬件应用ORAM的场景,提出了一种数据复制的方法。实验结果表明,该方法能在不损害安全的前提下,将系统执行时间降低32%。
15. We Still Don’t Have Secure Cross-Domain Requests: an Empirical Study of CORS
在USENIX Security 2018大会上,该论文对浏览器的CORS(跨域资源共享)机制的实际部署进行了大规模研究,发现网站上存在许多严重的安全问题并提出了相应的缓解措施。
16. MASS: Masked Sequence to Sequence Pre-training for Language Generation
论文首次将pre-training从自然语言理解任务拓展到了自然语言生成任务, 在一系列自然语言生成任务如机器翻译、文本摘要上取得了很好的精度。
17. Unified Language Model Pre-training for Natural Language Understanding and Generation
论文将自然语言生成和自然语言理解统一到一个pre-training模型中,在多个自然语言生成和理解任务上取得了很好的精度。
18. VL-BERT: PRE-TRAINING OF GENERIC VISUALLINGUISTIC REPRESENTATIONS
论文首次将pre-training从自然语言拓展到了计算机视觉,在多个视觉语言理解任务上取得了很好的结果。
19. Almost Unsupervised Text to Speech and Automatic Speech Recognition
论文利用语音识别和语音合成的对偶属性从无标注文本和语音数据学习,大大降低了对标注数据的依赖,能够从1/60的标注数据加上大量无标数据学习,达到和从100%标注数据学习相同的效果。
20. MULTI-AGENT DUAL LEARNING
论文将对偶学习从单智能体拓展到多智能体,进一步加强了对偶学习的效果,在多个机器翻译测试集上取得了当前最好的精度。
21. FastSpeech: Fast, Robust and Controllable Text to Speech
论文提出的非自回归深度模型FastSpeech把mel spectrum的生成速度提速270倍,端到端的语音生成速度提速~40倍,实际使用效果非常好。
22. G-SGD: Optimizing ReLU Neural Networks in its Positively Scale-Invariant Space
论文首次提出在路径空间优化ReLU深度神经网络,避免了在权重空间进行神经网络优化的冗余性问题,令人耳目一新。
23. Convergence Theory of Learning Over-parameterized ResNet: A Full Characterization
论文给出了对ResNet收敛理论的全面刻画,并且该结果指导我们设计tau-ResNet,使残差块中的参数分支随深度缩小,在实际图像任务中表现一致优于原始ResNet.
24. Understanding and Improving Transformer From a Multi-Particle Dynamic System Point of View
为了更好的理解Transformer网络结构,论文将其和物理中的多粒子动态系统建立了类比关系,进一步受到物理系统的启发对Transformer网络结构进行改进提出马卡龙网络。