Awesome

awesome-model-compression-and-acceleration

Paper

Overview

Model compression as constrained optimization, with application to neural nets. Part I: general framework
Model compression as constrained optimization, with application to neural nets. Part II: quantization -A Survey of Model Compression and Acceleration for Deep Neural Networks

Structure

Distillation

Binarization

Local Binary Convolutional Neural Networks
Binarized Convolutional Neural Networks with Separable Filters for Efficient Hardware Acceleration
Binarized Neural Networks: Training Deep Neural Networks with Weights and Activations Constrained to +1 or -1
XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks
DoReFa-Net: Training Low Bitwidth Convolutional Neural Networks with Low Bitwidth Gradients

Quantization

Pruning

Low Rank Approximation