Home

Awesome

深度学习论文精读

录制完成的论文

日期标题封面时长视频(播放数)
9/04/24Llama 3.1论文精读 · 5. 模型训练过程<img src="imgs/llama3-process.jpg" width="200px"/>10:41bilibili<br />
8/28/24Llama 3.1论文精读 · 4. 训练infra<img src="imgs/llama3-training-infra.webp" width="200px"/>25:04bilibili<br />
8/13/24Llama 3.1论文精读 · 3. 模型<img src="imgs/llama3-model.webp" width="200px"/>26:14bilibili<br />
8/05/24Llama 3.1论文精读 · 2. 预训练数据<img src="imgs/llama3-pretrain-data.jpg" width="200px"/>23:37bilibili
7/31/24Llama 3.1论文精读 · 1. 导言<img src="imgs/llama3-intro.jpg" width="200px"/>18:53bilibili<br />
3/30/23GPT-4<img src="imgs/gpt4.jpg" width="200px"/>1:20:38bilibili<br />
3/23/23大模型时代下做科研的四个思路<img src="imgs/limited-resources.jpg" width="200px"/>1:06:29bilibili<br />
3/10/23Anthropic LLM<img src="imgs/anthropic_lm.jpg" width="200px"/>1:01:51bilibili<br />
1/20/23Helm 全面语言模型评测<img src="imgs/helm.jpg" width="200px"/>1:23:37bilibili<br />
1/11/23多模态论文串讲·下<img src="imgs/multimodal-2.jpg" width="200px"/>1:03:29bilibili <br />
12/29/22Instruct GPT<img src="imgs/instruct-gpt.jpg" width="200px"/>1:07:10bilibili <br />
12/19/22Neural Corpus Indexer 文档检索<img src="imgs/nci.jpg" width="200px"/>55:47bilibili <br />
12/12/22多模态论文串讲·上<img src="imgs/multimodal-1.jpg" width="200px"/>1:12:27bilibili <br />
11/14/22OpenAI Whisper 精读<img src="imgs/whisper.jpg" width="200px"/>1:12:16bilibili <br />
11/07/22在讲 OpenAI Whisper 前先做了一个剪视频小工具<img src="imgs/autocut.jpg" width="200px"/>23:39bilibili <br />
10/23/22Chain of Thought 论文、代码和资源<img src="imgs/cot.jpg" width="200px"/>33:21bilibili<br />
9/17/22CLIP 改进工作串讲(下)<img src="imgs/clipx-part2.jpg" width="200px"/>1:04:26bilibili<br />
9/2/22CLIP 改进工作串讲(上)<img src="imgs/clipx-part1.jpg" width="200px"/>1:14:43bilibili<br />
7/29/22ViLT 论文精读<img src="imgs/vilt.jpg" width="200px"/>1:03:26bilibili<br />
7/22/22理由、论据和担保【研究的艺术·四】<img src="imgs/craft_research_p4.jpg" width="200px"/>44:14bilibili
7/15/22如何讲好故事、故事里的论点【研究的艺术·三】<img src="imgs/craft_research_p3.jpg" width="200px"/>43:56bilibili
7/8/22DALL·E 2 逐段精读<img src="imgs/dalle2.jpg" width="200px"/>1:27:54bilibili<br />
7/1/22明白问题的重要性【研究的艺术·二】<img src="imgs/craft_research_p2.jpg" width="200px"/>1:03:40bilibili
6/24/22跟读者建立联系【研究的艺术·一】<img src="imgs/craft_research_p1.jpg" width="200px"/>45:01bilibili
6/17/22Zero 逐段精读<img src="imgs/zero.jpg" width="200px"/>52:21bilibili
6/10/22DETR 逐段精读<img src="imgs/detr.jpg" width="200px"/>54:22bilibili
6/3/22Megatron LM 逐段精读<img src="imgs/megatron_lm.jpg" width="200px"/>56:07bilibili
5/27/22GPipe 逐段精读<img src="imgs/gpipe.jpg" width="200px"/>58:47bilibili <br />
5/5/22Pathways 逐段精读<img src="imgs/pathways.jpg" width="200px"/>1:02:13bilibili <br />
4/28/22视频理解论文串讲(下)<img src="imgs/video-survey-p2.jpg" width="200px"/>1:08:32bilibili <br />
4/21/22参数服务器(Parameter Server) 逐段精读<img src="imgs/ps.jpg" width="200px"/>1:37:40bilibili <br />
4/14/22视频理解论文串讲(上)<img src="imgs/video-survey-p1.jpg" width="200px"/>51:15bilibili <br />
3/31/22I3D 论文精读<img src="imgs/i3d.jpg" width="200px"/>52:31bilibili <br />
3/24/22斯坦福 2022 年 AI 指数报告 精读<img src="imgs/ai_index_22.jpg" width="200px"/>1:19:56bilibili <br />
3/17/22AlphaCode 论文精读<img src="imgs/alphacode.jpg" width="200px"/>44:00bilibili <br />
3/10/22OpenAI Codex 论文精读<img src="imgs/codex.jpg" width="200px"/>47:58bilibili <br />zhihu<br />
3/3/22GPT, GPT-2, GPT-3 精读<img src="imgs/gpt3.jpg" width="200px"/>1:29:58bilibili<br />
2/24/22Two-Stream 逐段精读<img src="imgs/twostream.jpg" width="200px"/>52:57bilibili<br />
2/10/22CLIP 逐段精读<img src="imgs/clip.jpg" width="200px"/>1:38:25bilibili<br />zhihu <br />
2/6/22你(被)吐槽过论文不够 novel 吗?<img src="imgs/novelty.jpg" width="200px"/>14:11bilibili <br />zhihu
1/23/22AlphaFold 2 精读<img src="imgs/alphafold_2.jpg" width="200px"/>1:15:28bilibili <br />zhihu <br />
1/18/22如何判断(你自己的)研究工作的价值<img src="imgs/research_value.jpg" width="200px"/>9:59bilibili <br />zhihu
1/15/22Swin Transformer 精读<img src="imgs/swin_transformer.jpg" width="200px"/>1:00:21bilibili <br />zhihu <br />
1/7/22指导数学直觉<img src="imgs/math_conj.jpg" width="200px"/>52:51bilibili <br />zhihu <br />
1/5/22AlphaFold 2 预告<img src="imgs/alphafold_2_preview.jpg" width="200px"/>03:28bilibili
12/20/21对比学习论文综述<img src="imgs/contrastive.jpg" width="200px"/>1:32:01bilibili <br />zhihu <br />
12/15/21MoCo 逐段精读<img src="imgs/mocov1.jpg" width="200px"/>1:24:11bilibili <br />zhihu <br />
12/9/21如何找研究想法 1<img src="imgs/mae_idea.jpg" width="200px"/>5:34bilibili
12/8/21MAE 逐段精读<img src="imgs/mae.jpg" width="200px"/>47:04bilibili <br />zhihu <br />
11/29/21ViT 逐段精读<img src="imgs/vit.jpg" width="200px"/>1:11:30bilibili <br />zhihu <br />
11/18/21BERT 逐段精读<img src="imgs/bert.jpg" width="200px"/>45:49bilibili <br />zhihu <br />
11/9/21GAN 逐段精读<img src="imgs/gan.jpg" width="200px"/>46:16bilibili <br />zhihu <br />
11/3/21零基础多图详解 图神经网络(GNN/GCN)<img src="imgs/gnn.jpg" width="200px"/>1:06:19bilibili <br />zhihu <br />
10/27/21Transformer 逐段精读<br> (视频中提到的文献 1)<img src="imgs/transformer.jpg" width="200px"/>1:27:05bilibili <br />zhihu <br />
10/22/21ResNet 论文逐段精读<img src="imgs/resnet-2.jpg" width="200px"/>53:46bilibili <br />zhihu <br />
10/21/21撑起计算机视觉半边天的 ResNet<img src="imgs/resnet-1.jpg" width="200px"/>11:50bilibili <br />zhihu <br />
10/15/21AlexNet 论文逐段精读<img src="imgs/alexnet-2.jpg" width="200px"/>55:21bilibili <br />zhihu <br />
10/14/219年后重读深度学习奠基作之一:AlexNet<img src="imgs/alexnet-1.jpg" width="200px"/>19:59bilibili <br />zhihu <br />
10/06/21如何读论文<img src="imgs/read-paper.jpg" width="200px"/>06:39bilibili <br />zhihu <br />

所有论文

包括已经录制完成和之后将要介绍的论文。选取的原则是10年内深度学习里有影响力文章(必读文章),或者近期比较有意思的文章。当然这十年里重要的工作太多了,不可能一一过一遍。在选取的时候我会偏向一些之前 直播课 中没讲到过的。 欢迎大家在 讨论区 里提供建(点)议(歌)。

总论文数 67,录制完成数 32

(这里引用采用的是 semanticscholar,是因为它提供 API 可以自动获取,不用手动更新。)

计算机视觉 - CNN

已录制年份名字简介引用
2012AlexNet深度学习热潮的奠基作citation
2014VGG使用 3x3 卷积构造更深的网络citation
2014GoogleNet使用并行架构构造更深的网络citation
2015ResNet构建深层网络都要有的残差连接。citation
2017MobileNet适合终端设备的小CNNcitation
2019EfficientNet通过架构搜索得到的CNNcitation
2021Non-deep networks让不深的网络也能在ImageNet刷到SOTAcitation

计算机视觉 - Transformer

已录制年份名字简介引用
2020ViTTransformer杀入CV界citation
2021Swin Transformer多层次的Vision Transformercitation
2021MLP-Mixer使用MLP替换self-attentioncitation
2021MAEBERT的CV版citation

生成模型

已录制年份名字简介引用
2014GAN生成模型的开创工作citation
2015DCGAN使用CNN的GANcitation
2016pix2pixcitation
2016SRGAN图片超分辨率citation
2017WGAN训练更加容易citation
2017CycleGANcitation
2018StyleGANcitation
2019StyleGAN2citation
2020DDPMDiffusion Modelscitation
2021Improved DDPM改进的 DDPMcitation
2021Guided Diffusion Models号称超越 GANcitation
2021StyleGAN3citation
2022DALL.E 2CLIP + Diffusion models,文本生成图像新高度citation

计算机视觉 - Object Detection

已录制年份名字简介引用
2014R-CNNTwo-stagecitation
2015Fast R-CNNcitation
2015Faster R-CNNcitation
2016SSDSingle stagecitation
2016YOLOcitation
2017Mask R-CNNcitation
2017YOLOv2citation
2018YOLOv3citation
2019CenterNetAnchor freecitation
2020DETRTransformercitation

<a name="contrastive_learning"></a>

计算机视觉 - 对比学习

已录制年份名字简介引用
2018InstDisc提出实例判别和memory bank做对比学习citation
2018CPC对比预测编码,图像语音文本强化学习全都能做citation
2019InvaSpread一个编码器的端到端对比学习citation
2019CMC多视角下的对比学习citation
2019MoCov1无监督训练效果也很好citation
2020SimCLRv1简单的对比学习 (数据增强 + MLP head + 大batch训练久)citation
2020MoCov2MoCov1 + improvements from SimCLRv1citation
2020SimCLRv2大的自监督预训练模型很适合做半监督学习citation
2020BYOL不需要负样本的对比学习citation
2020SWaV聚类对比学习citation
2020SimSiam化繁为简的孪生表征学习citation
2021MoCov3如何更稳定的自监督训练ViTcitation
2021DINOtransformer加自监督在视觉也很香citation

计算机视觉 - 视频理解

已录制年份名字简介引用
2014DeepVideo提出sports1M数据集,用深度学习做视频理解citation
2014Two-stream引入光流做时序建模,神经网络首次超越手工特征citation
2014C3D比较深的3D-CNN做视频理解citation
2015Beyond-short-snippets尝试使用LSTMcitation
2016Convolutional fusion做early fusion来加强时空间建模citation
2016TSN超级有效的视频分段建模,bag of tricks in videocitation
2017I3D提出Kinetics数据集,膨胀2D网络到3D,开启3D-CNN时代citation
2017R2+1D拆分3D卷积核,使3D网络容易优化citation
2017Non-local引入自注意力做视觉问题citation
2018SlowFast快慢两支提升效率citation
2021TimeSformer视频中第一个引入transformer,开启video transformer时代citation

多模态学习

已录制年份名字简介引用
2021CLIP图片和文本之间的对比学习citation
2021ViLT第一个摆脱了目标检测的视觉文本模型citation
2021ViLDCLIP蒸馏帮助开集目标检测citation
2021GLIP联合目标检测和文本定位citation
2021CLIP4Clip拿CLIP直接做视频文本retrievalcitation
2021ActionCLIP用多模态对比学习有监督的做视频动作分类citation
2021PointCLIP3D变2D,巧妙利用CLIP做点云citation
2022LSeg有监督的开集分割citation
2022GroupViT只用图像文本对也能无监督做分割citation
2022CLIPassoCLIP跨界生成简笔画citation
2022DepthCLIP用文本跨界估计深度citation

自然语言处理 - Transformer

已录制年份名字简介引用
2017Transformer继MLP、CNN、RNN后的第四大类架构citation
2018GPT使用 Transformer 解码器来做预训练citation
2018BERTTransformer一统NLP的开始citation
2019GPT-2更大的 GPT 模型,朝着zero-shot learning迈了一大步citation
2020GPT-3100倍更大的 GPT-2,few-shot learning效果显著citation
2024Llama 3.1强大的Meta开源模型 - 动态扩展,多模态学习,零样本学习,高效计算citation

系统

已录制年份名字简介引用
2014参数服务器支持千亿参数的传统机器学习模型citation
2018GPipe流水线(Pipeline)并行citation
2019Megatron-LM张量(Tensor)并行citation
2019Zero参数分片citation
2022Pathways将Jax拓展到上千TPU核上citation

图神经网络

已录制年份名字简介引用
2021图神经网络介绍GNN的可视化介绍citation

优化算法

已录制年份名字简介引用
2014Adam深度学习里最常用的优化算法之一citation
2016为什么超大的模型泛化性不错citation
2017为什么Momentum有效Distill的可视化介绍citation

新领域应用

已录制年份名字简介引用
2016AlphaGo强化学习出圈citation
2020AlphaFold赢得比赛的的蛋白质3D结构预测citation
2021AlphaFold 2原子级别精度的蛋白质3D结构预测citation
2021Codex使用注释生成代码citation
2021指导数学直觉分析不同数学物体之前的联系来帮助发现新定理citation
2022AlphaCode媲美一般程序员的编程解题水平citation

Footnotes

  1. 1 斯坦福100+作者的200+页综述,2 对LayerNorm的新研究,3 对Attention在Transformer里面作用的研究