6:["$","main",null,{"className":"prose max-w-5xl mx-auto py-16","children":[["$","header",null,{"children":["$","$Lf",null,{"href":"/","className":"no-underline","children":"Home"}]}],[["$","h1","h1-0",{"children":"Awesome"}],"\n",["$","h1","h1-1",{"children":"Diffusion Models: A Comprehensive Survey of Methods and Applications"}],"\n",["$","p","p-0",{"children":["This repo is constructed for collecting and categorizing papers about diffusion models according to our survey paper——",["$","$Lf",null,{"href":"https://arxiv.org/abs/2209.00796","children":["$","em","em-0",{"children":["$","strong","strong-0",{"children":"Diffusion Models: A Comprehensive Survey of Methods and Applications"}]}]}],", which has been accepted by the journal ",["$","strong","strong-0",{"children":"ACM Computing Surveys"}],". Considering the fast development of this field, we will continue to update ",["$","strong","strong-1",{"children":["both ",["$","$Lf",null,{"href":"https://arxiv.org/abs/2209.00796","children":"arxiv paper"}]," and this repo"]}],"."]}],"\n",["$","h1","h1-2",{"children":"Overview"}],"\n","

$\"image\"$ ","\n",["$","h1","h1-3",{"children":"Catalogue"}],"\n",["$","h2","h2-0",{"children":["$","$Lf",null,{"href":"#1","children":"Algorithm Taxonomy"}]}],"\n",["$","h3","h3-0",{"children":["$","$Lf",null,{"href":"#1.1","children":"Sampling-Acceleration Enhancement"}]}],"\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":[["$","$Lf",null,{"href":"#1.1.1","children":"Learning-Free Sampling"}],"\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"#1.1.1.1","children":"SDE Solver"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"#1.1.1.2","children":"ODE Solver"}]}],"\n"]}],"\n"]}],"\n",["$","li","li-1",{"children":[["$","$Lf",null,{"href":"#1.1.2","children":"Learning-Based Sampling"}],"\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"#1.1.2.1","children":"Optimized Discretization"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"#1.1.2.2","children":"Knowledge Distillation"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"#1.1.2.3","children":"Truncated Diffusion"}]}],"\n"]}],"\n"]}],"\n"]}],"\n",["$","h3","h3-1",{"children":["$","$Lf",null,{"href":"#1.2","children":"Likelihood-Maximization Enhancement"}]}],"\n",["$","ul","ul-1",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"#1.2.1","children":"Noise Schedule Optimization"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"#1.2.2","children":"Reverse Variance Learning"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"#1.2.3","children":"Exact Likelihood Computation"}]}],"\n"]}],"\n",["$","h3","h3-2",{"children":["$","$Lf",null,{"href":"#1.3","children":"Data with Special Structures"}]}],"\n",["$","ul","ul-2",{"children":["\n",["$","li","li-0",{"children":[["$","$Lf",null,{"href":"#1.3.1","children":"Data with Manifold Structures"}],"\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"#1.3.1.1","children":"Known Manifolds"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"#1.3.1.2","children":"Learned Manifolds"}]}],"\n"]}],"\n"]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"#1.3.2","children":"Data with Invariant Structures"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"#1.3.3","children":"Discrete Data"}]}],"\n"]}],"\n",["$","h3","h3-3",{"children":["$","$Lf",null,{"href":"#1.4","children":"Diffusion with (Multimodal) LLM"}]}],"\n",["$","ul","ul-3",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"#1.4.1","children":"Simple Combination"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"#1.4.2","children":"Deep Collaboration"}]}],"\n"]}],"\n",["$","h3","h3-4",{"children":["$","$Lf",null,{"href":"#1.5","children":"Diffusion with DPO/RLHF"}]}],"\n",["$","h2","h2-1",{"children":["$","$Lf",null,{"href":"#2","children":"Application Taxonomy"}]}],"\n",["$","ul","ul-4",{"children":["\n",["$","li","li-0",{"children":[["$","$Lf",null,{"href":"#2.1","children":"Computer Vision"}],"\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"#2.1.1","children":"Image Super Resolution, Inpainting and Translation"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"#2.1.2","children":"Semantic Segementation"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"#2.1.3","children":"Video Generation"}]}],"\n",["$","li","li-3",{"children":["$","$Lf",null,{"href":"#2.1.4","children":"3D Generation"}]}],"\n",["$","li","li-4",{"children":["$","$Lf",null,{"href":"#2.1.5","children":"Anomaly Detection"}]}],"\n",["$","li","li-5",{"children":["$","$Lf",null,{"href":"#2.1.6","children":"Object Detection"}]}],"\n"]}],"\n"]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"#2.2","children":"Natural Language Processing"}]}],"\n",["$","li","li-2",{"children":[["$","$Lf",null,{"href":"#2.3","children":"Temporal Data Modeling"}],"\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"#2.3.1","children":"Time-Series Imputation"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"#2.3.2","children":"Time-Seires Forecasting"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"#2.3.3","children":"Waveform Signal Processing"}]}],"\n"]}],"\n"]}],"\n",["$","li","li-3",{"children":[["$","$Lf",null,{"href":"#2.4","children":"Multi-Modal Learning"}],"\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"#2.4.1","children":"Text-to-Image Generation"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"#2.4.2","children":"Text-to-3D Generation"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"#2.4.3","children":"Scene Graph/Layout to Image Generation"}]}],"\n",["$","li","li-3",{"children":["$","$Lf",null,{"href":"#2.4.4","children":"Text-to-Audio Generation"}]}],"\n",["$","li","li-4",{"children":["$","$Lf",null,{"href":"#2.4.5","children":"Text-to-Motion Generation"}]}],"\n",["$","li","li-5",{"children":["$","$Lf",null,{"href":"#2.4.6","children":"Text-to-Video Generation/Editting"}]}],"\n"]}],"\n"]}],"\n",["$","li","li-4",{"children":[["$","$Lf",null,{"href":"#2.5","children":"Robust Learning"}],"\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"#2.5.1","children":"Data Purification"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"#2.5.2","children":"Generating Synthetic Data for Robust Learning"}]}],"\n"]}],"\n"]}],"\n",["$","li","li-5",{"children":["$","$Lf",null,{"href":"#2.6","children":"Molecular Graph Modeling"}]}],"\n",["$","li","li-6",{"children":["$","$Lf",null,{"href":"#2.7","children":"Material Design"}]}],"\n",["$","li","li-7",{"children":["$","$Lf",null,{"href":"#2.8","children":"Medical Image Reconstruction"}]}],"\n"]}],"\n",["$","h2","h2-2",{"children":["$","$Lf",null,{"href":"#3","children":"Connections with Other Generative Models"}]}],"\n",["$","ul","ul-5",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"#3.1","children":"Variational Autoencoder"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"#3.2","children":"Generative Adversarial Network"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"#3.3","children":"Normalizing Flow"}]}],"\n",["$","li","li-3",{"children":["$","$Lf",null,{"href":"#3.4","children":"Autoregressive Models"}]}],"\n",["$","li","li-4",{"children":["$","$Lf",null,{"href":"#3.5","children":"Energy-Based Models"}]}],"\n"]}],"\n","

","\n",["$","h2","h2-3",{"children":"Algorithm Taxonomy"}],"\n","

","\n",["$","h3","h3-5",{"children":"1. Efficient Sampling"}],"\n","

","\n",["$","h4","h4-0",{"children":"1.1 Learning-Free Sampling"}],"\n","

","\n",["$","h5","h5-0",{"children":"1.1.1 SDE Solver"}],"\n",["$","p","p-1",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=PxTIG12RRHS","children":"Score-Based Generative Modeling\nthrough Stochastic Differential Equations"}]}],"\n",["$","p","p-2",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=eLfqMl3z3lq","children":"Adversarial score matching and improved sampling for image generation"}]}],"\n",["$","p","p-3",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2022/html/Chung_Come-Closer-Diffuse-Faster_Accelerating_Conditional_Diffusion_Models_for_Inverse_Problems_Through_Stochastic_CVPR_2022_paper.html","children":"Come-closer-diffuse-faster: Accelerating conditional diffusion models for inverse\nproblems through stochastic contraction"}]}],"\n",["$","p","p-4",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=CzceR82CYc","children":"Score-Based Generative Modeling with Critically-Damped Langevin Diffusion"}]}],"\n",["$","p","p-5",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2105.14080","children":" Gotta Go Fast When Generating Data with\nScore-Based Models"}]}],"\n",["$","p","p-6",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2206.00364","children":"Elucidating the Design Space of Diffusion-Based Generative Models"}]}],"\n",["$","p","p-7",{"children":["$","$Lf",null,{"href":"https://proceedings.neurips.cc/paper/2019/hash/3001ef257407d5a371a96dcd947c7d93-Abstract.html","children":"Generative modeling by estimating gradients of the data distribution"}]}],"\n",["$","p","p-8",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2402.17563","children":"Structure-Guided Adversarial Training of Diffusion Models"}]}],"\n","

","\n",["$","h5","h5-1",{"children":"1.1.2 ODE Solver"}],"\n",["$","p","p-9",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=St1giarCHLP","children":"Denoising Diffusion Implicit Models"}]}],"\n",["$","p","p-10",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=wRhLd65bDt","children":"Improving Diffusion-Based Image Synthesis with Context Prediction"}]}],"\n",["$","p","p-11",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2206.05564","children":"gDDIM: Generalized denoising diffusion implicit models"}]}],"\n",["$","p","p-12",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2206.00364","children":"Elucidating the Design Space of Diffusion-Based Generative Models"}]}],"\n",["$","p","p-13",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2206.00927","children":"DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model\nSampling in Around 10 Step"}]}],"\n",["$","p","p-14",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=PlKWVd2yBkY","children":"Pseudo Numerical Methods for Diffusion Models on Manifolds"}]}],"\n",["$","p","p-15",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2204.13902","children":"Fast Sampling of Diffusion Models with Exponential Integrator"}]}],"\n",["$","p","p-16",{"children":["$","$Lf",null,{"href":"https://openreview.net/pdf?id=voV_TRqcWh","children":"Poisson flow generative models"}]}],"\n",["$","p","p-17",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=wRhLd65bDt","children":"Improving Diffusion-Based Image Synthesis with Context Prediction"}]}],"\n",["$","p","p-18",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=nFMS6wF2xq","children":"Cross-Modal Contextualized Diffusion Models for Text-Guided Visual Generation and Editing"}]}],"\n",["$","p","p-19",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2402.17563","children":"Structure-Guided Adversarial Training of Diffusion Models"}]}],"\n",["$","p","p-20",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2407.02398v1","children":"Consistency Flow Matching: Defining Straight Flows with Velocity Consistency"}]}],"\n","

","\n",["$","h4","h4-1",{"children":"1.2 Learning-Based Sampling"}],"\n","

","\n",["$","h5","h5-2",{"children":"1.2.1 Optimized Discretization"}],"\n",["$","p","p-21",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2106.03802","children":"Learning to Efficiently Sample from Diffusion Probabilistic Models"}]}],"\n",["$","p","p-22",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2210.05475","children":"GENIE: Higher-Order Denoising Diffusion Solvers"}]}],"\n",["$","p","p-23",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=VFBjuF8HEp","children":"Learning fast samplers for diffusion models by differentiating through\nsample quality"}]}],"\n","

","\n",["$","h5","h5-3",{"children":"1.2.2 Knowledge Distillation"}],"\n",["$","p","p-24",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=TIdIXIpzhoI","children":"Progressive Distillation for Fast Sampling of Diffusion Models"}]}],"\n",["$","p","p-25",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2101.02388","children":"Knowledge Distillation in Iterative Generative Models for Improved Sampling Speed"}]}],"\n","

","\n",["$","h5","h5-4",{"children":"1.2.3 Truncated Diffusion"}],"\n",["$","p","p-26",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2205.12524","children":"Accelerating Diffusion Models via Early Stop of the Diffusion Process"}]}],"\n",["$","p","p-27",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2202.09671","children":"Truncated Diffusion Probabilistic Models"}]}],"\n","

","\n",["$","h3","h3-6",{"children":"2. Improved Likelihood"}],"\n","

","\n",["$","h4","h4-2",{"children":"2.1. Noise Schedule Optimization"}],"\n",["$","p","p-28",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=nFMS6wF2xq","children":"Cross-Modal Contextualized Diffusion Models for Text-Guided Visual Generation and Editing"}]}],"\n",["$","p","p-29",{"children":["$","$Lf",null,{"href":"https://proceedings.mlr.press/v139/nichol21a.html","children":" Improved denoising diffusion probabilistic models"}]}],"\n",["$","p","p-30",{"children":["$","$Lf",null,{"href":"https://proceedings.neurips.cc/paper/2021/hash/b578f2a52a0229873fefc2a4b06377fa-Abstract.html","children":"Variational diffusion models"}]}],"\n","

","\n",["$","h4","h4-3",{"children":"2.2. Reverse Variance Learning"}],"\n",["$","p","p-31",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=0xiJLKH-ufZ","children":"Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models"}]}],"\n",["$","p","p-32",{"children":["$","$Lf",null,{"href":"https://proceedings.mlr.press/v139/nichol21a.html","children":" Improved denoising diffusion probabilistic models"}]}],"\n",["$","p","p-33",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=WmIwYTd0YTF","children":"Stable Target Field for Reduced Variance Score Estimation in Diffusion Models"}]}],"\n","

","\n",["$","h4","h4-4",{"children":"2.3. Exact Likelihood Computation"}],"\n",["$","p","p-34",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2402.17563","children":"Structure-Guided Adversarial Training of Diffusion Models"}]}],"\n",["$","p","p-35",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=PxTIG12RRHS","children":"Score-Based Generative Modeling\nthrough Stochastic Differential Equations"}]}],"\n",["$","p","p-36",{"children":["$","$Lf",null,{"href":"https://proceedings.neurips.cc/paper/2021/hash/0a9fdbb17feb6ccb7ec405cfb85222c4-Abstract.html","children":"Maximum likelihood training of score-based diffusion models"}]}],"\n",["$","p","p-37",{"children":["$","$Lf",null,{"href":"https://proceedings.neurips.cc/paper/2021/hash/c11abfd29e4d9b4d4b566b01114d8486-Abstract.html","children":"A variational perspective on diffusion-based generative models and score matching"}]}],"\n",["$","p","p-38",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=PxTIG12RRHS","children":"Score-Based Generative Modeling\nthrough Stochastic Differential Equations"}]}],"\n",["$","p","p-39",{"children":["$","$Lf",null,{"href":"https://proceedings.mlr.press/v162/lu22f.html","children":" Maximum Likelihood Training for Score-based Diffusion\nODEs by High Order Denoising Score Matching"}]}],"\n",["$","p","p-40",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=TQn44YPuOR2","children":"Maximum Likelihood Training of Implicit Nonlinear Diffusion Models"}]}],"\n",["$","p","p-41",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=wRhLd65bDt","children":"Improving Diffusion-Based Image Synthesis with Context Prediction"}]}],"\n","

","\n",["$","h3","h3-7",{"children":"3. Data with Special Structures"}],"\n","

","\n",["$","h4","h4-5",{"children":"3.1. Data with Manifold Structures"}],"\n","

","\n",["$","h5","h5-5",{"children":"3.1.1 Known Manifolds"}],"\n",["$","p","p-42",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2202.02763","children":"Riemannian Score-Based Generative\nModeling"}]}],"\n",["$","p","p-43",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2208.07949","children":"Riemannian Diffusion Models"}]}],"\n","

","\n",["$","h5","h5-6",{"children":"3.1.2 Learned Manifolds"}],"\n",["$","p","p-44",{"children":["$","$Lf",null,{"href":"https://proceedings.neurips.cc/paper/2021/hash/5dca4c6b9e244d24a30b4c45601d9720-Abstract.html","children":"Score-based generative modeling in latent space"}]}],"\n",["$","p","p-45",{"children":["$","$Lf",null,{"href":"https://orbi.uliege.be/handle/2268/262334","children":" Diffusion priors in variational autoencoders"}]}],"\n",["$","p","p-46",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2204.06125","children":" Hierarchical text-conditional image generation with clip latents"}]}],"\n",["$","p","p-47",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2022/html/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.html","children":"High-resolution image synthesis with latent diffusion\nmodels"}]}],"\n",["$","p","p-48",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=wRhLd65bDt","children":"Improving Diffusion-Based Image Synthesis with Context Prediction"}]}],"\n","

","\n",["$","h4","h4-6",{"children":"3.2. Data with Invariant Structures"}],"\n",["$","p","p-49",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=PzcvxEMzvQC","children":" GeoDiff: A Geometric Diffusion Model for Molecular\nConformation Generation"}]}],"\n",["$","p","p-50",{"children":["$","$Lf",null,{"href":"http://proceedings.mlr.press/v108/niu20a","children":"Permutation invariant graph generation via\nscore-based generative modeling"}]}],"\n",["$","p","p-51",{"children":["$","$Lf",null,{"href":"https://proceedings.mlr.press/v162/jo22a.html","children":"Score-based Generative Modeling of Graphs via\nthe System of Stochastic Differential Equations"}]}],"\n",["$","p","p-52",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2209.14734","children":"DiGress: Discrete Denoising diffusion for graph generation"}]}],"\n",["$","p","p-53",{"children":["$","$Lf",null,{"href":"http://proceedings.mlr.press/v139/shi21b.html","children":"Learning gradient fields for molecular conformation generation"}]}],"\n",["$","p","p-54",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2212.01842","children":"Graphgdp: Generative diffusion processes for permutation invariant graph generation"}]}],"\n",["$","p","p-55",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2307.01646","children":"SwinGNN: Rethinking Permutation Invariance in Diffusion Models for Graph Generation"}]}],"\n",["$","p","p-56",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=qH9nrMNTIW","children":"Protein-Ligand Interaction Prior for Binding-aware 3D Molecule Diffusion Models"}]}],"\n",["$","p","p-57",{"children":["$","$Lf",null,{"href":"https://ieeexplore.ieee.org/abstract/document/10508504","children":"Graphusion: Latent Diffusion for Graph Generation"}]}],"\n","

","\n",["$","h4","h4-7",{"children":"3.3 Discrete Data"}],"\n",["$","p","p-58",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2022/html/Gu_Vector_Quantized_Diffusion_Model_for_Text-to-Image_Synthesis_CVPR_2022_paper.html","children":"Vector quantized diffusion model\nfor text-to-image synthesis"}]}],"\n",["$","p","p-59",{"children":["$","$Lf",null,{"href":"https://proceedings.neurips.cc/paper/2021/hash/958c530554f78bcd8e97125b70e6973d-Abstract.html","children":"Structured Denoising Diffusion Models in Discrete\nState-Spaces"}]}],"\n",["$","p","p-60",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2208.09141","children":"Vector Quantized Diffusion Model with CodeUnet for Text-to-Sign\nPose Sequences Generation"}]}],"\n",["$","p","p-61",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=rkbVIoZdWH","children":"Deep Unsupervised Learning using Non equilibrium\nThermodynamics."}]}],"\n",["$","p","p-62",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2205.14987","children":"A Continuous Time Framework\nfor Discrete Denoising Models"}]}],"\n","

","\n",["$","h3","h3-8",{"children":"4. Diffusion with (Multimodal) LLM"}],"\n","

","\n",["$","h4","h4-8",{"children":"4.1. Simple Combination"}],"\n",["$","p","p-63",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2305.13655","children":"LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models"}]}],"\n",["$","p","p-64",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2309.15091","children":"Videodirectorgpt: Consistent multi-scene video generation via llm-guided planning"}]}],"\n",["$","p","p-65",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2402.12908","children":"RealCompo: Dynamic Equilibrium between Realism and Compositionality Improves Text-to-Image Diffusion Models"}]}],"\n","

","\n",["$","h4","h4-9",{"children":"4.2. Deep Collaboration"}],"\n",["$","p","p-66",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2401.11708","children":"Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs"}]}],"\n",["$","p","p-67",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2406.04277","children":"VideoTetris: Towards Compositional Text-To-Video Generation"}]}],"\n","

","\n",["$","h3","h3-9",{"children":"4. Diffusion with DPO/RLHF"}],"\n",["$","p","p-68",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2311.12908","children":"Diffusion Model Alignment Using Direct Preference Optimization"}]}],"\n",["$","p","p-69",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2304.05977","children":"ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation"}]}],"\n",["$","p","p-70",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2410.07171","children":"IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation"}]}],"\n","

","\n",["$","h2","h2-4",{"children":"Application Taxonomy"}],"\n","

","\n",["$","h3","h3-10",{"children":"1. Computer Vision"}],"\n","

","\n",["$","ul","ul-6",{"children":["\n",["$","li","li-0",{"children":["Conditional Image Generation (Image Super Resolution, Inpainting, Translation, Manipulation)","\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=wRhLd65bDt","children":"Improving Diffusion-Based Image Synthesis with Context Prediction"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://www.sciencedirect.com/science/article/pii/S0925231222000522","children":"SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=y4N8y8ZQ4c1","children":"Image Super-Resolution via Iterative Refinement"}]}],"\n",["$","li","li-3",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2022/html/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.html","children":"High-Resolution Image Synthesis with Latent Diffusion Models"}]}],"\n",["$","li","li-4",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2022/html/Lugmayr_RePaint_Inpainting_Using_Denoising_Diffusion_Probabilistic_Models_CVPR_2022_paper.html","children":"Repaint: Inpainting using denoising diffusion probabilistic models."}]}],"\n",["$","li","li-5",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=FPGs276lUeq","children":"Palette: Image-to-image diffusion models."}]}],"\n",["$","li","li-6",{"children":["$","$Lf",null,{"href":"http://arxiv.org/abs/2209.06970","children":"Generative Visual Prompt: Unifying Distributional Control of Pre-Trained Generative Models"}]}],"\n",["$","li","li-7",{"children":["$","$Lf",null,{"href":"https://www.jmlr.org/papers/v23/21-0635.html","children":"Cascaded Diffusion Models for High Fidelity Image Generation."}]}],"\n",["$","li","li-8",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2111.13606","children":"Conditional image generation with score-based diffusion models"}]}],"\n",["$","li","li-9",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2207.08208","children":"Unsupervised Medical Image Translation with Adversarial Diffusion Models"}]}],"\n",["$","li","li-10",{"children":["$","$Lf",null,{"href":"https://www.sciencedirect.com/science/article/pii/S1361841522001268","children":"Score-based diffusion models for accelerated MRI"}]}],"\n",["$","li","li-11",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=vaRCHVj0uGI","children":"Solving Inverse Problems in Medical Imaging with Score-Based Generative Models"}]}],"\n",["$","li","li-12",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2203.12621","children":"MR Image Denoising and Super-Resolution Using Regularized Reverse Diffusion"}]}],"\n",["$","li","li-13",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2108.01073","children":"Sdedit: Guided image synthesis and editing with stochastic differential equations"}]}],"\n",["$","li","li-14",{"children":["$","$Lf",null,{"href":"https://web7.arxiv.org/abs/2209.05442","children":"Soft diffusion: Score matching for general corruptions"}]}],"\n",["$","li","li-15",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2211.11138","children":"Diffusion-Based Scene Graph to Image Generation with Masked Contrastive Pre-Training"}]}],"\n",["$","li","li-16",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2302.05543","children":"ControlNet: Adding Conditional Control to Text-to-Image Diffusion Models"}]}],"\n",["$","li","li-17",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2301.11699","children":"Image Restoration with Mean-Reverting Stochastic Differential Equations"}]}],"\n",["$","li","li-18",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2023/html/Avrahami_SpaText_Spatio-Textual_Representation_for_Controllable_Image_Generation_CVPR_2023_paper.html","children":"SpaText: Spatio-Textual Representation for Controllable Image Generation"}]}],"\n",["$","li","li-19",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2305.16311","children":"Break-A-Scene: Extracting Multiple Concepts from a Single Image"}]}],"\n",["$","li","li-20",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=wRhLd65bDt","children":"Improving Diffusion-Based Image Synthesis with Context Prediction"}]}],"\n",["$","li","li-21",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=nFMS6wF2xq","children":"Cross-Modal Contextualized Diffusion Models for Text-Guided Visual Generation and Editing"}]}],"\n",["$","li","li-22",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2402.12908","children":"RealCompo: Dynamic Equilibrium between Realism and Compositionality Improves Text-to-Image Diffusion Models"}]}],"\n",["$","li","li-23",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2401.11708","children":"Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs"}]}],"\n",["$","li","li-24",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2405.14785","children":"EditWorld: Simulating World Dynamics for Instruction-Following Image Editing"}]}],"\n",["$","li","li-25",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2410.07171","children":"IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation"}]}],"\n",["$","li","li-26",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2407.02398v1","children":"Consistency Flow Matching: Defining Straight Flows with Velocity Consistency"}]}],"\n",["$","li","li-27",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2410.07303","children":"Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow"}]}],"\n"]}],"\n"]}],"\n"]}],"\n","

","\n",["$","ul","ul-7",{"children":["\n",["$","li","li-0",{"children":["Semantic Segmentation","\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=SlxSY2UZQT","children":" Label-Efficient Semantic Segmentation with Diffusion Models."}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2205.11423","children":"Decoder Denoising Pretraining for Semantic Segmentation."}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2206.09012","children":"Diffusion models as plug-and-play priors"}]}],"\n"]}],"\n"]}],"\n"]}],"\n","

","\n",["$","ul","ul-8",{"children":["\n",["$","li","li-0",{"children":["Video Generation","\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2205.11495","children":"Flexible Diffusion Modeling of Long Videos"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=BBelR2NdDZ5","children":"Video diffusion models"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2203.09481","children":"Diffusion probabilistic modeling for video generation"}]}],"\n",["$","li","li-3",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2208.15001","children":"MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model."}]}],"\n",["$","li","li-4",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=nFMS6wF2xq","children":"Cross-Modal Contextualized Diffusion Models for Text-Guided Visual Generation and Editing"}]}],"\n",["$","li","li-5",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2311.15127","children":"Stable video diffusion: Scaling latent video diffusion models to large datasets"}]}],"\n",["$","li","li-6",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2311.04145","children":"I2vgen-xl: High-quality image-to-video synthesis via cascaded diffusion models"}]}],"\n",["$","li","li-7",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2401.12945","children":"Lumiere: A space-time diffusion model for video generation"}]}],"\n",["$","li","li-8",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2406.04277","children":"VideoTetris: Towards Compositional Text-To-Video Generation"}]}],"\n"]}],"\n"]}],"\n"]}],"\n","

","\n",["$","ul","ul-9",{"children":["\n",["$","li","li-0",{"children":["3D Generation","\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/ICCV2021/html/Zhou_3D_Shape_Generation_and_Completion_Through_Point-Voxel_Diffusion_ICCV_2021_paper.html","children":"3d shape generation and completion through point-voxel diffusion"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2021/html/Luo_Diffusion_Probabilistic_Models_for_3D_Point_Cloud_Generation_CVPR_2021_paper.html","children":"Diffusion probabilistic models for 3d point cloud generation"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=wqD6TfbYkrn","children":"A Conditional Point Diffusion-Refinement Paradigm for 3D Point Cloud Completion"}]}],"\n",["$","li","li-3",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2208.14699","children":"Let us Build Bridges: Understanding and Extending Diffusion Generative Models."}]}],"\n",["$","li","li-4",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2210.06978","children":"LION: Latent Point Diffusion Models for 3D Shape Generation"}]}],"\n",["$","li","li-5",{"children":["$","$Lf",null,{"href":"https://arxiv.org/pdf/2303.14184v2.pdf","children":"Make-It-3D: High-Fidelity 3D Creation from A Single Image with Diffusion Prior"}]}],"\n",["$","li","li-6",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2023/papers/Wang_Score_Jacobian_Chaining_Lifting_Pretrained_2D_Diffusion_Models_for_3D_CVPR_2023_paper.pdf","children":"Score Jacobian Chaining: Lifting Pretrained 2D Diffusion Models for 3D Generation"}]}],"\n",["$","li","li-7",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2023/papers/Anciukevicius_RenderDiffusion_Image_Diffusion_for_3D_Reconstruction_Inpainting_and_Generation_CVPR_2023_paper.pdf","children":"RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and Generation"}]}],"\n",["$","li","li-8",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2023/papers/Karnewar_HOLODIFFUSION_Training_a_3D_Diffusion_Model_Using_2D_Images_CVPR_2023_paper.pdf","children":"HOLODIFFUSION: Training a 3D Diffusion Model using 2D Images"}]}],"\n",["$","li","li-9",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2023/papers/Metzer_Latent-NeRF_for_Shape-Guided_Generation_of_3D_Shapes_and_Textures_CVPR_2023_paper.pdf","children":"Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures"}]}],"\n",["$","li","li-10",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2023/papers/Muller_DiffRF_Rendering-Guided_3D_Radiance_Field_Diffusion_CVPR_2023_paper.pdf","children":"DiffRF: Rendering-Guided 3D Radiance Field Diffusion"}]}],"\n",["$","li","li-11",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2023/papers/Wynn_DiffusioNeRF_Regularizing_Neural_Radiance_Fields_With_Denoising_Diffusion_Models_CVPR_2023_paper.pdf","children":"DiffusioNeRF: Regularizing Neural Radiance Fields with Denoising Diffusion Models"}]}],"\n",["$","li","li-12",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2023/papers/Shue_3D_Neural_Field_Generation_Using_Triplane_Diffusion_CVPR_2023_paper.pdf","children":"3D Neural Field Generation using Triplane Diffusion"}]}],"\n",["$","li","li-13",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2410.09009","children":"Semantic Score Distillation Sampling for Compositional Text-to-3D Generation"}]}],"\n",["$","li","li-14",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2410.07155","children":"Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis"}]}],"\n"]}],"\n"]}],"\n"]}],"\n","

","\n",["$","ul","ul-10",{"children":["\n",["$","li","li-0",{"children":["Anomaly Detection","\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2022W/NTIRE/html/Wyatt_AnoDDPM_Anomaly_Detection_With_Denoising_Diffusion_Probabilistic_Models_Using_Simplex_CVPRW_2022_paper.html","children":"AnoDDPM: Anomaly Detection With Denoising Diffusion Probabilistic Models Using Simplex Noise"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://ui.adsabs.harvard.edu/abs/2022arXiv220611892G/abstract","children":"Remote Sensing Change Detection (Segmentation) using Denoising Diffusion Probabilistic Models."}]}],"\n"]}],"\n"]}],"\n"]}],"\n","

","\n",["$","ul","ul-11",{"children":["\n",["$","li","li-0",{"children":["Object Detection","\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2211.09788","children":"DiffusionDet: Diffusion Model for Object Detection"}]}],"\n"]}],"\n"]}],"\n"]}],"\n","

","\n",["$","h3","h3-11",{"children":"2. Natural Language Processing"}],"\n",["$","ul","ul-12",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://proceedings.neurips.cc/paper/2021/hash/958c530554f78bcd8e97125b70e6973d-Abstract.html","children":"Structured denoising diffusion models in discrete state-spaces"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2205.14217","children":"Diffusion-LM Improves Controllable Text Generation."}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2208.04202","children":"Analog Bits: Generating Discrete Data using Diffusion Models with Self-Conditioning"}]}],"\n",["$","li","li-3",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2210.08933","children":"DiffuSeq: Sequence to Sequence Text Generation with Diffusion Models"}]}],"\n"]}],"\n","

","\n",["$","h3","h3-12",{"children":"3. Temporal Data Modeling"}],"\n","

","\n",["$","ul","ul-13",{"children":["\n",["$","li","li-0",{"children":["Time Series Imputation","\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://proceedings.neurips.cc/paper/2021/hash/cfe8504bda37b575c70ee1a8276f3486-Abstract.html","children":"CSDI: Conditional score-based diffusion models for probabilistic time series imputation"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2208.09399","children":"Diffusion-based Time Series Imputation and Forecasting with Structured State Space Models"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=7DI6op61AY","children":"Neural Markov Controlled SDE: Stochastic Optimization for Continuous-Time Data"}]}],"\n"]}],"\n"]}],"\n"]}],"\n","

","\n",["$","ul","ul-14",{"children":["\n",["$","li","li-0",{"children":["Time Series Forecasting","\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"http://proceedings.mlr.press/v139/rasul21a.html","children":"Autoregressive denoising diffusion models for multivariate probabilistic time series forecasting"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2208.09399","children":"Diffusion-based Time Series Imputation and Forecasting with Structured State Space Models"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2410.18712","children":"Retrieval-Augmented Diffusion Models for Time Series Forecasting"}]}],"\n"]}],"\n"]}],"\n"]}],"\n","

","\n",["$","ul","ul-15",{"children":["\n",["$","li","li-0",{"children":["Waveform Signal Processing","\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=NsMLjcFaO8O","children":"WaveGrad: Estimating Gradients for Waveform Generation. "}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=a-xFK8Ymz5J","children":"DiffWave: A Versatile Diffusion Model for Audio Synthesis"}]}],"\n"]}],"\n"]}],"\n"]}],"\n","

","\n",["$","h3","h3-13",{"children":"4. Multi-Modal Learning"}],"\n","

","\n",["$","ul","ul-16",{"children":["\n",["$","li","li-0",{"children":["Text-to-Image Generation","\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=wRhLd65bDt","children":"Improving Diffusion-Based Image Synthesis with Context Prediction"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2022/html/Avrahami_Blended_Diffusion_for_Text-Driven_Editing_of_Natural_Images_CVPR_2022_paper.html","children":"Blended diffusion for text-driven editing of natural images"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2204.06125","children":"Hierarchical Text-Conditional Image Generation with CLIP Latents"}]}],"\n",["$","li","li-3",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2205.11487","children":"Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding"}]}],"\n",["$","li","li-4",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2112.10741","children":"GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models"}]}],"\n",["$","li","li-5",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2022/html/Gu_Vector_Quantized_Diffusion_Model_for_Text-to-Image_Synthesis_CVPR_2022_paper.html","children":"Vector quantized diffusion model for text-to-image synthesis. "}]}],"\n",["$","li","li-6",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2208.13753","children":"Frido: Feature Pyramid Diffusion for Complex Image Synthesis."}]}],"\n",["$","li","li-7",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2208.12242","children":"DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation"}]}],"\n",["$","li","li-8",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2210.09276","children":"Imagic: Text-Based Real Image Editing with Diffusion Models"}]}],"\n",["$","li","li-9",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2210.09477","children":"UniTune: Text-Driven Image Editing by Fine Tuning an Image Generation Model on a Single Image"}]}],"\n",["$","li","li-10",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2022/html/Kim_DiffusionCLIP_Text-Guided_Diffusion_Models_for_Robust_Image_Manipulation_CVPR_2022_paper.html","children":"DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation"}]}],"\n",["$","li","li-11",{"children":["$","$Lf",null,{"href":"https://ml.cs.tsinghua.edu.cn/diffusion/unidiffuser.pdf","children":"One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale"}]}],"\n",["$","li","li-12",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2305.10855","children":"TextDiffuser: Diffusion Models as Text Painters"}]}],"\n",["$","li","li-13",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=wRhLd65bDt","children":"Improving Diffusion-Based Image Synthesis with Context Prediction"}]}],"\n",["$","li","li-14",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=nFMS6wF2xq","children":"Cross-Modal Contextualized Diffusion Models for Text-Guided Visual Generation and Editing"}]}],"\n",["$","li","li-15",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2402.12908","children":"RealCompo: Dynamic Equilibrium between Realism and Compositionality Improves Text-to-Image Diffusion Models"}]}],"\n",["$","li","li-16",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2401.11708","children":"Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs"}]}],"\n",["$","li","li-17",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2405.14785","children":"EditWorld: Simulating World Dynamics for Instruction-Following Image Editing"}]}],"\n",["$","li","li-18",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2410.07171","children":"IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation"}]}],"\n",["$","li","li-19",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2407.02398v1","children":"Consistency Flow Matching: Defining Straight Flows with Velocity Consistency"}]}],"\n",["$","li","li-20",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2410.07303","children":"Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow"}]}],"\n"]}],"\n"]}],"\n"]}],"\n","

","\n",["$","ul","ul-17",{"children":["\n",["$","li","li-0",{"children":["Text-to-3D Generation","\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2211.10440","children":"Magic3D: High-Resolution Text-to-3D Content Creation"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2209.14988","children":"DreamFusion: Text-to-3D using 2D Diffusion"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://arxiv.org/pdf/2303.14184v2.pdf","children":"Make-It-3D: High-Fidelity 3D Creation from A Single Image with Diffusion Prior"}]}],"\n",["$","li","li-3",{"children":["$","$Lf",null,{"href":"https://arxiv.org/pdf/2305.02463.pdf","children":"Shap·E: Generating Conditional 3D Implicit Functions"}]}],"\n",["$","li","li-4",{"children":["$","$Lf",null,{"href":"https://arxiv.org/pdf/2303.13873.pdf","children":"Fantasia3D: Disentangling Geometry and Appearance for High-quality Text-to-3D Content Creation"}]}],"\n",["$","li","li-5",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2023/papers/Xu_Dream3D_Zero-Shot_Text-to-3D_Synthesis_Using_3D_Shape_Prior_and_Text-to-Image_CVPR_2023_paper.pdf","children":"Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and Text-to-Image Diffusion Models"}]}],"\n",["$","li","li-6",{"children":["$","$Lf",null,{"href":"https://arxiv.org/pdf/2305.16213.pdf","children":"ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation"}]}],"\n",["$","li","li-7",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2311.13384","children":"LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes"}]}],"\n",["$","li","li-8",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2310.08529","children":"GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models"}]}],"\n",["$","li","li-9",{"children":["$","$Lf",null,{"href":"https://arxiv.org/pdf/2310.05375","children":"IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts"}]}],"\n",["$","li","li-10",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2410.09009","children":"Semantic Score Distillation Sampling for Compositional Text-to-3D Generation"}]}],"\n",["$","li","li-11",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2410.07155","children":"Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis"}]}],"\n"]}],"\n"]}],"\n"]}],"\n","

","\n",["$","ul","ul-18",{"children":["\n",["$","li","li-0",{"children":["Scene Graph/Layout to Image Generation","\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2211.11138","children":"Diffusion-Based Scene Graph to Image Generation with Masked Contrastive Pre-Training"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"http://openaccess.thecvf.com/content/CVPR2023/html/Zheng_LayoutDiffusion_Controllable_Diffusion_Model_for_Layout-to-Image_Generation_CVPR_2023_paper.html","children":"LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2305.13655","children":"LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models"}]}],"\n",["$","li","li-3",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2402.12908","children":"RealCompo: Dynamic Equilibrium between Realism and Compositionality Improves Text-to-Image Diffusion Models"}]}],"\n"]}],"\n"]}],"\n"]}],"\n","

","\n",["$","ul","ul-19",{"children":["\n",["$","li","li-0",{"children":["Text-to-Audio Generation","\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://proceedings.mlr.press/v139/popov21a.html","children":"Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2205.15370","children":"Guided-TTS 2: A Diffusion Model for High-quality Adaptive Text-to-Speech with Untranscribed Data"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2207.09983","children":"Diffsound: Discrete Diffusion Model for Text-to-sound Generation"}]}],"\n",["$","li","li-3",{"children":["$","$Lf",null,{"href":"https://ui.adsabs.harvard.edu/abs/2021arXiv210507583W/abstract","children":"ItôTTS and ItôWave: Linear Stochastic Differential Equation Is All You Need For Audio Generation"}]}],"\n",["$","li","li-4",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2206.02246","children":"Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models"}]}],"\n",["$","li","li-5",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2110.02584","children":"EdiTTS: Score-based Editing for Controllable Text-to-Speech."}]}],"\n",["$","li","li-6",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2207.06389","children":"ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech."}]}],"\n",["$","li","li-7",{"children":["$","$Lf",null,{"href":"https://arxiv.org/pdf/2304.13731v1.pdf","children":"Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model"}]}],"\n"]}],"\n"]}],"\n"]}],"\n","

","\n",["$","ul","ul-20",{"children":["\n",["$","li","li-0",{"children":["Text-to-Motion Generation","\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2209.14916","children":"Human motion diffusion model"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2208.15001","children":"Motiondiffuse: Text-driven human motion generation with diffusion model"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2209.00349","children":"Flame: Free-form language-based motion synthesis & editing"}]}],"\n"]}],"\n"]}],"\n"]}],"\n","

","\n",["$","ul","ul-21",{"children":["\n",["$","li","li-0",{"children":["Text-to-Video Generation/Editting","\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2209.14792","children":"Make-a-video: Text-to-video generation without text-video data"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2212.11565","children":"Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2303.09535","children":"FateZero: Fusing Attentions for Zero-shot Text-based Video Editing"}]}],"\n",["$","li","li-3",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2210.02303","children":"Imagen video: High definition video generation with diffusion models"}]}],"\n",["$","li","li-4",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2303.13744","children":"Conditional Image-to-Video Generation with Latent Flow Diffusion Models"}]}],"\n",["$","li","li-5",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2303.13439","children":"Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators"}]}],"\n",["$","li","li-6",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2303.17599","children":"Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models"}]}],"\n",["$","li","li-7",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2304.01186","children":"Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos"}]}],"\n",["$","li","li-8",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2303.13439","children":"Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators"}]}],"\n",["$","li","li-9",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2305.13077","children":"ControlVideo: Training-free Controllable Text-to-Video Generation"}]}],"\n",["$","li","li-10",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2310.08465","children":"MotionDirector: Motion Customization of Text-to-Video Diffusion Models"}]}],"\n",["$","li","li-11",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=nFMS6wF2xq","children":"Cross-Modal Contextualized Diffusion Models for Text-Guided Visual Generation and Editing"}]}],"\n",["$","li","li-12",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2311.15127","children":"Stable video diffusion: Scaling latent video diffusion models to large datasets"}]}],"\n",["$","li","li-13",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2311.04145","children":"I2vgen-xl: High-quality image-to-video synthesis via cascaded diffusion models"}]}],"\n",["$","li","li-14",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2401.12945","children":"Lumiere: A space-time diffusion model for video generation"}]}],"\n",["$","li","li-15",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2310.19512","children":"Videocrafter1: Open diffusion models for high-quality video generation"}]}],"\n",["$","li","li-16",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2406.04277","children":"VideoTetris: Towards Compositional Text-To-Video Generation"}]}],"\n"]}],"\n"]}],"\n"]}],"\n","

","\n",["$","h3","h3-14",{"children":"5. Robust Learning"}],"\n","

","\n",["$","ul","ul-22",{"children":["\n",["$","li","li-0",{"children":["Data Purification","\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2205.07460","children":"Diffusion Models for Adversarial Purification"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"http://proceedings.mlr.press/v139/yoon21a.html","children":"Adversarial purification with score-based generative models"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2207.08089","children":"Threat Model-Agnostic Adversarial Defense using Diffusion Models"}]}],"\n",["$","li","li-3",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2205.14969","children":"Guided Diffusion Model for Adversarial Purification"}]}],"\n",["$","li","li-4",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2206.10875","children":"Guided Diffusion Model for Adversarial Purification from Random Noise"}]}],"\n",["$","li","li-5",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2208.09801","children":"PointDP: Diffusion-driven Purification against Adversarial Attacks on 3D Point Cloud Recognition."}]}],"\n"]}],"\n"]}],"\n"]}],"\n","

","\n",["$","ul","ul-23",{"children":["\n",["$","li","li-0",{"children":["Generating Synthetic Data for Robust Learning","\n",["$","ul","ul-0",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2203.17260","children":"Generating high fidelity data from low-density regions using diffusion models"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2301.12334","children":"Don’t Play Favorites: Minority Guidance for Diffusion Models"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2302.04638","children":"Better diffusion models further improve adversarial training"}]}],"\n"]}],"\n"]}],"\n"]}],"\n","

","\n",["$","h3","h3-15",{"children":"6. Molecular Graph Modeling"}],"\n",["$","ul","ul-24",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=D9IxPlXPJJS","children":"Torsional Diffusion for Molecular Conformer Generation."}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://proceedings.mlr.press/v162/hoogeboom22a.html","children":"Equivariant Diffusion for Molecule Generation in 3D"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2205.15019","children":"Protein Structure and Sequence Generation with Equivariant Denoising Diffusion Probabilistic Models"}]}],"\n",["$","li","li-3",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=PzcvxEMzvQC","children":"GeoDiff: A Geometric Diffusion Model for Molecular Conformation Generation"}]}],"\n",["$","li","li-4",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2206.04119","children":"Diffusion probabilistic modeling of protein backbones in 3D for the motif-scaffolding problem"}]}],"\n",["$","li","li-5",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2209.00865","children":"Diffusion-based Molecule Generation with Informative Prior Bridge"}]}],"\n",["$","li","li-6",{"children":["$","$Lf",null,{"href":"http://proceedings.mlr.press/v139/shi21b.html","children":"Learning gradient fields for molecular conformation generation"}]}],"\n",["$","li","li-7",{"children":["$","$Lf",null,{"href":"https://proceedings.neurips.cc/paper/2021/hash/a45a1d12ee0fb7f1f872ab91da18f899-Abstract.html","children":"Predicting molecular conformation via dynamic graph score matching. "}]}],"\n",["$","li","li-8",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2210.01776","children":"DiffDock: Diffusion Steps, Twists, and Turns for Molecular Docking"}]}],"\n",["$","li","li-9",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2303.03543","children":"3D Equivariant Diffusion for Target-Aware Molecule Generation and Affinity Prediction"}]}],"\n",["$","li","li-10",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2305.12347","children":"Learning Joint 2D & 3D Diffusion Models for Complete Molecule Generation"}]}],"\n",["$","li","li-11",{"children":["$","$Lf",null,{"href":"https://ieeexplore.ieee.org/abstract/document/10508504","children":"Graphusion: Latent Diffusion for Graph Generation"}]}],"\n",["$","li","li-12",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2402.18583","children":"Binding-Adaptive Diffusion Models for Structure-Based Drug Design"}]}],"\n",["$","li","li-13",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=qH9nrMNTIW","children":"Protein-Ligand Interaction Prior for Binding-aware 3D Molecule Diffusion Models"}]}],"\n",["$","li","li-14",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=eejhD9FCP3","children":"Interaction-based Retrieval-augmented Diffusion Models for Protein-specific 3D Molecule Generation"}]}],"\n"]}],"\n","

","\n",["$","h3","h3-16",{"children":"7. Material Design"}],"\n",["$","ul","ul-25",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2110.06197","children":"Crystal Diffusion Variational Autoencoder for Periodic Material Generation"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://www.biorxiv.org/content/10.1101/2022.07.10.499510v1","children":"Antigen-specific antibody design and optimization with diffusion-based generative models"}]}],"\n"]}],"\n","

","\n",["$","h3","h3-17",{"children":"8. Medical Image Reconstruction"}],"\n",["$","ul","ul-26",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=vaRCHVj0uGI","children":"Solving Inverse Problems in Medical Imaging with Score-Based Generative Models"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2203.12621","children":"MR Image Denoising and Super-Resolution Using Regularized Reverse Diffusion"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2110.05243","children":"Score-based diffusion models for accelerated MRI"}]}],"\n",["$","li","li-3",{"children":["$","$Lf",null,{"href":"https://arxiv.org/pdf/2203.04292.pdf","children":"Towards performant and reliable undersampled MR reconstruction via diffusion model sampling"}]}],"\n",["$","li","li-4",{"children":["$","$Lf",null,{"href":"https://openaccess.thecvf.com/content/CVPR2022/papers/Chung_Come-Closer-Diffuse-Faster_Accelerating_Conditional_Diffusion_Models_for_Inverse_Problems_Through_Stochastic_CVPR_2022_paper.pdf","children":"Come-closer-diffuse-faster: Accelerating conditional diffusion models for inverse problems through stochastic contraction"}]}],"\n"]}],"\n","

","\n",["$","h2","h2-5",{"children":"Connections with Other Generative Models"}],"\n","

","\n",["$","h3","h3-18",{"children":"1. Variational Autoencoder"}],"\n",["$","ul","ul-27",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2208.11970","children":"Understanding Diffusion Models: A Unified Perspective"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://proceedings.neurips.cc/paper/2021/hash/c11abfd29e4d9b4d4b566b01114d8486-Abstract.html","children":"A variational perspective on diffusion-based generative models and score matching"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://proceedings.neurips.cc/paper/2021/hash/5dca4c6b9e244d24a30b4c45601d9720-Abstract.html","children":"Score-based generative modeling in latent space"}]}],"\n",["$","li","li-3",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=wRhLd65bDt","children":"Improving Diffusion-Based Image Synthesis with Context Prediction"}]}],"\n"]}],"\n","

","\n",["$","h3","h3-19",{"children":"2. Generative Adversarial Network"}],"\n",["$","ul","ul-28",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2206.02262","children":"Diffusion-GAN: Training GANs with Diffusion. "}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=JprM0p-q0Co","children":"Tackling the generative learning trilemma with denoising diffusion gans"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2402.17563","children":"Structure-Guided Adversarial Training of Diffusion Models"}]}],"\n"]}],"\n","

","\n",["$","h3","h3-20",{"children":"3. Normalizing Flow"}],"\n",["$","ul","ul-29",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://proceedings.neurips.cc/paper/2021/hash/876f1f9954de0aa402d91bb988d12cd4-Abstract.html","children":"Diffusion Normalizing Flow"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=jxsmOXCDv9l","children":"Interpreting diffusion score matching using normalizing flow"}]}],"\n",["$","li","li-2",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=TQn44YPuOR2","children":"Maximum Likelihood Training of Implicit Nonlinear Diffusion Models"}]}],"\n",["$","li","li-3",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2407.02398v1","children":"Consistency Flow Matching: Defining Straight Flows with Velocity Consistency"}]}],"\n",["$","li","li-4",{"children":["$","$Lf",null,{"href":"https://arxiv.org/abs/2410.07303","children":"Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow"}]}],"\n"]}],"\n","

","\n",["$","h3","h3-21",{"children":"4. Autoregressive Models"}],"\n",["$","ul","ul-30",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=Lm8T39vLDTE","children":"Autoregressive Diffusion Models. "}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"http://proceedings.mlr.press/v139/rasul21a.html","children":"Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting. "}]}],"\n"]}],"\n","

","\n",["$","h3","h3-22",{"children":"5. Energy-Based Models"}],"\n",["$","ul","ul-31",{"children":["\n",["$","li","li-0",{"children":["$","$Lf",null,{"href":"https://openreview.net/forum?id=v_1Soh8QUNc","children":"Learning Energy-Based Models by Diffusion Recovery Likelihood"}]}],"\n",["$","li","li-1",{"children":["$","$Lf",null,{"href":"https://proceedings.mlr.press/v162/yu22h.html","children":"Latent Diffusion Energy-Based Model for Interpretable Text Modeling"}]}],"\n"]}],"\n",["$","h2","h2-6",{"children":"Citing"}],"\n",["$","p","p-71",{"children":"If you find this work useful, please cite our paper:"}],"\n",["$","pre","pre-0",{"children":["$","code","code-0",{"children":"@article{yang2023diffusurvey,\n title={Diffusion models: A comprehensive survey of methods and applications},\n author={Yang, Ling and Zhang, Zhilong and Song, Yang and Hong, Shenda and Xu, Runsheng and Zhao, Yue and Zhang, Wentao and Cui, Bin and Yang, Ming-Hsuan},\n journal={ACM Computing Surveys},\n volume={56},\n number={4},\n pages={1--39},\n year={2023},\n publisher={ACM New York, NY, USA}\n}\n"}]}]]]}]