awesome-llms-meet-multimodal-generation

🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).

https://github.com/yingqinghe/awesome-llms-meet-multimodal-generation

Science Score: 67.0%

This score indicates how likely this project is to be science-related based on various indicators:

✓
CITATION.cff file
Found CITATION.cff file
✓
codemeta.json file
Found codemeta.json file
✓
.zenodo.json file
Found .zenodo.json file
✓
DOI references
Found 2 DOI reference(s) in README
✓
Academic publication links
Links to: arxiv.org, ieee.org
○
Academic email domains
○
Institutional organization owner
○
JOSS paper metadata
○
Scientific vocabulary similarity
Low similarity (7.0%) to scientific vocabulary

Keywords

aigc large-language-models large-vision-language-models llm lvlm mllm multimodal-generation multimodal-large-language-models multimodal-models multimodality text-to-3d text-to-audio text-to-image text-to-music text-to-sound text-to-speech text-to-video

Last synced: 11 months ago · JSON representation ·

Repository

🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).

Basic Info

Host: GitHub
Owner: YingqingHe
Language: HTML
Default Branch: main
Homepage:
Size: 12.7 MB

Statistics

Stars: 506
Watchers: 18
Forks: 29
Open Issues: 0
Releases: 0

Topics

Created over 2 years ago · Last pushed over 1 year ago

Metadata Files

Readme Citation

README.md

LLMs Meet Multimodal Generation and Editing: A Survey

🤗 Introduction

This repository contains a curated list of LLMs meet multimodal generation. Modalities consist of visual (including image, video and 3D) and audio (including sound, speech and music).
We welcome any contributions and suggestions to our repository or the addition of your own work. Feel free to make a pull request or leave your comments!!

📋 Contents

🤗 Introduction
📋 Contents
💘 Tips
📍 Multimodal Generation
📍 Multimodal Editing
📍 Multimodal Agents
📍 Multimodal Understanding with LLMs
📍 Multimodal LLM Safety
📍 Related Surveys
- LLM
- Vision
👨‍💻 Team
😉 Citation
⭐️ Star History

💘 Tips

✅ Paper searching via catatogue: directly clicking the content of the catatogue to select the area of your research and browse related papers.
✅ Paper searching via author name: Free feel to search papers of a specific author via ctrl + F and then type the author name. The dropdown list of authors will automatically expand when searching.
✅ Paper searching via tag: You can also search the related papers via the following tags: customization, iteractive, human motion generation tokenizer. (More tags are ongoing)

📍 Multimodal Generation

Image Generation

🔅 LLM-based

I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models (12 Feb 2025)
Zhenxing Mi, Kuan-Chieh Wang, Guocheng Qian, et al.
Zhenxing Mi, Kuan-Chieh Wang, Guocheng Qian, Hanrong Ye, Runtao Liu, Sergey Tulyakov, Kfir Aberman, Dan Xu
MetaMorph: Multimodal Understanding and Generation via Instruction Tuning (18 Dec 2024)
Shengbang Tong, David Fan, Jiachen Zhu, et al.
Shengbang Tong, David Fan, Jiachen Zhu, Yunyang Xiong, Xinlei Chen, Koustuv Sinha, Michael Rabbat, Yann LeCun, Saining Xie, Zhuang Liu
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models (2 Dec 2024)
Zeyi Sun, Ziyang Chu, Pan Zhang, et al.
Zeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
Cosmos Tokenizer: A suite of image and video neural tokenizers (06 Nov 2024)
Fitsum Reda, Jinwei Gu, Xian Liu et al.
Fitsum Reda, Jinwei Gu, Xian Liu, Songwei Ge, Ting-Chun Wang, Haoxiang Wang, Ming-Yu Liu
tokenizer
[ICLR 2025 Spotlight] Rare-to-Frequent: Unlocking Compositional Generation Power of Diffusion Models on Rare Concepts with LLM Guidance (29 Oct 2024)
Dongmin Park, Sebin Kim, Taehong Moon et al.
Dongmin Park, Sebin Kim, Taehong Moon, Minkyu Kim, Kangwook Lee, Jaewoong Cho
ElasticTok: Adaptive Tokenization for Image and Video (10 Oct 2024)
Wilson Yan, Matei Zaharia, Volodymyr Mnih et al.
Wilson Yan, Matei Zaharia, Volodymyr Mnih, Pieter Abbeel, Aleksandra Faust, Hao Liu
tokenizer
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation (10 Oct 2024)
Jiatao Gu, Yuyang Wang, Yizhe Zhang et al.
Jiatao Gu, Yuyang Wang, Yizhe Zhang, Qihang Zhang, Dinghuai Zhang, Navdeep Jaitly, Josh Susskind, Shuangfei Zhai
VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation (6 Sep 2024)
Yecheng Wu, Zhuoyang Zhang, Junyu Chen et al.
Yecheng Wu, Zhuoyang Zhang, Junyu Chen, Haotian Tang, Dacheng Li, Yunhao Fang, Ligeng Zhu, Enze Xie, Hongxu Yin, Li Yi, Song Han, Yao Lu
OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation (13 Jun 2024)
Junke Wang, Yi Jiang, Zehuan Yuan et al.
Junke Wang, Yi Jiang, Zehuan Yuan, Binyue Peng, Zuxuan Wu, Yu-Gang Jiang
tokenizer
InstantUnify: Integrates Multimodal LLM into Diffusion Models (Aug 2024)
Qixun Wang, Xu Bai, Rui Wang et al.
Qixun Wang, Xu Bai, Rui Wang, Haofan Wang
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation (22 Aug 2024)
Jinheng Xie, Weijia Mao, Zechen Bai, et al.
Jinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Zheng Shou
Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions (11 Jun 2024)
Renjie Pi, Jianshu Zhang, Jipeng Zhang et al.
Renjie Pi, Jianshu Zhang, Jipeng Zhang, Rui Pan, Zhekai Chen, Tong Zhang
T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text (11 Jun 2024)
[ACL 2024] Aoxiong Yin, Haoyuan Li, Kai Shen et al.
Aoxiong Yin, Haoyuan Li, Kai Shen, Siliang Tang, Yueting Zhuang
Open-World Human-Object Interaction Detection via Multi-modal Prompts (11 Jun 2024)
Jie Yang, Bingliang Li, Ailing Zeng et al.
Jie Yang, Bingliang Li, Ailing Zeng, Lei Zhang, Ruimao Zhang
Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense? (11 Jun 2024)
Xingyu Fu, Muyu He, Yujie Lu et al.
Xingyu Fu, Muyu He, Yujie Lu, William Yang Wang, Dan Roth
An Image is Worth 32 Tokens for Reconstruction and Generation (11 Jun 2024)
Qihang Yu, Mark Weber, Xueqing Deng et al.
Qihang Yu, Mark Weber, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
TRINS: Towards Multimodal Language Models that Can Read (10 Jun 2024)
[CVPR 2024] Ruiyi Zhang, Yanzhe Zhang, Jian Chen et al.
Ruiyi Zhang, Yanzhe Zhang, Jian Chen, Yufan Zhou, Jiuxiang Gu, Changyou Chen, Tong Sun
[LlamaGen] Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation (10 Jun 2024)
Peize Sun, Yi Jiang, Shoufa Chen et al.
Peize Sun, Yi Jiang, Shoufa Chen, Shilong Zhang, Bingyue Peng, Ping Luo, Zehuan Yuan

Chameleon: Mixed-Modal Early-Fusion Foundation Models (16 May 2024)
Chameleon Team
SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation (22 Apr 2024)
Yuying Ge, Sijie Zhao, Jinguo Zhu, et al.
Yuying Ge, Sijie Zhao, Jinguo Zhu, Yixiao Ge, Kun Yi, Lin Song, Chen Li, Xiaohan Ding, Ying Shan
Graphic Design with Large Multimodal Model (22 Apr 2024)
Yutao Cheng, Zhao Zhang, Maoke Yang, et al.
Yutao Cheng, Zhao Zhang, Maoke Yang, Hui Nie, Chunyuan Li, Xinglong Wu, and Jie Shao
PMG : Personalized Multimodal Generation with Large Language Models (7 Apr 2024)
Xiaoteng Shen, Rui Zhang, Xiaoyan Zhao, et al.
Xiaoteng Shen, Rui Zhang, Xiaoyan Zhao, Jieming Zhu, Xi Xiao
MineDreamer: Learning to Follow Instructions via Chain-of-Imagination for Simulated-World Control (19 Mar 2024)
Enshen Zhou, Yiran Qin, Zhenfei Yin, et al.
Enshen Zhou, Yiran Qin, Zhenfei Yin, Yuzhou Huang, Ruimao Zhang, Lu Sheng, Yu Qiao, Jing Shao
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment (8 Mar 2024)
Xiwei Hu, Rui Wang, Yixiao Fang, et al.
Xiwei Hu, Rui Wang, Yixiao Fang, Bin Fu, Pei Cheng, Gang Yu
StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis (30 Jan 2024)
Zecheng Tang, Chenfei Wu, Zekai Zhang, et al.
Zecheng Tang, Chenfei Wu, Zekai Zhang, Mingheng Ni, Shengming Yin, Yu Liu, Zhengyuan Yang, Lijuan Wang, Zicheng Liu, Juntao Li, Nan Duan
tokenizer
DiffusionGPT: LLM-Driven Text-to-Image Generation System (18 Jan 2024)
Jie Qin, Jie Wu, Weifeng Chen, et al.
Jie Qin, Jie Wu, Weifeng Chen, Yuxi Ren, Huixia Li, Hefeng Wu, Xuefeng Xiao, Rui Wang, Shilei Wen
StarVector: Generating Scalable Vector Graphics Code from Images (17 Dec 2023)
Juan A. Rodriguez, Shubham Agarwal, Issam H. Laradji, et al.
Juan A. Rodriguez, Shubham Agarwal, Issam H. Laradji, Pau Rodriguez, David Vazquez, Christopher Pal, Marco Pedersoli
VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation (14 Dec 2023)
Jinguo Zhu, Xiaohan Ding, Yixiao Ge, et al.
Jinguo Zhu, Xiaohan Ding, Yixiao Ge, Yuying Ge, Sijie Zhao, Hengshuang Zhao, Xiaohua Wang, Ying Shan
StoryGPT-V: Large Language Models as Consistent Story Visualizers (13 Dec 2023)
Xiaoqian Shen, Mohamed Elhoseiny
Xiaoqian Shen, Mohamed Elhoseiny
GENIXER: Empowering Multimodal Large Language Models as a Powerful Data Generator (11 Dec 2023)
Henry Hengyuan Zhao, Pan Zhou, Mike Zheng Shou
Henry Hengyuan Zhao, Pan Zhou, Mike Zheng Shou
Customization Assistant for Text-to-image Generation (5 Dec 2023)
Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, et al.
Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, Tong Sun
customization
ChatIllusion: Efficient-Aligning Interleaved Generation ability with Visual Instruction Model (29 Nov 2023)
Xiaowei Chi, Yijiang Liu, Zhengkai Jiang, et al.
Xiaowei Chi, Yijiang Liu, Zhengkai Jiang, Rongyu Zhang, Ziyi Lin, Renrui Zhang, Peng Gao, Chaoyou Fu, Shanghang Zhang, Qifeng Liu, Yike Guo
DreamSync: Aligning Text-to-Image Generation with Image Understanding Feedback (29 Nov 2023)
Jiao Sun, Deqing Fu, Yushi Hu, et al.
Jiao Sun, Deqing Fu, Yushi Hu, Su Wang, Royi Rassin, Da-Cheng Juan, Dana Alon, Charles Herrmann, Sjoerd van Steenkiste, Ranjay Krishna, Cyrus Rashtchian
COLE: A Hierarchical Generation Framework for Graphic Design (28 Nov 2023)
Peidong Jia, Chenxuan Li, Zeyu Liu, et al.
Peidong Jia, Chenxuan Li, Zeyu Liu, Yichao Shen, Xingru Chen, Yuhui Yuan, Yinglin Zheng, Dong Chen, Ji Li, Xiaodong Xie, Shanghang Zhang, Baining Guo
TextDiffuser-2: Unleashing the Power of Language Models for Text Rendering (28 Nov 2023)
Jingye Chen, Yupan Huang, Tengchao Lv, et al.
Jingye Chen, Yupan Huang, Tengchao Lv, Lei Cui, Qifeng Chen, Furu Wei
LLMGA: Multimodal Large Language Model based Generation Assistant (27 Nov 2023)
Bin Xia, Shiyin Wang, Yingfan Tao, et al.
Bin Xia, Shiyin Wang, Yingfan Tao, Yitong Wang, Jiaya Jia
Self-correcting LLM-controlled Diffusion Models (27 Nov 2023)
Tsung-Han Wu, Long Lian, Joseph E. Gonzalez, et al.
Tsung-Han Wu, Long Lian, Joseph E. Gonzalez, Boyi Li, Trevor Darrell
[ParaDiffusion] Paragraph-to-Image Generation with Information-Enriched Diffusion Model (29 Nov 2023)
Weijia Wu, Zhuang Li, Yefei He, et al.
Weijia Wu, Zhuang Li, Yefei He, Mike Zheng Shou, Chunhua Shen, Lele Cheng, Yan Li, Tingting Gao, Di Zhang, Zhongyuan Wang
Tokenize and Embed ALL for Multi-modal Large Language Models (8 Nov 2023)
Zhen Yang, Yingxue Zhang, Fandong Meng, et al.
Zhen Yang, Yingxue Zhang, Fandong Meng, Jie Zhou
tokenizer
WordArt Designer: User-Driven Artistic Typography Synthesis using Large Language Models (20 Oct 2023)
Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, et al.
Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, Jingdong Sun, Wangmeng Xiang, Xianhui Lin, Xiaoyang Kang, Zengke Jin, Yusen Hu, Bin Luo, Yifeng Geng, Xuansong Xie, Jingren Zhou
LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts (16 Oct 2023)
[ICLR 2024] Hanan Gani, Shariq Farooq Bhat, Muzammal Naseer, et al.
Hanan Gani, Shariq Farooq Bhat, Muzammal Naseer, Salman Khan, Peter Wonka
Making Multimodal Generation Easier: When Diffusion Models Meet LLMs (13 Oct 2023)
Xiangyu Zhao, Bo Liu, Qijiong Liu, et al.
Xiangyu Zhao, Bo Liu, Qijiong Liu, Guangyuan Shi, Xiao-Ming Wu
Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation (12 Oct 2023)
Zhengyuan Yang, Jianfeng Wang, Linjie Li, et al.
Zhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
OpenLEAF: Open-Domain Interleaved Image-Text Generation and Evaluation (11 Oct 2023)
Jie An, Zhengyuan Yang, Linjie Li, et al.
Jie An, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Lijuan Wang, Jiebo Luo
Mini-DALLE3: Interactive Text to Image by Prompting Large Language Models (11 Oct 2023)
Zeqiang Lai, Xizhou Zhu, Jifeng Dai, et al.
Zeqiang Lai, Xizhou Zhu, Jifeng Dai, Yu Qiao, Wenhai Wang
[DALL-E 3] Improving Image Generation with Better Captions
James Betker, Gabriel Goh, Li Jing, et al.
James Betker, Gabriel Goh, Li Jing, Tim Brooks, Jianfeng Wang, Linjie Li, Long Ouyang, Juntang Zhuang, Joyce Lee, Yufei Guo, Wesam Manassra, Prafulla Dhariwal, Casey Chu, Yunxin Jiao, Aditya Ramesh
MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens (3 Oct 2023)\ Kaizhi Zheng, Xuehai He, Xin Eric Wang.\
Making LLaMA SEE and Draw with SEED Tokenizer (2 Oct 2023)
Yuying Ge, Sijie Zhao, Ziyun Zeng, et al.
Yuying Ge, Sijie Zhao, Ziyun Zeng, Yixiao Ge, Chen Li, Xintao Wang, Ying Shan
tokenizer
InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists (30 Sep 2023)
Yulu Gan, Sungwoo Park, Alexander Schubert, et al.
Yulu Gan, Sungwoo Park, Alexander Schubert, Anthony Philippakis, Ahmed M. Alaa
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition (26 Sep 2023)
Pan Zhang, Xiaoyi Dong, Bin Wang, et al.
Pan Zhang, Xiaoyi Dong, Bin Wang, Yuhang Cao, Chao Xu, Linke Ouyang, Zhiyuan Zhao, Haodong Duan, Songyang Zhang, Shuangrui Ding, Wenwei Zhang, Hang Yan, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang
Text-to-Image Generation for Abstract Concepts (26 Sep 2023)
Jiayi Liao, Xu Chen, Qiang Fu, et al.
Jiayi Liao, Xu Chen, Qiang Fu, Lun Du, Xiangnan He, Xiang Wang, Shi Han, Dongmei Zhang
DreamLLM: Synergistic Multimodal Comprehension and Creation (20 Sep 2023)
[ICLR 2024] Runpei Dong, Chunrui Han, Yuang Peng, et al.
Runpei Dong, Chunrui Han, Yuang Peng, Zekun Qi, Zheng Ge, Jinrong Yang, Liang Zhao, Jianjian Sun, Hongyu Zhou, Haoran Wei, Xiangwen Kong, Xiangyu Zhang, Kaisheng Ma, Li Yi
SwitchGPT: Adapting Large Language Models for Non-Text Outputs (14 Sep 2023)\ Wang, Xinyu, Bohan Zhuang, and Qi Wu.\
NExT-GPT: Any-to-Any Multimodal LLM (11 Sep 2023)
Shengqiong Wu, Hao Fei, Leigang Qu, et al.
Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua
LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation (9 Aug 2023)
Leigang Qu, Shengqiong Wu, Hao Fei, et al. ACM MM 2023
Leigang Qu, Shengqiong Wu, Hao Fei, Liqiang Nie, Tat-Seng Chua
Planting a SEED of Vision in Large Language Model (16 Jul 2023)
Yuying Ge, Yixiao Ge, Ziyun Zeng, et al.
Yuying Ge, Yixiao Ge, Ziyun Zeng, Xintao Wang, Ying Shan
Generative Pretraining in Multimodality (11 Jul 2023)
Quan Sun, Qiying Yu, Yufeng Cui, et al.
Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Yueze Wang, Hongcheng Gao, Jingjing Liu, Tiejun Huang, Xinlong Wang
SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs (30 Jun 2023)
[NeurIPS 2023 Spotlight] Lijun Yu, Yong Cheng, Zhiruo Wang, et al.
Lijun Yu, Yong Cheng, Zhiruo Wang, Vivek Kumar, Wolfgang Macherey, Yanping Huang, David A. Ross, Irfan Essa, Yonatan Bisk, Ming-Hsuan Yang, Kevin Murphy, Alexander G. Hauptmann, Lu Jiang
Controllable Text-to-Image Generation with GPT-4 (29 May 2023)
Tianjun Zhang, Yi Zhang, Vibhav Vineet, et al.
Tianjun Zhang, Yi Zhang, Vibhav Vineet, Neel Joshi, Xin Wang
Generating Images with Multimodal Language Models (26 May 2023)\ [NeurIPS 2023] Koh, Jing Yu, Daniel Fried, and Ruslan Salakhutdinov. \
LayoutGPT: Compositional Visual Planning and Generation with Large Language Models (24 May 2023)
[NeurIPS 2023] Weixi Feng, Wanrong Zhu, Tsu-jui Fu, et al.
Weixi Feng, Wanrong Zhu, Tsu-jui Fu, Varun Jampani, Arjun Akula, Xuehai He, Sugato Basu, Xin Eric Wang, William Yang Wang
Visual Programming for Text-to-Image Generation and Evaluation (24 May 2023)\ [NeurIPS 2023] Jaemin Cho, Abhay Zala, Mohit Bansal.\
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models (23 May 2023)
Long Lian, Boyi Li, Adam Yala, et al.
Long Lian, Boyi Li, Adam Yala, Trevor Darrell
Interactive Data Synthesis for Systematic Vision Adaptation via LLMs-AIGCs Collaboration (22 May 2023)
Qifan Yu, Juncheng Li, Wentao Ye, et al.
Qifan Yu, Juncheng Li, Wentao Ye, Siliang Tang, Yueting Zhuang
LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation (18 May 2023)
[NeurIPS 2023] Yujie Lu, Xianjun Yang, Xiujun Li, et al.
Yujie Lu, Xianjun Yang, Xiujun Li, Xin Eric Wang, William Yang Wang
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models (9 May 2023)
[ACM MM 2023] Shanshan Zhong, Zhongzhan Huang, Wushao Wen, et al.
Shanshan Zhong, Zhongzhan Huang, Wushao Wen, Jinghui Qin, Liang Lin
Grounding Language Models to Images for Multimodal Inputs and Outputs (31 Jan 2023)\ [ICML 2023] Koh, Jing Yu, Ruslan Salakhutdinov, and Daniel Fried.\
[RPG-DiffusionMaster] Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs (22 Jan 2024)
[ICML 2024] Ling Yang, Zhaochen Yu, Chenlin Meng, et al.
Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, Bin Cui
RealCompo: Balancing Realism and Compositionality Improves Text-to-Image Diffusion Models (20 Feb 2024)
Xinchen Zhang, Ling Yang, Yaqi Cai, et al.
Xinchen Zhang, Ling Yang, Yaqi Cai, Zhaochen Yu, Kai-Ni Wang, Jiake Xie, Ye Tian, Minkai Xu, Yong Tang, Yujiu Yang, Bin Cui

Non-LLM-based (Clip/T5)

Edify Image: High-Quality Image Generation with Pixel Space Laplacian Diffusion Models (11 Nov 2024)
NVIDIA: Yuval Atzmon, Maciej Bala, Yogesh Balaji, et al.
NVIDIA: Yuval Atzmon, Maciej Bala, Yogesh Balaji, Tiffany Cai, Yin Cui, Jiaojiao Fan, Yunhao Ge, Siddharth Gururani, Jacob Huffman, Ronald Isaac, Pooya Jannaty, Tero Karras, Grace Lam, J. P. Lewis, Aaron Licata, Yen-Chen Lin, Ming-Yu Liu, Qianli Ma, Arun Mallya, Ashlee Martino-Tarr, Doug Mendez, Seungjun Nah, Chris Pruett, Fitsum Reda, Jiaming Song, Ting-Chun Wang, Fangyin Wei, Xiaohui Zeng, Yu Zeng, Qinsheng Zhang
InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation (3 Apr 2024)
Haofan Wang, Matteo Spinelli, Qixun Wang, et al.
Haofan Wang, Matteo Spinelli, Qixun Wang, Xu Bai, Zekui Qin, Anthony Chen
InstantID: Zero-shot Identity-Preserving Generation in Seconds (15 Jan 2024)
Qixun Wang, Xu Bai, Haofan Wang, et al.
Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, Anthony Chen, Huaxia Li, Xu Tang, Yao Hu
PIXART-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis (30 Sep 2023)
[ICLR 2024] Junsong Chen, Jincheng Yu, Chongjian Ge, et al.
Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie, Yue Wu, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, Zhenguo Li
TextDiffuser: Diffusion Models as Text Painters (18 May 2023)
[NeurIPS 2023] Jingye Chen, Yupan Huang, Tengchao Lv, et al.
Jingye Chen, Yupan Huang, Tengchao Lv, Lei Cui, Qifeng Chen, Furu Wei
TiGAN: Text-Based Interactive Image Generation and Manipulation (Dec 2022)
[AAAI 2022] Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, et al.
Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, Chris Tensmeyer, Tong Yu,Changyou Chen, Jinhui Xu, Tong Sun
Tags: iteractive
Multi-Concept Customization of Text-to-Image Diffusion (8 Dec 2022)
[CVPR 2023] Nupur Kumari, Bingliang Zhang, Richard Zhang, et al.
Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, Jun-Yan Zhu
\ Tags: customization
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation (25 Aug 2022)
[CVPR 2023] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, et al.
Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, Kfir Aberman
\ Tags: customization
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion (2 Aug 2022)
Rinon Gal, Yuval Alaluf, Yuval Atzmon, et al.
Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit H. Bermano, Gal Chechik, Daniel Cohen-Or
\ Tags: customization
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (23 May 2022)\ [NeurIPS 2022]
Saharia, Chitwan Chan, William Saxena, Saurabh Li, Lala Whang, Jay Denton, Emily L Ghasemipour, Kamyar Gontijo Lopes, Raphael Karagol Ayan, Burcu Salimans, Tim others
High-Resolution Image Synthesis with Latent Diffusion Models (20 Dec 2021)\ [CVPR 2022 (Oral)]
Rombach, Robin Blattmann, Andreas Lorenz, et al.
Rombach, Robin Blattmann, Andreas Lorenz, Dominik Esser, Patrick Ommer, Bj{\"o}rn

Datasets

MIMIC-IT: Multi-Modal In-Context Instruction Tuning (8 Jun 2023)
[NeurIPS 2023] Bo Li, Yuanhan Zhang, Liangyu Chen, et al.
Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Jingkang Yang, Chunyuan Li, Ziwei Liu
[LAION-Glyph] GlyphControl: Glyph Conditional Control for Visual Text Generation (29 May 2023)
[NeurIPS 2023] Yukang Yang, Dongnan Gui, Yuhui Yuan, et al.
Yukang Yang, Dongnan Gui, Yuhui Yuan, Weicong Liang, Haisong Ding, Han Hu, Kai Chen
[MARIO-10M] TextDiffuser: Diffusion Models as Text Painters (18 May 2023)
[NeurIPS 2023] Jingye Chen, Yupan Huang, Tengchao Lv, et al.
Jingye Chen, Yupan Huang, Tengchao Lv, Lei Cui, Qifeng Chen, Furu Wei
DataComp: In search of the next generation of multimodal datasets (27 Apr 2023)
[NeurIPS 2023] Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, et al.
Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt
[LLava-instruct] Visual Instruction Tuning (17 Apr 2023)
[NeurIPS 2023] Haotian Liu, Chunyuan Li, Qingyang Wu, et al.
Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee
Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with Text (14 Apr 2023)
[NeurIPS 2023] Wanrong Zhu, Jack Hessel, Anas Awadalla, et al.
Wanrong Zhu, Jack Hessel, Anas Awadalla, Samir Yitzhak Gadre, Jesse Dodge, Alex Fang, Youngjae Yu, Ludwig Schmidt, William Yang Wang, Yejin Choi
Language Is Not All You Need: Aligning Perception with Language Models (27 Feb 2023)
[NeurIPS 2023] Shaohan Huang, Li Dong, Wenhui Wang, et al.
Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal, Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, Furu Wei
COYO-700M: Image-Text Pair Dataset (31 Aug 2022)\
LAION-5B: An open large-scale dataset for training next generation image-text models (16 Oct 2022)
[NeurIPS 2022] Christoph Schuhmann, Romain Beaumont, Richard Vencu, et al.
Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, Patrick Schramowski, Srivatsa Kundurthy, Katherine Crowson, Ludwig Schmidt, Robert Kaczmarczyk, Jenia Jitsev
LAION COCO: 600M SYNTHETIC CAPTIONS FROM LAION2B-EN (15 Sep 2022)
Christoph Schuhmann, Andreas Köpf , Theo Coombes, et al.
Christoph Schuhmann, Andreas Köpf , Theo Coombes, Richard Vencu, Benjamin Trom , Romain Beaumont
[M3W] Flamingo: a Visual Language Model for Few-Shot Learning (29 Apr 2022)
[NeurIPS 2022] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, et al.
Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andrew Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, Karen Simonyan
[LAION-FACE]General Facial Representation Learning in a Visual-Linguistic Manner (6 Dec 2021)
[NeurIPS 2021] Yinglin Zheng, Hao Yang, Ting Zhang, et al.
Yinglin Zheng, Hao Yang, Ting Zhang, Jianmin Bao, Dongdong Chen, Yangyu Huang, Lu Yuan, Dong Chen, Ming Zeng, Fang Wen
[LAION-400M] Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs (3 Nov 2021)
[NeurIPS 2021] Christoph Schuhmann, Richard Vencu, Romain Beaumont, et al.
Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, Aran Komatsuzaki
WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning (2 Mar 2021)
[SIGIR 2021] Krishna Srinivasan, Karthik Raman, Jiecao Chen, et al.
Krishna Srinivasan, Karthik Raman, Jiecao Chen, Michael Bendersky, Marc Najork
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts (17 Feb 2021)
[CVPR 2021] Soravit Changpinyo, Piyush Sharma, Nan Ding, et al.
Soravit Changpinyo, Piyush Sharma, Nan Ding, Radu Soricut
[ALIGN] Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision (11 Feb 2021)
[ICML 2021] Chao Jia, Yinfei Yang, Ye Xia, et al.
Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc V. Le, Yunhsuan Sung, Zhen Li, Tom Duerig
[MS COCO] Microsoft COCO: Common Objects in Context (1 May 2014)
[ECCV 2014] Tsung-Yi Lin, Michael Maire, Serge Belongie, et al.
Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, Piotr Dollár
[Im2Text] Describing Images Using 1 Million Captioned Photographs (12 Dec 2011)\ [NeurIPS 2011] Vicente Ordonez, Girish Kulkarni, Tamara Berg\