Awesome

<h1 align="center"> Awesome Table Question Answering </h1> <p align="center"> <a href="https://github.com/RenzeLou/awesome-instruction-learning"><img src="https://awesome.re/badge.svg" alt="Awesome" /></a> </p> <p align="center"> 🔥🔥🔥 An awesome paper list of <b>Table-based Question Answering</b>. </p>

Paper

Dataset

Single-Turn

Compositional Semantic Parsing on Semi-Structured Tables WikiTableQuestions 2015

[Paper] [Code] EPanupong Pasupat, Percy Liang
Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning WikiSQL 2017

[Paper] [Code] Victor Zhong, Caiming Xiong, Richard Socher
Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task Spider <ins>EMNLP</ins> 2018

[Paper] [Code] Tao Yu, Rui Zhang, Kai Yang, Michihiro Yasunaga, Dongxu Wang, Zifan Li, James Ma, Irene Li, Qingning Yao, Shanelle Roman, Zilin Zhang, Dragomir Radev
On the Potential of Lexico-logical Alignments for Semantic Parsing to SQL Queries SQUALL <ins>EMNLP-Findings</ins> 2020

[Paper] [Code] Tianze Shi, Chen Zhao, Jordan Boyd-Graber, Hal Daumé III, Lillian Lee
HybridQA: A Dataset of Multi-Hop Question Answering over Tabular and Textual Data HybridQA <ins>EMNLP-Findings</ins> 2020

[Paper] [Code]Wenhu Chen, Hanwen Zha, Zhiyu Chen, Wenhan Xiong, Hong Wang, William Yang Wang
TSQA: tabular scenario based question answering GeoTSQA <ins>AAAI</ins> 2021

[Paper] [Code]Xiao Li, Yawei Sun, Gong Cheng
TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance TAT-QA <ins>ACL</ins> 2021

[Paper] [Code]Fengbin Zhu, Wenqiang Lei, Youcheng Huang, Chao Wang, Shuo Zhang, Jiancheng Lv, Fuli Feng, Tat-Seng Chua
Open Domain Question Answering over Tables via Dense Retrieval NQ-table <ins>NAACL</ins> 2021

[Paper] [Code]Jonathan Herzig, Thomas Müller, Syrine Krichene, Julian Eisenschlos
Open Question Answering over Tables and Text OTT-QA <ins>ICLR</ins> 2021

[Paper] [Code]Wenhu Chen, Ming-Wei Chang, Eva Schlinger, William Wang, William W. Cohen
MultiModalQA: complex question answering over text, tables and images MultimodalQA <ins>ICLR</ins> 2021

[Paper] [Code]Alon Talmor, Ori Yoran, Amnon Catav, Dan Lahav, Yizhong Wang, Akari Asai, Gabriel Ilharco, Hannaneh Hajishirzi, Jonathan Berant
Finqa: A dataset of numerical reasoning over financial data FinQA <ins>EMNLP</ins> 2021

[Paper] [Code] Zhiyu Chen, Wenhu Chen, Charese Smiley, Sameena Shah, Iana Borova, Dylan Langdon, Reema Moussa, Matt Beane, Ting-Hao Huang, Bryan Routledge, William Yang Wang
HiTab: A Hierarchical Table Dataset for Question Answering and Natural Language Generation HiTab <ins>ACL</ins> 2022

[Paper] [Code]Zhoujun Cheng, Haoyu Dong, Zhiruo Wang, Ran Jia, Jiaqi Guo, Yan Gao, Shi Han, Jian-Guang Lou, Dongmei Zhang
FeTaQA: Free-form Table Question Answering FeTaQA <ins>TACL</ins> 2022

[Paper] [Code]*Linyong Nan, Chiachun Hsieh, Ziming Mao, Xi Victoria Lin, Neha Verma, Rui Zhang, Wojciech Kryściński, Hailey Schoelkopf, Riley Kong, Xiangru Tang, Mutethia Mutuma, Ben Rosand, Isabel Trindade, Renusree Bandaru, Jacob Cunningham, Caiming Xiong, Dragomir Radev, Dragomir Radev
MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data MultiHiertt <ins>ACL</ins> 2022

[Paper] [Code]Yilun Zhao, Yunxiang Li, Chenying Li, Rui Zhang
Learning to Imagine: Integrating Counterfactual Thinking in Neural Discrete Reasoning TAT-HQA <ins>ACL</ins> 2022

[Paper]Moxin Li, Fuli Feng, Hanwang Zhang, Xiangnan He, Fengbin Zhu, Tat-Seng Chua
Towards Complex Document Understanding By Discrete Reasoning TAT-DQA <ins>ACM MM</ins> 2022

[Paper]Fengbin Zhu, Wenqiang Lei, Fuli Feng, Chao Wang, Haozhou Zhang, Tat-Seng Chua
AIT-QA: Question Answering Dataset over Complex Tables in the Airline Industry AIT-QA <ins>NAACL</ins> 2022

[Paper] [Code]Yannis Katsis, Saneem Chemmengath, Vishwajeet Kumar, Samarth Bharadwaj, Mustafa Canim, Michael Glass, Alfio Gliozzo, Feifei Pan, Jaydeep Sen, Karthik Sankaranarayanan, Soumen Chakrabarti
ToTTo: A Controlled Table-To-Text Generation Dataset ToTTo <ins>EMNLP </ins> 2020

[Paper] [Code]Ankur P. Parikh, Xuezhi Wang, Sebastian Gehrmann, Manaal Faruqui, Bhuwan Dhingra, Diyi Yang, Dipanjan Das
Open-WikiTable: Dataset for Open Domain Question Answering with Complex Reasoning over Table Open-Wikitable <ins>ACL-Findings </ins> 2023

[Paper] Sunjun Kweon, Yeonsu Kwon, Seonhee Cho, Yohan Jo, Edward Choi

Multiple-Turn

PACIFIC: Towards proactive conversational question answering over tabular and textual data in finance Pacific <ins>EMNLP</ins> 2022

[Paper] [Code]Yang Deng, Wenqiang Lei, Wenxuan Zhang, Wai Lam, Tat-Seng Chua
ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering ConvFinQA <ins>EMNLP</ins> 2022

[Paper] [Code]Zhiyu Chen, Shiyang Li, Charese Smiley, Zhiqiang Ma, Sameena Shah, William Yang Wang
HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on Tabular and Textual Data HybriDialogue <ins>EMNLP-Findings</ins> 2022

[Paper] [Code]Kai Nakamura, Sharon Levy, Yi-Lin Tuan, Wenhu Chen, William Yang Wang
MMCoQA: Conversational Question Answering over Text, Tables, and Images MMCoQA <ins>ACL</ins> 2022

[Paper] [Code]Yongqi Li, Wenjie Li, Liqiang Nie
CoQA: A Conversational Question Answering Challenges CoQA <ins>TACL</ins> 2019

[Paper] [Code]Siva Reddy, Danqi Chen, Christopher D. Manning

Methods

Table Pretraining (TaLMs)

TAPEX: Table pre-training via learning a neural SQL executor <ins>ICLR</ins> 2022

WikiSQL, WikiTableQuestions, SQA

[Paper] [Code]Qian Liu, Bei Chen, Jiaqi Guo, Morteza Ziyadi, Zeqi Lin, Weizhu Chen, Jian-Guang Lou
OmniTab: Pretraining with Natural and Synthetic Data for Few-shot Table-based Question Answering <ins>NAACL</ins> 2022

WikiSQL, WikiTableQuestions

[Paper] [Code]Zhengbao Jiang, Yi Mao, Pengcheng He, Graham Neubig, Weizhu Chen
ReasTAP: Injecting Table Reasoning Skills During Pre-training via Synthetic Reasoning Examples <ins>EMNLP</ins> 2022

WikiSQL, WikiTableQuestions

[Paper] [Code]Yilun Zhao, Linyong Nan, Zhenting Qi, Rui Zhang, Dragomir Radev
TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data <ins>ACL</ins> 2020

WikiTableQuestions, Spider

[Paper] [Code]Pengcheng Yin, Graham Neubig, Wen-tau Yih, Sebastian Riedel
MATE: Multi-view Attention for Table Transformer Efficiency <ins>EMNLP</ins> 2021

WikiTableQuestions, HybridQA

[Paper]Julian Martin Eisenschlos, Maharshi Gor, Thomas Müller, William W. Cohen

LLM-based Methods

Binding Language Models in Symbolic Languages <ins>ICLR</ins> 2023

WikiSQL, WikiTableQuestions, MultimodalQA

[Paper] [Code]Zhoujun Cheng, Tianbao Xie, Peng Shi, Chengzu Li, Rahul Nadkarni, Yushi Hu, Caiming Xiong, Dragomir Radev, Mari Ostendorf, Luke Zettlemoyer, Noah A. Smith, Tao Yu
Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning <ins>SIGIR</ins> 2023

WikiSQL, WikiTableQuestions

[Paper] Yunhu Ye, Binyuan Hui, Min Yang, Binhua Li, Fei Huang, Yongbin Li
Large language models are few (1)-shot table reasoners <ins>EACL-Findings</ins> 2023

WikiTableQuestions, FetaQA

[Paper] Wenhu Chen
Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks <ins>Arxiv</ins> 2023

WikiTableQuestions, FetaQA

[Paper] Wenhu Chen, Xueguang Ma, Xinyi Wang, William W Cohen
Structgpt: A general framework for large language model to reason over structured data <ins>Arxiv</ins> 2023

WikiSQL, WikiTableQuestions

[Paper] Jinhao Jiang, Kun Zhou, Zican Dong, Keming Ye, Wayne Xin Zhao, Ji-Rong Wen
LEVER: Learning to Verify Language-to-Code Generation with Execution <ins>ICML</ins> 2023

WikiTableQuestions

[Paper] Ansong Ni, Srini Iyer, Dragomir Radev, Veselin Stoyanov, Wen-tau Yih, Sida Wang, Xi Victoria Lin
Generate, Transform, Answer: Question Specific Tool Synthesis for Tabular Data

WikiTableQuestions

[Paper] Carlos Gemmell, Jeffrey Dalton

Retrieval-then-Read Methods

Multi-hop

MATE: Multi-view Attention for Table Transformer Efficiency <ins>EMNLP</ins> 2021

WikiTableQuestions, HybridQA

[Paper] Julian Martin Eisenschlos, Maharshi Gor, Thomas Müller, William W. Cohen
Multi-Row, Multi-Span Distant Supervision For Table+Text Question Answering MITQA <ins>ACL</ins> 2023

HybridQA, OTT-QA

[Paper] Vishwajeet Kumar, Yash Gupta, Saneem Chemmengath, Jaydeep Sen, Soumen Chakrabarti, Samarth Bharadwaj, Feifei Pan
Reasoning over hybrid chain for table-and-text open domain question answering CARP <ins>IJCAI</ins> 2022

OTT-QA

[Paper] Wanjun Zhong, Junjie Huang, Qian Liu, Ming Zhou, Jiahai Wang, Jian Yin, Nan Duan
Multi-hop open-domain question answering over structured and unstructured knowledge DEHG <ins>NAACL-Findings</ins> 2022

HybridQA

[Paper] Yue Feng, Zhen Han, Mingming Sun, Ping Li
Mixed-modality Representation Learning and Pre-training for Joint Table-and-Text Retrieval in OpenQA OTTeR <ins>EMNLP-Findings</ins> 2022

OTT-QA

[Paper] Junjie Huang, Wanjun Zhong, Qian Liu, Ming Gong, Daxin Jiang, Nan Duan
MuGER2: Multi-Granularity Evidence Retrieval and Reasoning for Hybrid Question Answering MuGER <ins>EMNLP-Findings</ins> 2022

HybridQA

[Paper] Yingyao Wang, Junwei Bao, Chaoqun Duan, Youzheng Wu, Xiaodong He, Tiejun Zhao
TACR: A Table-alignment-based Cell-selection and Reasoning Model for Hybrid Question-Answering TACR <ins>ACL-Findings</ins> 2023

HybridQA

[Paper] Jian Wu, Yicheng Xu, Yan Gao, Jian-Guang Lou, Börje F. Karlsson, Manabu Okumura
MAFiD: Moving Average Equipped Fusion-in-Decoder for Question Answering over Tabular and Textual Data MAFiD <ins>EACL-Findings</ins> 2023

HybridQA

[Paper] Sung-Min Lee, Eunhwan Park, Daeryong Seo, Donghyeon Jeon, Inho Kang, Seung-Hoon Na
S3HQA: A Three-Stage Approach for Multi-hop Text-Table Hybrid Question Answering S3HQA <ins>ACL</ins> 2023

HybridQA

[Paper] Fangyu Lei, Xiang Li, Yifan Wei, Shizhu He, Yiming Huang, Jun Zhao, Kang Liu

Open-Domain

Reasoning over hybrid chain for table-and-text open domain question answering CARP <ins>IJCAI</ins> 2022

OTT-QA

[Paper] Wanjun Zhong, Junjie Huang, Qian Liu, Ming Zhou, Jiahai Wang, Jian Yin, Nan Duan
Mixed-modality Representation Learning and Pre-training for Joint Table-and-Text Retrieval in OpenQA OTTeR <ins>EMNLP-Findings</ins> 2022

OTT-QA

[Paper] Junjie Huang, Wanjun Zhong, Qian Liu, Ming Gong, Daxin Jiang, Nan Duan
Open-domain Question Answering via Chain of Reasoning over Heterogeneous Knowledge CORE <ins>EMNLP-Findings</ins> 2022

OTT-QA

[Paper] Kaixin Ma, Hao Cheng, Xiaodong Liu, Eric Nyberg, Jianfeng Gao
Chain-of-Skills: A Configurable Model for Open-domain Question Answering CORE <ins>ACL</ins> 2023

OTT-QA

[Paper] Kaixin Ma, Hao Cheng, Yu Zhang, Xiaodong Liu, Eric Nyberg, Jianfeng Gao

Numerical Reasoning

Finqa: A dataset of numerical reasoning over financial data FinQANet <ins>EMNLP</ins> 2021

FinQA

[Paper] [Code] Zhiyu Chen, Wenhu Chen, Charese Smiley, Sameena Shah, Iana Borova, Dylan Langdon, Reema Moussa, Matt Beane, Ting-Hao Huang, Bryan Routledge, William Yang Wang
APOLLO: An Optimized Training Approach for Long-form Numerical Reasoning APOLLO <ins>Arxiv</ins> 2023

FinQA, ConvFinQA

[Paper] Jiashuo Sun, Hang Zhang, Chen Lin, Yeyun Gong, Jian Guo, Nan Duan
Dyrren: A dynamic retriever-reranker-generator model for numerical reasoning over tabular and textual data Dyrren <ins>AAAI</ins> 2023

FinQA

[Paper] Xiao Li, Yin Zhu, Sichen Liu, Jiangzhou Ju, Yuzhong Qu, Gong Cheng
MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data MT2Net <ins>ACL</ins> 2022

Multihiertt

[Paper] [Code]Yilun Zhao, Yunxiang Li, Chenying Li, Rui Zhang
Hypothetical Training for Robust Machine Reading Comprehension of Tabular Context MT2Net <ins>ACL-Findings</ins> 2023

TAT-QA, TAT-HQA

[Paper] Moxin Li, Wenjie Wang, Fuli Feng, Hanwang Zhang, Qifan Wang, Tat-Seng Chua
NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual Question Answering NAPG <ins>Arxiv</ins> 2023

Multihiertt

[Paper] Tengxun Zhang, Hongfei Xu, Josef van Genabith, Deyi Xiong, Hongying Zan

Multimodal Reasoning

MultiModalQA: complex question answering over text, tables and images ImplicitDecomp <ins>ICLR</ins> 2021

[Paper] [Code]Alon Talmor, Ori Yoran, Amnon Catav, Dan Lahav, Yizhong Wang, Akari Asai, Gabriel Ilharco, Hannaneh Hajishirzi, Jonathan Berant
MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text MuRAG <ins>EMNLP</ins> 2022

MultimodalQA

[Paper] Wenhu Chen, Hexiang Hu, Xi Chen, Pat Verga, William Cohen
Turning Tables: Generating Examples from Semi-structured Tables for Endowing Language Models with Reasoning Skills SKURG <ins>ACL</ins> 2022

MultimodalQA

[Paper] Ori Yoran, Alon Talmor, Jonathan Berant

Non-Retrieval Methods

TaCube: Pre-computing Data Cubes for Answering Numerical-Reasoning Questions over Tabular Data <ins>EMNLP</ins> 2022

TAT-QA, WikiTableQuestions

[Paper] Fan Zhou, Mengkang Hu, Haoyu Dong, Zhoujun Cheng, Fan Cheng, Shi Han, Dongmei Zhang
Answering Numerical Reasoning Questions in Table-Text Hybrid Contents with Graph-based Encoder and Tree-based Decoder <ins>COLING</ins> 2022

TAT-QA

[Paper] Fangyu Lei, Shizhu He, Xiang Li, Jun Zhao, Kang Liu
UniRPG: Unified Discrete Reasoning over Table and Text as Program Generation <ins>EMNLP</ins> 2022

TAT-QA

[Paper] Yongwei Zhou, Junwei Bao, Chaoqun Duan, Youzheng Wu, Xiaodong He, Tiejun Zhao
Multi-View Graph Representation Learning for Answering Hybrid Numerical Reasoning Question <ins>Arxiv</ins> 2023

TAT-QA

[Paper] Yifan Wei, Fangyu Lei, Yuanzhe Zhang, Jun Zhao, Kang Liu

Existing Survey

A survey on table question answering: recent advances 2022

[Paper]Nengzheng Jin, Joanna Siebert, Dongfang Li, Qingcai Chen
A Survey on Table-and-Text HybridQA: Concepts, Methods, Challenges and Future Directions 2022.12

[Paper]Dingzirui Wang, Longxu Dou, Wanxiang Che
A Survey on Neural Data-to-Text Generation

[Paper]Yupian Lin, Tong Ruan, Jingping Liu, Haofen Wang
A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future Directions

[Paper]Bowen Qin, Binyuan Hui, Lihan Wang, Min Yang, Jinyang Li, Binhua Li, Ruiying Geng, Rongyu Cao, Jian Sun, Luo Si, Fei Huang, Yongbin Li