Home

Awesome

CrossSum

This repository contains the code, data, and models of the paper titled "CrossSum: Beyond English-Centric Cross-Lingual Summarization for 1,500+ Language Pairs" published in Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL’23), July 9-14, 2023.

Updates

Table of Contents

Datasets

Disclaimer: You must agree to the license and terms of use before using the dataset.

An example article-summary pair from the Japanese-Bengali pair of the CrossSum dataset with corresponding English translations is given below:

Example datapoint

The corresponding complete datapoint in the dataset is as follows:

{
    "source_url": "https://www.bbc.com/japanese/53074000",
    "target_url": "https://www.bbc.com/bengali/news-53064712",
    "summary": "বিজ্ঞানীরা বলছেন ডেক্সামেথাসোন নামে সস্তা ও সহজলভ্য একটি ওষুধ করোনাভাইরাসে গুরুতর অসুস্থ রোগীদের জীবন রক্ষা করতে সাহায্য করবে।",
    "text": "ミシェル・ロバーツ、BBCニュースオンライン健康担当編集長 英オックスフォード大学の研究チームによると、低用量のデキサメタゾンは新型ウイルスとの戦いで画期的な突破口になる。 新型コロナウイルスに対し、様々な既存の治療法の効果を試す世界的規模の臨床試験の一貫として、デキサメタゾンが試された。 その結果、人工呼吸器を必要とする重症患者の致死率が3割下がり、酸素供給を必要とする患者の場合は2割下がった。 新型ウイルスのパンデミック(世界的流行)の初期からイギリスでデキサメタゾンを治療に使用していた場合、最大5000人の命が救えたはずだと研究者たちは言う。 さらに、新型コロナウイルスによる感染症「COVID-19」の患者が多く出ている貧しい国にとっても、安価なデキサメタゾンを使う治療は大いに役立つと期待される。 重症者の致死率が大幅に下がる イギリス政府は20万人分の投与量を備蓄しており、国民医療制度の国民保健サービス(NHS)で患者への使用を開始する方針を示した。 ボリス・ジョンソン英首相は「イギリス科学界の素晴らしい成果」を歓迎し、「たとえ感染の第2波が来ても備蓄が足りるよう、数を確保するための措置をとった」と述べた。 イングランド首席医務官クリス・ウィッティー教授は、「COVID-19にとってこれまでで一番重要な臨床試験結果だ。手に入りやすく安全でなじみのある薬によって、酸素供給や人工呼吸器が必要な人の致死率が大幅に下がった。(中略)この発見が世界中で人命を救う」と評価した。 <関連記事> 新型コロナウイルスに20人が感染した場合、19人は入院しないまま回復する。入院する人もほとんどは回復するものの、重症化して酸素供給や人工呼吸器を必要とする人もいる。 デキサメタゾンはこうした重症患者の治療に効果があるもよう。 新型ウイルスに感染した患者の体内では、ウイルスと戦う免疫系が暴走することがある。その免疫系の過剰反応による体の損傷を、デキサメタゾンが緩和するものとみられる。 「サイトカイン・ストーム」と呼ばれる免疫系の過剰反応が、患者の命を奪うこともある。 デキサメタゾンはすでに抗炎症剤として、ぜんそくや皮膚炎など様々な症状の治療に使われている。 初めて致死率を下げる薬 オックスフォード大学が主導する臨床試験は、約2000人の入院患者にデキサメタゾンを投与。それ以外の4000人以上の患者と容体を比較した。 人工呼吸器を使用する患者については、死亡リスクが40%から28%に下がった。 酸素供給する患者は、死亡リスクが25%から20%に下がった。 研究チームのピーター・ホービー教授は、「今のところ、致死率を実際に下げる結果が出たのは、この薬だけだ。しかも、致死率をかなり下げる。画期的な突破口だ」と話した。 研究を主導するマーティン・ランドレイ教授によると、人工呼吸器を使う患者の8人に1人、ならびに酸素供給治療を受ける患者の20-25人に1人が、デキサメタゾンで救えることが分かったという。 「これはきわめて明確なメリットだ」と教授は言う。 「最大10日間、デキサメタゾンを投与するという治療法で、費用は患者1人あたり1日約5ポンド(約670円)。つまり、35ポンド(約4700円)で人ひとりの命が救える」 「しかもこれは、世界中で手に入る薬だ」 状況が許す限り、新型コロナウイルスで入院中の患者にはただちに投与を開始すべきだと、ランドレイ教授は促した。 ただし、自宅で自己治療するために薬局に買いに行くべきではないと言う。 デキサメタゾンは、呼吸補助を必要としない軽症の患者には効果がないもよう。 3月に始動した新型コロナウイルス治療薬の無作為化臨床試験「リカバリー・トライアル」は、抗マラリア薬「ヒドロキシクロロキン」も調べたものの、心臓疾患や致死率の悪化につながるという懸念から、ヒドロキシクロロキンについては試験を中止した。 一方で、感染者の回復にかかる時間を短縮するとみられるレムデシビルは、すでにNHSの保険対象になり治療現場で使われている。 <解説> ファーガス・ウォルシュBBC健康担当編集委員 COVID-19の死者を減らすと初めて立証された薬は、高価な新しい薬ではなく、古くからずっと使われてきた、きわめて安いステロイド剤だった。 世界中の患者が直ちにその恩恵を受けることになるので、これは歓迎すべき発見だ。 この臨床試験の最新成果がこれほど急いで発表されたのは、そのためだ。とてつもない影響を世界中にもたらすので。 デキサメタゾンは1960年代初めから、関節リウマチやぜんそくなど、幅広い症状の治療に使われてきた。 これまでは、人工呼吸器を必要とするCOVID-19患者の半数が亡くなってきた。その致死率を3割減らすというのは、絶大な効果だ。 集中治療室では点滴で投与する。もう少し軽症な患者には、錠剤で与える。 これまでのところ、COVID-19患者に効果があると証明された薬は、エボラ治療薬のレムデシビルだけだった。 レムデシビルは症状の回復期間を15日から11日に短縮する。しかし、致死率を下げると言えるだけの証拠は出ていなかった。 デキサメタゾンと異なり、レムデシビルは数の少ない新薬で、薬価もまだ公表されていない。"
}

The dataset files are organized in .jsonl format i.e. one JSON per line. Download the dataset from here. It is also available on Huggingface Datasets

No. of total examples for each language pair are as follows:

Language (ISO 639-1-Code)amarazbnmyzh-CNzh-TWenfrguhahiigidjarnkokymrnpompsfapcmptparugdsrsrsisoesswtatethtitrukuruzvicyyo
am--66710027295179167145635817322137726494264423244922213012119243120930718934703573656230935137839032912413143534540941285167
ar667--7878046522968284396539894757473665866084118887670729955985492161418643625395475564111091145315104936541186131187736727414734574935388266638141
az100787--277843713341317208192126748281111231188155221194242125281791678190223842892831243677045395152451402149513839661997253042
bn272804277--139318284154931755923113963510763422983521545866682300790135764580838056256415141270147191979324568606881382985273761
my9565284139--35631468590967452812761144100112588915212344263923086535011512387794318618514771444935059162447412
zh-CN1792968371318356--4710149753482011591379382851101724041213924027514559111114913712502572250453016632320024125113532691115111619165117618583339
zh-TW167284333428431447101--488433117415012133525889532093821312132521650196714112712262286145349415030218733834653352501212941464144415816633138
en145696531317154968549754884--18899789134728144100403040187816734901181161438152246801074474413309080128376038095322141691027013156212110205856766562632045045742655229
fr358989208317903483311889--24247761610610182747352641242413234196602439921247849255556998502990872425380185108297217667643840159
gu17347519255996201174978242--14751703471022818326810620915611246522101529221058203313451252615403001762206616456315081619804502154
ha22174712623174159150913477147--4602029011574851356115923952294875293751575251258258493914635682992608795194005265935230362
hi377366574813965281379121347286165170460--6556276234895202343831135741519535119265634052462218098074497472931893371137623787369439351566635237387779
ig268628351238351441063420265--11324107321651363114925561397905151137791151525418591836115656296
id494608411111076761285125881004010187109015627113--12749947743477451104814303892367440972575887138713794701312454718731886113159995663482964764324810145174
ja264118823134214410179533040274228157623241274--3726541403024242266101415270626915172550571109387950425641425305512421013797499082533
rn4238761882981002402091878735183485489107994372--283106242369182286843985262067110443450775846071186521363149137246106175963120180
ko244707155352112412382167326426813552032774654283--9931944511505961305872646490522543812346133245414521975680616532545301245
ky9229922115458139131490124106612341634714010699--107167410225259251118101312062114514527915020617410933465082701132011223
mr2215591945868924021311812412091159383151745302242319107--63012326081385241797675041943612927060333217761886196117065961395794731648
np30185424266815227525216143235612391357361104424369445167630--1303916134706545849255353816442068751399474121779307411156847193965
om2191211416384154382181411--2311468023067522110351014207
ps1922161252300234559501152219624622915191114302662281501022323032--2815945942491246023524215630476631444131492810498182833156657732
fa4314186817790426111196746806025224875351493892101468459625260891632815--18655125414328010281023276812251210021250797364836953567675231331906674
pcm20943691135391491411074439101529192255367152398130591381341194186--2271123220234246282193144362321628528287280232181709462
pt3072539678764230137112714744921529375656361440970652658725152470645945512227--5794452713711341231602711298310428204683348344216759186375411097
pa189547190580862502261330247221015740523972526920626411817975456249541112579--629041040412828358535717261892200106435701515734311644
ru347556422388385352572228690808495825254622797588151771164910136758498124643283224452629--5149514603731166486416721628892595762232224153098093963134125
gd01400211282011072001020000705--232131001065213362
sr3571109289562115504453376055533125880951138755044352220641955322351028234137141014952--9041127377123557476169134061247151210211096854269
sr36511452835641235304943809569345258807511379571450543211436538324210232461341404146039041--1373821260568775699347101229149810091126394579
si62315124151871661505329812549449134701097781451291640156276282311283732127137--13726018934817369730130651038216515
so3091049367412793233022141502261391747771312387584234145270420630481221960228311661377382137--68910207233841781996887510007572420116
es351365470470143120021873691099054046329319145479506076132796036877766251231471125854864312351260260689--1047107382746910364531303060290233059133
sw378118653947186412383270187230056889315118734251186324150332513531410024369833571672157456818910201047--929492261101348130912539093637219
ta390131151591918551146531564251762299371152188664152154120617769942441125023210421726162807617753487231073929--22784001414861423240413410923268
te32987724579314735333521213802066260376254113142536345217418867412314797162820189289206916991733848274922278--3061189383217481076442161
th124367140245712692501020185164873781859930514919710919621719236485468200595134034769178469261400306--5477480414373571026
ti13127264111258105975951353117103882831070610719101014115--8842506
tr4354147149586044915111294567682963151936949156631242724680346706930510493695287348364362236124712293019683645134814868934778--410843403702981126130
uk345345713836883501619146465627215084003935834829101361061650859674110818356728044215702224151512149830687531301309142383248084108--4290442301710889
ur409493596613825911651144463207661619526156666164767976175322701395115612833675223267591515530921021100951010003060125324041748414443404290--38937237288
uz413881999862176158450768059352154324959541137984415631318186738091109112387529090134107372370442389--2571015
vi2852666726527447185816634575438450352373865481090863153020147371926573190170375543139633685639216724233093610926443575298230173723257--10676
cy13830374333126554021307761452520121216390766911016134364245520593732211001261087210106--8
yo6714142611239382291595436279296174331804523486573274462974412526979151161332196861266130898815768--

Training & Evaluation

Language-agnostic Summary Evaluation

Models

The following model checkpoints from the paper are available at huggingface model hub:

Model NameTraining typeSampling typePivot Language
mT5_m2m_crossSummany-to-manymultistageN/A
mT5_m2o_english_crossSummany-to-oneunistageEnglish
mT5_m2o_arabic_crossSummany-to-oneunistageArabic
mT5_m2o_russain_crossSummany-to-oneunistageRussian
mT5_m2o_hindi_crossSummany-to-oneunistageHindi
mT5_m2o_chinese_simplified_crossSummany-to-oneunistageChinese (Simplified)

Benchmarks

Some of the benchmark results for different pivot languages as targets are shown below. For all results, refer to the paper.

English rouge2 Hindi rouge2 Arabic lase Russian rouge2

License

Contents of this repository are restricted to only non-commercial research purposes under the Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0). Copyright of the dataset contents belongs to the original copyright holders.

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a>

Citation

If you use any of the datasets, models or code modules, please cite the following paper:

@inproceedings{bhattacharjee-etal-2023-crosssum,
    title = "{C}ross{S}um: Beyond {E}nglish-Centric Cross-Lingual Summarization for 1,500+ Language Pairs",
    author = "Bhattacharjee, Abhik  and
      Hasan, Tahmid  and
      Ahmad, Wasi Uddin  and
      Li, Yuan-Fang  and
      Kang, Yong-Bin  and
      Shahriyar, Rifat",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = jul,
    year = "2023",
    address = "Toronto, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2023.acl-long.143",
    pages = "2541--2564",
    abstract = "We present CrossSum, a large-scale cross-lingual summarization dataset comprising 1.68 million article-summary samples in 1,500+ language pairs. We create CrossSum by aligning parallel articles written in different languages via cross-lingual retrieval from a multilingual abstractive summarization dataset and perform a controlled human evaluation to validate its quality. We propose a multistage data sampling algorithm to effectively train a cross-lingual summarization model capable of summarizing an article in any target language. We also introduce LaSE, an embedding-based metric for automatically evaluating model-generated summaries. LaSE is strongly correlated with ROUGE and, unlike ROUGE, can be reliably measured even in the absence of references in the target language. Performance on ROUGE and LaSE indicate that our proposed model consistently outperforms baseline models. To the best of our knowledge, CrossSum is the largest cross-lingual summarization dataset and the first ever that is not centered around English. We are releasing the dataset, training and evaluation scripts, and models to spur future research on cross-lingual summarization. The resources can be found at https://github.com/csebuetnlp/CrossSum",
}