Home

Awesome

Persian NLP Benchmark

The repository aims to track existing natural language processing models and evaluate their performance on well-known datasets. Currently, we are benchmarking HuggingFace persian models, but we plan to expand our scope in the future. We categorize the HuggingFace models based on their respective tasks. These tasks include machine translation, multiple choice question answering, question paraphrasing, reading comprehension, sentiment analysis, summarization, text classification, textual entailment, and named entity recognition.

We evaluate each model against well-known datasets. The evaluation is performed on the test set. In the absence of a test set, 10% of the original dataset is selected as the test set and the model is evaluated on it.

In this repository, we have prepared a script for each task that includes preparing models, loading datasets, and evaluating them. For each model, there is a notebook whose name is a combination of the task name and the corresponding model name. These notebooks include all the steps involved in downloading the model, sample inference, loading the dataset, and evaluating the model.

Along the way, we faced many challenges. Most of the available models presented the results of their evaluation on one or more datasets, but they didn't release evaluation codes. Sometimes a sample code was provided to test the model on one or a limited number of samples. However, such code is insufficient to assess the performance of these model on real-world datasets. Therefore, we had to develop such a code from scratch, which would probably make the details of our work different from theirs, and might lead to different results. Our implementation might be different in terms of data loading, preprocessing, preparing data for each type of model, capturing evaluation results and assessing its performance. The lack of an explicit test set for some datasets was also a big challenge for our evaluation.

We would be happy if you would like to participate in this path. Please send us a pull request with evaluation script and notebook similar to ours.

Benchmark Results

Machine Translation Task

Machine translation is the task of automatically converting source text in one language to text in another language. Here, we address the issue of translating English texts into Persian and vice versa.

Sample Translation

import torch
from machine_translation import MachineTranslation

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model_name='persiannlp/mt5-small-parsinlu-translation_en_fa'

mt_model = MachineTranslation(model_name=model_name, model_type="mt5")
input_list = [
  "Praise be to Allah, the Cherisher and Sustainer of the worlds;",
  "shrouds herself in white and walks penitentially disguised as brotherly love through factories and parliaments; offers help, but desires power;",
  "He thanked all fellow bloggers and organizations that showed support.",
  "Races are held between April and December at the Veliefendi Hippodrome near Bakerky, 15 km (9 miles) west of Istanbul.",
  "I want to pursue PhD in Computer Science about social network,what is the open problem in social networks?"
]
mt_model.mt5_machine_translation_inference(input_list, device)

English to Persian Translation

We evaluated the available models on the following datasets:

All evaluation steps can be found in the notebooks associated with this task. The evaluation metric for this task is the BLEU score. This metric is calculated for all experiments, and the results are aggregated in the corresponding result file. This file contains information such as the hardware, the time taken for the evaluation, and the final results.

In the following table, we will report BLEU score for each subset of combined dataset of ParsiNLU:

NotebookModel TypeModel NameQuranBibleMizanQQP
LinkmT5 (small)persiannlp/mt5-small-parsinlu-translation_en_fa4.2320.1733.95816.473
LinkmT5 (base)persiannlp/mt5-base-parsinlu-translation_en_fa5.1660.2164.95719.972
LinkmT5 (large))persiannlp/mt5-large-parsinlu-translation_en_fa5.7350.2205.54521.645

Persian to English

We evaluated the available models on the following datasets:

All evaluation steps can be found in the notebooks associated with this task. The evaluation metric for this task is the BLEU score. This metric is calculated for all experiments, and the results are aggregated in the corresponding result file. This file contains information such as the hardware, the evaluation time, and the final results.

In the following table, we will report BLEU score for each subset of combined dataset of ParsiNLU:

NotebookModel TypeModel NameQuranBibleMizanQQP
LinkmT5 (small)persiannlp/mt5-small-parsinlu-opus-translation_fa_en7.4430.3678.42521.809
LinkmT5 (base)persiannlp/mt5-base-parsinlu-opus-translation_fa_en9.2530.3769.84826.898
LinkmT5 (large))persiannlp/mt5-large-parsinlu-opus-translation_fa_en11.6500.45812.33230.414

Multiple Choice Question Answering Task

Given a natural language question, this task aims to pick the correct answer among a list of multiple candidates. A key difference from reading comprehension is that the instances are open-domain (i.e., no context paragraph is provided). Hence, a model would either need to retrieve supporting documents from an external source, or have stored the necessary knowledge internally to be able to answer such QAs.

Sample Inference

import torch
from multiple_choice_qa import MultipleChoiceQA

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model_name='persiannlp/mt5-small-parsinlu-multiple-choice'
mcqa_model = MultipleChoiceQA(model_name=model_name, model_type="mt5")

question_list = [
    "وسیع ترین کشور جهان کدام است؟",
    "طامع یعنی ؟",
    "زمینی به ۳۱ قطعه متساوی مفروض شده است و هر روز مساحت آماده شده برای احداث، دو برابر مساحت روز قبل است.اگر پس از (۵ روز) تمام زمین آماده شده باشد، در چه روزی یک قطعه زمین آماده شده"
]
candidate_list=[
    ["آمریکا", "کانادا", "روسیه", "چین"],
    ["آزمند", "خوش شانس", "محتاج", "مطمئن"],
    ["روز اول", "روز دوم", "روز سوم", "هیچکدام"]
]
mcqa_model.mt5_multiple_choice_qa_inference(question_list, candidate_list, device)

Evaluation

We evaluated the available models on the following datasets:

All evaluation steps can be found in the notebooks associated with this task. All the experimental results are aggregated in the corresponding result file. This file contains information such as the hardware, the evaluation time, and the final results.

In the following table, we will report evaluation results for literature dataset from ParsiNLU:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)Exact String Match ScoreF1 String Match Score
LinkmT5 (small)persiannlp/mt5-small-parsinlu-multiple-choice38.28638.28837.95438.28637.67238.06737.60833.42945.452
LinkmT5 (base)persiannlp/mt5-base-parsinlu-multiple-choice38.57138.58538.26638.57138.15038.55538.18433.42945.451
LinkmT5 (large)persiannlp/mt5-large-parsinlu-multiple-choice37.42937.56537.04237.42937.06937.48237.04032.28644.165
LinkmT5 (small)persiannlp/mt5-small-parsinlu-arc-comqa-obqa-multiple-choice34.57134.50233.94134.57133.99734.46133.89629.71441.866
LinkmT5 (base)persiannlp/mt5-base-parsinlu-arc-comqa-obqa-multiple-choice37.14336.92836.64137.14336.77636.97636.65332.00044.052
LinkmT5 (large)persiannlp/mt5-large-parsinlu-arc-comqa-obqa-multiple-choice35.14335.16834.70235.14335.01235.04234.74130.28642.141
LinkmBertpersiannlp/mbert-base-parsinlu-multiple-choice21.4294.5925.35721.42925.0007.5638.824--
LinkWikiBertpersiannlp/wikibert-base-parsinlu-multiple-choice21.4294.5925.35721.42925.0007.5638.824--
LinkParsBertpersiannlp/parsbert-base-parsinlu-multiple-choice20.57120.55420.39220.57122.51215.22615.694--

In the following table, we will report evaluation results for math & logic dataset from ParsiNLU:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)Exact String Match ScoreF1 String Match Score
LinkmT5 (small)persiannlp/mt5-small-parsinlu-multiple-choice44.28645.29143.86144.28643.26844.44743.22640.85746.083
LinkmT5 (base)persiannlp/mt5-base-parsinlu-multiple-choice40.57141.55639.81640.57139.88340.82339.63337.42942.493
LinkmT5 (large)persiannlp/mt5-large-parsinlu-multiple-choice42.00042.51340.50742.00040.69842.17740.53340.85745.611
LinkmT5 (small)persiannlp/mt5-small-parsinlu-arc-comqa-obqa-multiple-choice39.71440.85338.60339.71438.74440.07338.47636.85743.334
LinkmT5 (base)persiannlp/mt5-base-parsinlu-arc-comqa-obqa-multiple-choice41.14342.39540.71741.14341.09441.36040.54238.85744.555
LinkmT5 (large)persiannlp/mt5-large-parsinlu-arc-comqa-obqa-multiple-choice40.57141.53039.60640.57140.27340.80139.68539.14344.455
LinkmBertpersiannlp/mbert-base-parsinlu-multiple-choice33.71411.3678.42933.71425.00017.00112.607--
LinkWikiBertpersiannlp/wikibert-base-parsinlu-multiple-choice33.71411.3678.42933.71425.00017.00112.607--
LinkParsBertpersiannlp/parsbert-base-parsinlu-multiple-choice32.28629.74528.27932.28625.69423.93320.478--

In the following table, we will report evaluation results for common knowledge dataset from ParsiNLU:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)Exact String Match ScoreF1 String Match Score
LinkmT5 (small)persiannlp/mt5-small-parsinlu-multiple-choice26.28626.54226.33126.28626.38326.33226.26624.00034.471
LinkmT5 (base)persiannlp/mt5-base-parsinlu-multiple-choice24.57124.58024.34824.57124.49924.55224.39723.42934.014
LinkmT5 (large)persiannlp/mt5-large-parsinlu-multiple-choice27.42927.91427.39027.42927.18027.61327.21827.14336.625
LinkmT5 (small)persiannlp/mt5-small-parsinlu-arc-comqa-obqa-multiple-choice27.14327.33027.15327.14327.10427.19927.09123.42934.945
LinkmT5 (base)persiannlp/mt5-base-parsinlu-arc-comqa-obqa-multiple-choice25.14325.23024.81925.14324.70025.15524.73023.14334.040
LinkmT5 (large)persiannlp/mt5-large-parsinlu-arc-comqa-obqa-multiple-choice30.00029.97029.67730.00029.64029.96329.63629.14339.102
LinkmBertpersiannlp/mbert-base-parsinlu-multiple-choice28.0007.8627.02028.00025.00012.27710.962--
LinkWikiBertpersiannlp/wikibert-base-parsinlu-multiple-choice28.0007.8407.00028.00025.00012.25010.937--
LinkParsBertpersiannlp/parsbert-base-parsinlu-multiple-choice26.85725.29724.31926.85724.61420.74919.419--

Question Paraphrasing Task

This task aims to detect whether two given questions are paraphrases of each other or not. For a given pair of natural-language questions, one must determine whether they are paraphrases or not. Paraphrasing has a broad range of applications and, in particular, query-paraphrasing can be used to improve document retrieval.

Sample Inference

import torch
from question_paraphrasing import QuestionParaphrasing

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model_name='persiannlp/mt5-small-parsinlu-qqp-query-paraphrasing'
qp_model = QuestionParaphrasing(model_name=model_name, model_type="mt5")

q1_list = [
  "چه چیزی باعث پوکی استخوان می شود؟", 
  "من دارم به این فکر میکنم چرا ساعت هفت نمیشه؟", 
  "دعای کمیل در چه روزهایی خوانده می شود؟", 
  "دعای کمیل در چه روزهایی خوانده می شود؟",
  "شناسنامه در چه سالی وارد ایران شد؟",
  "سیب زمینی چه زمانی وارد ایران شد؟"
]
q2_list = [
  "چه چیزی باعث مقاومت استخوان در برابر ضربه می شود؟", 
  "چرا من ساده فکر میکردم به عشقت پابندی؟", 
  "دعای جوشن کبیر در چه شبی خوانده می شود؟", 
  "دعای جوشن کبیر در چه شبی خوانده می شود؟",
  "سیب زمینی در چه سالی وارد ایران شد؟",
  "سیب زمینی در چه سالی وارد ایران شد؟"
]
qp_model.mt5_question_paraphrasing_inference(q1_list, q2_list, device)

Evaluation

We evaluated the available models on the following datasets:

All evaluation steps can be found in the notebooks associated with this task. All the experimental results are aggregated in the corresponding result file. This file contains information such as the hardware, the evaluation time, and the final results.

In the following table, we will report evaluation results for qqp subset of ParsiNLU - QQP dataset:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkmT5 (small)parsinlu-mt5/mt5-small-parsinlu-qqp-query-paraphrasing71.96772.10070.06471.96770.24272.02870.147
LinkmT5 (base)parsinlu-mt5/mt5-base-parsinlu-qqp-query-paraphrasing74.26874.13172.45674.26872.18974.19172.313
LinkmT5 (large)parsinlu-mt5/mt5-large-parsinlu-qqp-query-paraphrasing77.82477.99376.27977.82476.62277.89676.437

In the following table, we will report evaluation results for natural subset of ParsiNLU - QQP dataset:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkmT5 (small)parsinlu-mt5/mt5-small-parsinlu-qqp-query-paraphrasing77.88678.28478.50877.88677.02777.59377.263
LinkmT5 (base)parsinlu-mt5/mt5-base-parsinlu-qqp-query-paraphrasing79.41679.44779.48479.41678.92579.31879.088
LinkmT5 (large)parsinlu-mt5/mt5-large-parsinlu-qqp-query-paraphrasing85.39685.42885.48185.39685.05085.35285.204

Reading Comprehension Task

In this task, the goal is to generate a response to question and its accompanying context paragraph. We use the commonly used definition of reading comprehension task: generating an answer, given a question and a context paragraph.

Sample Inference

import torch
from reading_comprehension import ReadingComprehension

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model_name='persiannlp/mt5-small-parsinlu-squad-reading-comprehension'
rc_model = ReadingComprehension(model_name=model_name, model_type="mt5")

context_list = [
    "یک شی را دارای تقارن می‌نامیم زمانی که ان شی را بتوان به دو یا چند قسمت تقسیم کرد که آن‌ها قسمتی از یک طرح سازمان یافته باشند یعنی بر روی شکل تنها جابجایی و چرخش و بازتاب و تجانس انجام شود و در اصل شکل تغییری به وجود نیایید آنگاه ان را تقارن می‌نامیم مرکز تقارن:اگر در یک شکل نقطه‌ای مانندA وجود داشته باشد که هر نقطهٔ روی شکل (محیط) نسبت به نقطه یAمتقارن یک نقطهٔ دیگر شکل (محیط) باشد، نقطهٔ Aمرکز تقارن است. یعنی هر نقطه روی شکل باید متقارنی داشته باشد شکل‌های که منتظم هستند و زوج ضلع دارند دارای مرکز تقارند ولی شکل‌های فرد ضلعی منتظم مرکز تقارن ندارند. متوازی‌الأضلاع و دایره یک مرکز تقارن دارند ممکن است یک شکل خط تقارن نداشته باشد ولی مرکز تقارن داشته باشد. (منبع:س. گ)",
    "شُتُر یا اُشتر را که در زبان پهلوی (ushtar)[نیازمند منبع] می‌گفتند حیوانی است نیرومند و تنومند با توش و توان بالا از خانواده شتران؛ شبه نشخوارکننده و با دست و گردنی دراز. بر پشت خود یک یا دو کوهان دارد که ساختارش از پیه و چربی است. در دین اسلام گوشت او حلال است. اما ذبح آن با دیگر جانوران حلال گوشت متفاوت است و آن را نحر (بریدن گلو) می‌کنند و اگر سر آن را مانند گوسفند پیش از نحر ببرند گوشت آن حلال نیست. شیرش نیز نوشیده می‌شود ولی بیشتر کاربرد بارکشی دارد. پشم و پوستش نیز برای ریسندگی و پارچه‌بافی و کفش‌دوزی کاربرد دارد.  گونه‌های دیگری از شتران نیز در آمریکای جنوبی زندگی می‌کنند، به نام‌های لاما، آلپاکا، گواناکو که دارای کوهان نیستند.  شتر ویژگی‌های خاصّی دارد که مهم‌ترین آن‌ها تحمّل شرایط سخت صحرا و دماهای گوناگون و به‌ویژه گرمای شدید تابستان و کمبود آب و علوفه است. ترکیب جسمانی شتر با دیگر جانوران اختلاف زیادی دارد، و این اختلاف انگیزه شده که شتر در درازا روزهای سال در بیابان زندگی کند و از بوته‌ها و درختچه‌های گوناگون صحرایی و کویری و حتی از بوته‌های شور و خاردار تغذیه کند. عرب‌ها از زمان‌های بسیار دور از شتر استفاده کرده و می‌کنند. آن‌ها به این حیوان اهلی لقب کشتی صحرا (به عربی: سفینةالصحراء) داده‌اند.",
    """حسین میرزایی می‌گوید مرحله اول پرداخت وام حمایتی کرونا به همگی خانوارهای یارانه‌بگیر متقاضی تکمیل شده است و حال چهار میلیون خانوار که به عنوان "اقشار خاص" و "آسیب‌پذیر" شناسایی شدند، می‌توانند برای یک میلیون تومان وام دیگر درخواست بدهند. آقای میرزایی گفته خانوارهای "آسیب‌پذیر" که شرایط گرفتن وام یک میلیونی اضافی را دارند با پیامک از این امکان مطلع شده‌اند. بنا به گزارش‌های رسمی با شیوع کرونا در ایران یک میلیون نفر بیکار شده‌اند و درآمد کارکنان مشاغل غیررسمی نیز ضربه قابل توجهی خورده است. ارزش ریال هم در هفته‌های اخیر در برابر ارزهای خارجی سقوط کرده است. اقتصاد ایران پیش از شیوع کرونا نیز با مشکلات مزمن رکود، تورم، تحریم و فساد روبرو بود.""",
    "در ۲۲ ژوئن ۱۹۴۱ نیروهای محور در عملیات بارباروسا حمله سنگینی به اتحاد شوروی کرده و یکی از بزرگترین نبردهای زمینی تاریخ بشر را رقم زدند. همچنین جبهه شرقی باعث به دام افتادن نیروهای محور شد و بیش از همه ارتش آلمان نازی را درگیر جنگ فرسایشی کرد. در دسامبر ۱۹۴۱ ژاپن یک در عملیاتی ناگهانی با نام نبرد پرل هاربر به پایگاه دریایی ایالات متحده آمریکا حمله کرد. به دنبال این اتفاق آمریکا نیز بلافاصله علیه ژاپن اعلان جنگ کرد که با حمایت بریتانیا همراه شد. پس از آن متحدین (نیروهای محور در اروپا) نیز با اتحاد ژاپن علیه آمریکا اعلام جنگ کردند. دست‌آوردهای ژاپن در یورش به آمریکا باعث ایجاد این احساس در آسیا شد که آسیا از تسلط غرب خارج شده‌است از این رو بسیاری از ارتش‌های شکست خورده با آنها همراهی کردند."
]
questions = [
    "اشکالی که یک مرکز تقارن دارند",
    "غذای شترچیست؟",
    "وام یارانه به چه کسانی میدهند؟",
    "چرا امریکا وارد جنگ جهانی دوم شد؟"
]
rc_model.mt5_reading_comprehension_inference(context_list, questions, device)

Evaluation

We evaluated the available models on the following datasets:

All evaluation steps can be found in the notebooks associated with this task. All the experimental results are aggregated in the corresponding result file. This file contains information such as the hardware, the evaluation time, and the final results.

NotebookModel TypeModel NameExact ScoreF1 Score
LinkmT5 (small)persiannlp/mt5-small-parsinlu-squad-reading-comprehension18.24639.322
LinkmT5 (base)persiannlp/mt5-base-parsinlu-squad-reading-comprehension27.01854.388
LinkmT5 (large)persiannlp/mt5-large-parsinlu-squad-reading-comprehension36.84263.930

Sentiment Analysis Task

Sentiment Analysis (SA) is the study of opinions (i.e., positive, negative, or neutral sentiment) expressed in a given text, such as a review. Applications of SA include tasks such as market prediction, product review assessment, gauging public opinion about socio-political matters, etc. Sentiment analysis focuses on the task of classifying a given input text by the polarity of its sentiment as being positive, negative or neutral. More advanced SA techniques look at whether the textual sources have associations with emotional states such as fear, anger, happiness, and sadness. Alternatively, instead of classifying text as being either positive, negative, or neutral, the text could be associated with a number on a pre-defined scale (e.g., -5 to +5). Aspect-based Sentiment Analysis (ABSA) is a more fine-grained SA that aims to extract aspects of entities mentioned in the text and determine sentiment toward these aspects. For instance, "it tastes good but it’s so expensive ..." conveys positive and negative sentiments with respect to taste and price aspects of the mentioned product (entity), respectively.

Sample Inference

import torch
from sentiment_analysis import SentimentAnalysis

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model_name='m3hrdadfi/albert-fa-base-v2-sentiment-deepsentipers-binary'
sa_model = SentimentAnalysis(model_name)

texts = [
    "خوب نبود اصلا",
    "از رنگش خوشم نیومد",
    "کیفیتیش عالی بود"
]
sa_model.sentiment_analysis_inference(texts, device)

Evaluation

We evaluated the available models on the following datasets:

All evaluation steps can be found in the notebooks associated with this task. All the experimental results are aggregated in the corresponding result file. This file contains information such as the hardware, the evaluation time, and the final results.

Digikala

In the following table, we will report the evaluation results for 10% of Digikala dataset:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkParsBERT v2.0HooshvareLab/bert-fa-base-uncased-sentiment-digikala84.71583.62378.30584.71576.29683.96976.947
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-sentiment-digikala81.58581.08274.12981.58573.50481.31473.785

SnappFood

In the following table, we will report the evaluation results for test set of SnappFood dataset:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkParsBERT v2.0HooshvareLab/bert-fa-base-uncased-sentiment-snappfood87.57187.68087.68087.57187.57187.56287.562
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-sentiment-snappfood93.48693.54693.54693.48693.48693.48393.483

DeepSentiPers Binary

In the following table, we will report the evaluation results for test set of binary version of DeepSentiPers dataset:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkParsBERT v2.0HooshvareLab/bert-fa-base-uncased-sentiment-deepsentipers-binary94.95995.02890.95294.95991.92894.98991.430
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-sentiment-deepsentipers-binary91.98992.03986.08591.98986.51792.01386.298
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-sentiment-binary91.98992.90084.91491.98990.32692.27787.235

DeepSentiPers Multiclass

In the following tables, we will report the evaluation results for test set of DeepSentiPers dataset. These two models are able to classify each comment with one of the dataset labels: furious, angry, neutral, happy, delighted

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkParsBERT v2.0HooshvareLab/bert-fa-base-uncased-sentiment-deepsentipers-multi71.89973.96162.21971.89970.88072.20265.012
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-sentiment-deepsentipers-multi68.71670.12552.32368.71656.57568.66953.656

The following model only able to classify each comment with Negative, Neutral, and Positive labels. So, we apply label conversion before evaluating this model.

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-sentiment-multi67.79973.25666.64467.79962.34167.60262.221

Digikala+SnappFood+DeepSentiPers-Bin

For this experiment, we combine 10% of Digikala, test set of SnappFood, and test set of DeepSentiPers. Next, we convert all labels into two positive and negative labels:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-sentiment-binary92.74893.07192.10892.74893.18492.79492.522

Digikala+SnappFood+DeepSentiPers-Multiclass

For this experiment, we combine 10% of Digikala, test set of SnappFood, and test set of DeepSentiPers. Next, we convert all labels into positive, negative, and neutral labels:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-sentiment-multi73.06982.99670.92873.06977.45175.59669.646

Sentence Sentiment ParsiNLU - Food subset

In the following tables, we will report the evaluation results for food dataset:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkmT5 (small)persiannlp/mt5-small-parsinlu-sentiment-analysis63.54265.57044.78763.54241.68463.94942.376
LinkmT5 (base)persiannlp/mt5-base-parsinlu-sentiment-analysis63.02169.64149.11463.02142.65665.41144.886
LinkmT5 (large)persiannlp/mt5-large-parsinlu-sentiment-analysis69.27176.09255.11469.27147.61371.81650.228

Sentence Sentiment ParsiNLU - Movie subset

In the following tables, we will report the evaluation results for movie dataset:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkmT5 (small)persiannlp/mt5-small-parsinlu-sentiment-analysis54.83956.27741.03854.83939.33855.24039.894
LinkmT5 (base)persiannlp/mt5-base-parsinlu-sentiment-analysis59.14063.84746.11059.14042.34860.75843.684
LinkmT5 (large)persiannlp/mt5-large-parsinlu-sentiment-analysis62.36665.78547.03662.36644.60562.07444.259

Aspect Sentiment ParsiNLU - Food subset

In the following tables, we will report the evaluation results for test set of food dataset for the task of aspect sentiment analysis:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkmT5 (small)persiannlp/mt5-small-parsinlu-sentiment-analysis87.42686.77457.84087.42656.96687.02357.098
LinkmT5 (base)persiannlp/mt5-base-parsinlu-sentiment-analysis88.17088.15559.11588.17060.39888.08259.481
LinkmT5 (large)persiannlp/mt5-large-parsinlu-sentiment-analysis90.32790.05363.68590.32764.62290.13663.935

Aspect Sentiment ParsiNLU - Movie subset

In the following tables, we will report the evaluation results for test set of movie dataset for the task of aspect sentiment analysis:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkmT5 (small)persiannlp/mt5-small-parsinlu-sentiment-analysis84.92684.61252.45584.92653.48084.56352.474
LinkmT5 (base)persiannlp/mt5-base-parsinlu-sentiment-analysis86.64286.22655.41486.64256.83186.32855.807
LinkmT5 (large)persiannlp/mt5-large-parsinlu-sentiment-analysis89.58389.88176.22389.58369.41389.62770.907

Summarization Task

Text summarization is the task of automatically generating a brief summary from a given text while maintaining the key information.

Sample Inference

import torch
from summarization import Summarization

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model_name = 'm3hrdadfi/bert2bert-fa-news-headline'
b2b_model = Summarization(model_name=model_name, model_type="bert2bert")

sequence_list = [
    "قبل از به وجود آمدن دی سی، در خلا و فضایی عاری از هرگونه حیات که تنها پرایمال مانیتور بود، یهوه بوسیله قدرت های نامحدود دو برادر خلق کرد؛ یکی از آن ها میکائیل دمیورگوس، و دیگری سمائیل نام گرفت که بعدها با عنوان لوسیفر مورنینگ استار شناخته شد. پس از شکل گیری این دو تن، یهوه آن ها را هدایت نمود و به آن ها چگونگی استفاده از قدرت هایشان را آموخت، در نتیجه آن ها شکلی از خلقت را ایجاد کردند که هم اکنون به عنوان فرضیه چندجهانی دی سی شناخته می شود. میلیاردها سال پیش، لوسیفر فرشته مقرب دست به شورشی علیه پادشاهی بهشت زد و در نتیجه به فضایی عاری از ماده و فاقد هر گونه شکل تحت عنوان چائوپلازم تبعید شد. سپس چائوپلازم تبدیل بهک فضای متروک، ویران و گستره ای تهی با عنوان دوزخ شد، مقصد نهایی برای ارواح ملعون، جایی که مورنینگ استار فرمانروایی می کرد و در انتظار روزی بود تا بتواند دوباره آزاد شود. زمانی که تاریکی اعظم (شیطان وحشی بزرگ) بیدار شده و بازگشت، لوسیفر مجبور شد قدرت خود را با او سهیم شود و فرمانروایی خود را با بعل الذباب و عزازیل به اشتراک گذاشت. بدین سبب سه قدرت مثلثی شکل گرفتند، اما با این حال لوسیفر بخش کثیر قدرت را برای خود نگاه داشت. زمانی فرار رسید که دیریم یکی از اندلس برای جستجوی سکان خود که از او به سرقت رفته بود وارد دوزخ شد. دیریم پس از ورود به جهنم در یک نبرد ذهنی با یک دیو خبیث قدرتمند شرکت کرد و خواستار سکان دزدیده شده خود بود. دیریم پس از اینکه سکان خود را بازیافت لوسیفر را در مقابل تمام شیاطین دوزخ تحقیر کرد، و مورنینگ استار در آن روز سوگند به نابودی دیریم نمود"
]
b2b_model.bert2bert_summarization_inference(sequence_list, device, max_length=512)

Evaluation

We evaluated the available models on the following datasets:

All evaluation steps can be found in the notebooks associated with this task. All the experimental results are aggregated in the corresponding result file. This file contains information such as the hardware, the evaluation time, and the final results.

Wiki Summary v1.0.0 (mid values)

The following table summarizes the ROUGE scores obtained by the existing summarization models: Due to space constraints, only mid scores are provided in this table.

NotebookModel TypeModel NameROUGE-1 - precisionROUGE-1 - recallROUGE-1 - fmeasureROUGE-2 - precisionROUGE-2 - recallROUGE-2 - fmeasureROUGE-L - precisionROUGE-L - recallROUGE-L - fmeasureROUGE-Lsum - precisionROUGE-Lsum - recallROUGE-Lsum - fmeasure
Linkbert2bertm3hrdadfi/bert2bert-fa-news-headline28.1064.2536.9933.8150.5260.87424.4823.6896.06224.4783.6906.061
Linkbert2bertm3hrdadfi/bert2bert-fa-wiki-summary27.14428.43925.8326.6937.5766.53618.60520.45818.02118.60520.45718.019

Wiki Summary v2.0.0 (mid values)

The following table summarizes the ROUGE scores obtained by the existing summarization models: Due to space constraints, only mid scores are provided in this table.

NotebookModel TypeModel NameROUGE-1 - precisionROUGE-1 - recallROUGE-1 - fmeasureROUGE-2 - precisionROUGE-2 - recallROUGE-2 - fmeasureROUGE-L - precisionROUGE-L - recallROUGE-L - fmeasureROUGE-Lsum - precisionROUGE-Lsum - recallROUGE-Lsum - fmeasure
Linkbert2bertm3hrdadfi/bert2bert-fa-news-headline33.1224.2697.3465.1060.6011.04328.3743.6056.21528.3893.6076.217
Linkbert2bertm3hrdadfi/bert2bert-fa-wiki-summary30.89527.31627.8098.0527.3497.34220.40118.42418.52920.40418.42618.534

VoA Persian Corpus v1.0.0 (mid values)

The following table summarizes the ROUGE scores obtained by the existing summarization models: Due to space constraints, only mid scores are provided in this table.

NotebookModel TypeModel NameROUGE-1 - precisionROUGE-1 - recallROUGE-1 - fmeasureROUGE-2 - precisionROUGE-2 - recallROUGE-2 - fmeasureROUGE-L - precisionROUGE-L - recallROUGE-L - fmeasureROUGE-Lsum - precisionROUGE-Lsum - recallROUGE-Lsum - fmeasure
Linkbert2bertm3hrdadfi/bert2bert-fa-news-headline40.83038.96238.99722.25620.96621.08937.54835.82235.87037.56635.80835.872
Linkbert2bertm3hrdadfi/bert2bert-fa-wiki-summary5.00228.2788.4011.0506.6531.7894.29924.5887.2324.30024.5727.232

Text Classification Task

Text classification (a.k.a. text categorization or text tagging) is the task of assigning a set of predefined categories to open-ended text.

Sample Inference

import torch
from text_classification import TextClassifier

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model_name='HooshvareLab/bert-fa-base-uncased-clf-persiannews'
tc_model = TextClassifier(model_name)

test_samples = [
    'حسن جوهرچی بازیگر سینما و تلویزیون ایران در گفتگو با خبرنگار حوزه سینما گروه فرهنگی باشگاه خبرنگاران جوان؛ در خصوص علت کم کاری\u200cاش در چند سال اخیر گفت: با در نظر گرفتن نبود بودجه کافی که در پی آن تولید کم خواهد شد اکثر بازیگران کم کار می\u200cشوند امیدوارم وضعیت بودجه رو به بهبود رود و تولیدات مثل قدیم افزایش یابد تا اینکه حرکت جدیدی اتفاق بیفتد و ما دوباره به طور دائم سرکار باشیم. وی در خصوص حال و هوای این روزهای سینما ایران بیان کرد: به نظر می\u200cرسد که سینما کم\u200cکم در حال تعطیل شدن است، یعنی آثار سینمایی ما مخاطب را جذب نمی\u200cکند، سالن\u200cها خالی و فیلمسازان خوب با کم کاری و یا اصلا فعالیت نمی\u200cکنند که این جای تاسف دارد، امیدوارم مسئولان سینمایی فکری به حال این موضوع به خصوص در بخش تولید و فیلم\u200cنامه داشته باشند تا اینکه سینما به روزهای درخشان خود بازگردد. وی ادامه داد: بحث فیلم\u200cنامه اولین موضوع در تولید و ساختار یک فیلم است و سینمای ما از قدیم\u200cالایام با این جریان مشکل داشته در صورتی که اواخر دهه شصت و اوایل دهه هفتاد آثار خوبی در سینما ساخته می\u200cشد اما متاسفانه این حرکت ادامه پیدا نکرد. جوهرچی بیان کرد: در دهه\u200cهای مذکور فیلم\u200cهای خوبی مانند ناخدا خورشید، اجاره\u200cنشین\u200cها و … ساختیم که شاید دلیل آن این بود که فیلم\u200cنامه نویسان ما با فراغ بال بهتری کار می\u200cکردند اما بعدها ممیزی\u200cهای گوناگون روی بحث فیلم\u200cنامه صورت گرفت و برخی خودسانسوری\u200c را شروع کردند و در کنار این موضوع تولید در تلویزیون زیاد شد و در آن سال\u200cها فیلم\u200cنامه\u200cها خوبی به تلویزیون راه پیدا کرد این شد مکه دست سینما بسته شد یعنی از نیمه دوم دهه هفتاد سینمای ما سیر نزولی را طی می\u200cکند. جوهرچی اظهار داشت: سیر نزولی از نیمه دوم دهه هفتاد تا به امروز با وجود اینکه فیلم\u200cهای خوبی مانند مادر، کمال\u200cالملک و … را داشتیم پیامد خوبی به همراه نخواهد داشت و باید به این موضوع مهم توجه بیشتری شود و فکری به حالش کرد. این بازیگر عنوان کرد: سینمای حال حاضر ما اثر قابل ملاحظه\u200cای را نمی\u200cسازد، سال\u200cهایی بود که از بین حدود هفتاد فیلم تولید شده حدود ۴۰ فیلم قابل دیدن بود اما متاسفانه در حال حاضر این رقم (۴۰ فیلم) به دو یا ۳ فیلم کاهش یافته و بقیه قابل دیدن نیست یعنی می\u200cتوان گفت که اکثر کارها سخیف هستند و سطح پایین و از فقدان کارگردان و بازیگر سطح بالا رنج می\u200cبرد. وی در پایان خاطرنشان کرد: امیدوارم سینما مثل سال\u200cهای قبل شکل و شمایل بهتری به خود بگیرد و دوباره شاهد پویایی و رونق هر چه بیشتر آن باشیم.', 
    'به گزارش گروه بین الملل باشگاه خبرنگاران جوان به نقل از هیل، آخرین تلاش نمایندگان دموکرات کنگره برای حذف کمیته حقیقت یاب بنغازی بی نتیجه ماند. تلاش نمایندگان دموکرات برای حذف کمیته حقیقت یاب بنغازی در حالی با شکست روبرو می\u200cشود که جمهوری\u200cخواهان کنگره، دور جدیدی از حملات انتقادی خود را علیه بی کفایتی دولت اوباما و هیلاری کلینتون – وزیر امور خارجه وقت آغاز کرده\u200cاند. با داغ شدن بحث مبارزات انتخاباتی نامزدهای انتخابات ریاست جمهوری ۲۰۱۶ آمریکا، رقبای جمهوری\u200cخواه و دموکرات می\u200cکوشند از هر فرصتی برای ضربه زدن به یکدیگر استفاده کنند. حمله به سفارت آمریکا در بنغازی در لیبی از جمله این موارد است. این حادثه، ۱۱ سپتامبر ۲۰۱۲ (۲۱ شهریور ۹۱) اتفاق افتاد. افراد مسلح با حمله به کنسولگری آمریکا، سفیر این کشور را به همراه ۴ دیپلمات و کارمند دیگر به قتل رساندند. از آن زمان، جمهوری\u200cخواهان با توسل به این حادثه کوشیده\u200cاند به دموکرات\u200cها ضربات سهمگینی وارد کنند. با داغ شدن بحث انتخابات ریاست جمهوری ۲۰۱۶ آمریکا، به نظر می\u200cرسد حادثه بنغازی بار دیگر بر سر زبان\u200cها بیافتد. تشکیل کمیته حقیقت یاب بنغازی در مجلس نمایندگان آمریکا حکایت از این موضوع دارد. حادثه بنغازی در مناظره\u200cهای نامزدهای انتخابات ریاست جمهوری آمریکا به ویژه در بحث سیاست خارجی می\u200cتواند تعیین کننده باشد. هیلاری کلینتون – نامزد دموکرات انتخابات ریاست جمهوری ۲۰۱۶ در زمان وقوع این حادثه وزیر امور خارجه آمریکا بود. جمهوری\u200cخواهان می\u200cکوشند با توسل به این حادثه، کفایت کلینتون را زیر سوال ببرند.', 
    'به گزارش خبرنگار فوتبال و فوتسال گروه ورزشی باشگاه خبرنگاران جوان، دیدار دو تیم فوتبال استقلال و ذوب آهن در چارچوب هفته بیست و دوم رقابت\u200cهای لیگ برتر از ساعت ۱۵ آغاز می\u200cشود که حاشیه\u200cهای آن به قرار زیر است. درب\u200cهای ورزشگاه فولادشهر ساعت ۱۲ در فاصله ۳ ساعت تا آغاز بازی به روی هواداران گشوده شد. چمن فولادشهر برای برگزاری بازی امروز وضعیت ایده آلی دارد. کاوران تیم فوتبال استقلال تهران ساعت ۱۳:۲۰دقایقی قبل در میان استقبال شدید هواداران خودی هتل اسمان اصفهان را به مقصد ورزشگاه فولادشهر ترک کرد. آبی پوشان تهرانی در حلقه هواداران محاصره شده بودند و به سختى از هتل خارج شدند. در حالی که حدود ۴۰ دقیقه دیگر بازی دو تیم ذوب آهن و استقلال آغاز می\u200cشود طرفداران تیم ابی پوش جایگاه مختص خود را پر کرده\u200cاند و در حال حاضر از ورود استقلالى\u200cها به ورزشگاه جلوگیرى مى شود این اتفاق در حالی رخ داده که فقط حدود ۲۰۰ نفر برای تشویق تیم ذوب آهن تا به این لحظه در فولادشهر حاضر شده\u200cاند. هواداران تیم فوتبال استقلال با شعار استادیوم خالیه، اس اسی جا نداره به این وضعیت گلایه کرد. سید حسین حسینی دروازه بان استقلال، رضایى و اسماعیلى به شدت مورد توجه هواداران قرار گرفتندبنرهای زیادی در استادیوم نصب شده است از جمله: ذوب آهن محبوب فشارک؛ همچون کوه آهن هستی ذوب آهن؛ استقلال محبوب قلبها. چند نفر از بازیکنان تیم\u200cهای پایه ذوب آهن در پایین جایگاه ویژه حضور دارند. نام قاسم حدادی فر پس از ۸ ماه در فهرست ۱۸ نفره ذوب آهن قرار گرفت.', 
    'به\u200c گزارش گروه اقتصادی باشگاه خبرنگاران به نقل از پایگاه اطلاع\u200cرسانی وزارت نیرو (پاون)، شرکت مدیریت منابع آب ایران اعلام کرد: حجم جریان\u200cهای سطحی کشور از ابتدای سال آبی (مهر ماه ۹۳) تا پایان فروردین ماه نسبت به متوسط درازمدت در همه حوضه\u200cهای اصلی آبریز کشور ۵۴ درصد کاهش یافته است. بر اساس این گزارش، حجم روان\u200cآب\u200cهای کشور در پایان فروردین ماه سال جاری در مقایسه با مدت مشابه درازمدت در حوضه\u200cهای دریای خزر، خلیج فارس، دریاچه ارومیه، مرکزی، هامون و سرخس به ترتیب ۵۶، ۵۵، ۶۳، ۴۰، ۷۹ و ۵۵ درصد کاهش نشان می\u200cدهد. بیشترین میزان کاهش روان\u200cآب در سال جاری نسبت به دراز مدت ۴۷ ساله در حوضه هامون و مرزی شرق بوده که ۷۹ درصد کاهش را نشان می\u200cدهد. براساس این گزارش، حجم جریان\u200cهای سطحی در پایان فروردین\u200cماه سال جاری رتبه چهل و پنجم را در ۴۷ سال گذشته به خود اختصاص داده است. حجم کل روان آب\u200cهای سطحی در این زمان در دوره بلندمدت ۴۷ ساله حدود ۵۲ میلیارد و ۴۰۱ میلیون مترمکعب بوده است. بر این اساس، حجم روان\u200cآب\u200cهای کشور در پایان فروردین\u200cماه سال جاری در مقایسه با زمان مشابه سال گذشته ۵ درصد کاهش یافته و به ۲۴ میلیارد و ۲۳۴ میلیون مترمکعب رسیده است. این میزان در مدت مشابه سال گذشته ۲۵ میلیارد و ۴۶۵ میلیون مترمکعب گزارش شده بود. حجم جریان\u200cهای سطحی در فروردین\u200cماه امسال در حوضه\u200cهای دریای خزر، خلیج فارس، دریاچه ارومیه، مرکزی، هامون و سرخس به ترتیب ۳ میلیارد و ۹۴۹ میلیون مترمکعب، ۱۳ میلیارد و ۷۱۲ میلیون مترمکعب، ۹۸۶ میلیون مترمکعب، ۴ میلیارد و ۵۹۴ میلیون مترمکعب، ۲۰۵ میلیون مترمکعب و ۷۸۷ میلیون مترمکعب ثبت شده است. همچنین حجم روان\u200cآب\u200cهای کشور در فروردین\u200cماه سال جاری در مقایسه با سال گذشته در حوضه\u200cهای دریای خزر، مرکزی، سرخس به ترتیب ۱۲، ۳۵ و ۹ درصد افزایش و در حوضه\u200cهای خلیج فارس، هامون و دریاچه ارومیه به ترتیب ۱۶، ۱۴ و ۱۷ درصد کاهش یافته است.', 
    'به گزارش خبرنگار حوزه قرآن و عترت گروه فرهنگی باشگاه خبرنگاران جوان؛ ادعیه متعددی در جهت رفع بلا به ما رسیده\u200cاند که از گذشته تا به امروز اطمینان بخش قلب مؤمنان بوده\u200cاند. ما نیز در اینجا بخشی از ادعیه مرتبط با رفع بلا را آورده\u200cایم. ختم اسماء شمشیر مولا امیرالمومنین علی علیه السلام: جناب سلمان می\u200cفرماید: روی شمشیر مولا علی (ع) اسماء وکلماتی دیدم ۱۱ کلمه دیدم که نوشته شده است هرکسی بعد از نماز صبح این ۱۱ کلمه را بگوید خودش و خانواده\u200cاش و فرزندانش در حفظ و امنیت الهی بوده و همیشه در سفر و حضر و در خواب و بیداری از بلایا محفوظ هستند- اللهم إنی أسألک یا عالما بکل خفیة یا من\u200f السماء بقدرته\u200f مبنیة یا من\u200f الأرض\u200f بقدرته\u200f مدحیة یا من\u200f الشمس\u200f و القمر بنور جلاله مضیئة یا من البحار بقدرته مجریة یا منجی یوسف من رق العبودیة یا من یصرف کل نقمة و بلیة یا من حوائج السائلین عنده مقضیة یا من لیس له حاجب یغشى و لا وزیر یرشى صل على محمد و آل محمد و احفظنی فی سفری و حضری و لیلی و نهاری و یقظتی و منامی و نفسی و أهلی و مالی و ولدیو الحمد لله وحده- بحارالانوار ج ۸۳ ص ۱۹۲ – مستدرک الوسائل ج ۵ ص ۹۰ همچنین در روایتی دیگر چنین میخوانیم: تسبیحات امیرالمومنین: کیفیت این تسبیحات؛ بار سبحان الله۱۰ بار الحمدلله۱۰ بار الله اکبر۱۰ بار لا اله الا الله ۱۰ بعد از هر نماز فضیلت این تسبیحات: امیرالمؤمنین امام علی علیه السلام به براء بن عازب فرمودند: آیا کاری به تو یاد دهم که چون آن را انجام دهی، از اولیای خدا خواهی بود؟ فرمود: بله- حضرت تسبیحات فوق را به او آموزش دادند و سپس فرمودند: هر کس این تسبیحات را بعد از هر نماز بخواند، خدا هزار بلای دنیوی را از او دور می\u200cکند، که آسان\u200cترین آن بازگشت از دین است و در آخرت برای او هزارمنزلگاه آماده می\u200cکند که یکی از آن منزلت\u200cها مجاورت رسول خدا صلی الله علیه و آله است- الدعوات (سلوة الحزین) قطب الدین راوندی، ص ۴۹ مستدرک الوسائل، ج٥، ص ٨٢ بحار الانوار، چ بیروت، ج ٨٣، ص٣٤- همچنین با توجه در آیات ۲۰ تا۲۲ سوره بروج درمی\u200cیابیم هر کس با ایمان در وقت رفتن به سفر آیات زیر را در خانه خود بانیت خالص و توجه به خدا و معنی آن بنویسدو سه بار بخواند اهل و عیال و مال او همه صحیح و سالم از بلیات مانند تا آنگاه که مراجعت کند - والله من ورائهم محیط بل هو قرآن مجیدفی لوح محفوظ خواص آیات قرآن کریم ص ۲۰۱ در روایتی از حضرت صادق علیه السلام نیز چنین آمده است که هر کسی که در صبح سه مرتبه این دعا را بخواند تا شام به او بلایی نرسد و اگر در شام بگوید تا صبح به او بلایی نرسد- بسم الله الذی لا یضر مع اسمه شی\u200fء فی الأرض و لا فی السماء و هو السمیع العلیم بحارالانوار ج ۸۳ ص ۲۹۸ این روایت نیز به حضرت امام رضا علیه السلام منسوب است: هر گاه خواستى کالاى خود را در حفظ و حراست بدارى، آیة الکرسى بخوان وبنویس و آن را در وسط کالا قرار بده و نیز بنویس: وجعلنا من بین أیدیهم سدا ومن خلفهم سدا فأغشیناهم فهم \u200fلایبصرون (۱)، لا ضیعة على ما حفظه الله فإن تولوا فقل حسبی الله لاإله إلا هو، علیه توکلت، وهو رب العرش العظیم (۲) - ما پیش روى آنان سدى و پشت سرشان سدى نهاده \u200fایم و دیدگانشان را پوشانیده\u200f ایم که نمى\u200f بینند آنچه را خدا حفظ کند تباه نمى\u200f گردد پس اگر روى گرداندند خدا مرا بس است، هیچ معبودى جز او نیست، بر او توکل کردم، و او پروردگار عرش باعظمت است - (پس اگر چنین کنى) آن را در حفظ و حراست قرار داده \u200fاى اگر خدا بخواهد و به \u200fآن به اذن و فرمان پروردگار بدى نرسد- (۳) سوره یس، آیه ۹- ۱ سوره توبه، آیه ۱۲۹- ۲ بحار الأنوار:، فقه الرضا علیه السلام: ۴۰۰- ۳'
]
tc_model.text_classification_inference(test_samples) 

Evaluation

We evaluated the available models on the following datasets:

All evaluation steps can be found in the notebooks associated with this task. All the experimental results are aggregated in the corresponding result file. This file contains information such as the hardware, the evaluation time, and the final results.

DigiMAG

In the following tables, we will report the evaluation results for DigiMAG dataset:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkParsBERT v2.0HooshvareLab/bert-fa-base-uncased-clf-digimag95.65795.31785.20495.65780.47495.36581.852
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-clf-digimag95.07093.77677.99095.07075.24294.30375.690

Persian News

In the following tables, we will report the evaluation results for Persian News dataset:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkParsBERT v2.0HooshvareLab/bert-fa-base-uncased-clf-persiannews98.72398.72498.78998.72398.67798.72298.731
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-clf-persiannews98.35898.36498.47798.35898.33298.35698.400

Textual Entailment Task

Textual Entailment is the task of deciding whether a whether two given questions are paraphrases of each other or not. Textual Entailment(TE) and its newer variant, Natural Language Inference(NLI), are typically defined as a 3-way classification task where the goal is to determine whether a hypothesis sentence entails, contradicts, or is neutral with respect to a given premise sentence.

Sample Inference

import torch
from textual_entailment import TextualEntailment

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model_name='persiannlp/mt5-small-parsinlu-snli-entailment'
te_model = TextualEntailment(model_name=model_name, model_type="mt5", label_list = ['e', 'c', 'n'])

premise_list = [
    "این مسابقات بین آوریل و دسامبر در هیپودروم ولیفندی در نزدیکی باکرکی ، ۱۵ کیلومتری (۹ مایل) غرب استانبول برگزار می شود.",
    "آیا کودکانی وجود دارند که نیاز به سرگرمی دارند؟",
    "ما به سفرهایی رفته ایم که در نهرهایی شنا کرده ایم"
]
hypothesis_list = [
    "در ولیفندی هیپودروم، مسابقاتی از آوریل تا دسامبر وجود دارد.",
    "هیچ کودکی هرگز نمی خواهد سرگرم شود.",
    "علاوه بر استحمام در نهرها ، ما به اسپا ها و سونا ها نیز رفته ایم."
]
te_model.mt5_textual_entailment_inference(premise_list, hypothesis_list, device)

Evaluation

We evaluated the available models on the following datasets:

All evaluation steps can be found in the notebooks associated with this task. All the experimental results are aggregated in the corresponding result file. This file contains information such as the hardware, the evaluation time, and the final results.

natural from ParsiNLU

In the following table, we will report evaluation results for natural subset of ParsiNLU - Entailment dataset:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkmT5 (small)persiannlp/mt5-small-parsinlu-snli-entailment53.05952.32052.22353.05952.90051.43451.233
LinkmT5 (base)persiannlp/mt5-base-parsinlu-snli-entailment57.76557.32157.19157.76557.58757.23457.062
LinkmT5 (large)persiannlp/mt5-large-parsinlu-snli-entailment71.29471.69971.49371.29471.51071.19971.209
LinkmBERT (base)persiannlp/mbert-base-parsinlu-entailment54.23552.93352.78554.23554.09553.12352.954
LinkParsBERT (base)persiannlp/parsbert-base-parsinlu-entailment53.52952.63552.51653.52953.57452.86552.823
LinkWikiBERT (base)persiannlp/wikibert-base-parsinlu-entailment54.11853.24553.00354.11854.03853.49453.329
LinkSentence-Transformerm3hrdadfi/bert-fa-base-uncased-farstail51.64751.59051.33351.64752.41949.02649.340
LinkSentence-Transformerm3hrdadfi/bert-fa-base-uncased-farstail-mean-tokens40.82436.30935.75040.82437.51031.86030.010

mnli from ParsiNLU

In the following table, we will report evaluation results for mnli subset of ParsiNLU - Entailment dataset:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkmT5 (small)persiannlp/mt5-small-parsinlu-snli-entailment56.25857.39856.73456.25857.09356.19156.224
LinkmT5 (base)persiannlp/mt5-base-parsinlu-snli-entailment62.81962.78962.32762.81962.29562.80362.310
LinkmT5 (large)persiannlp/mt5-large-parsinlu-snli-entailment73.02673.16672.42773.02672.44573.08072.419
LinkmBERT (base)persiannlp/mbert-base-parsinlu-entailment51.27651.56251.16851.27651.38851.33751.188
LinkParsBERT (base)persiannlp/parsbert-base-parsinlu-entailment54.31354.72354.66854.31353.96454.37454.181
LinkWikiBERT (base)persiannlp/wikibert-base-parsinlu-entailment52.73453.22153.05652.73452.33652.81452.543
LinkSentence-Transformerm3hrdadfi/bert-fa-base-uncased-farstail49.93956.32955.48549.93951.53349.96850.267
LinkSentence-Transformerm3hrdadfi/bert-fa-base-uncased-farstail-mean-tokens37.42435.17835.11437.42436.49126.43126.511

FarsTail from ParsiNLU

In the following table, we will report evaluation results for Farstail dataset inside ParsiNLU repository:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkmT5 (small)persiannlp/mt5-small-parsinlu-snli-entailment76.02375.86475.76776.02375.88275.92675.807
LinkmT5 (base)persiannlp/mt5-base-parsinlu-snli-entailment85.74285.82085.73185.74285.68685.76585.693
LinkmT5 (large)persiannlp/mt5-large-parsinlu-snli-entailment93.41493.41493.40093.41493.39893.41493.399
LinkmBERT (base)persiannlp/mbert-base-parsinlu-entailment80.11580.62880.47980.11580.07480.25880.164
LinkParsBERT (base)persiannlp/parsbert-base-parsinlu-entailment79.79579.95679.83179.79579.71379.85479.750
LinkWikiBERT (base)persiannlp/wikibert-base-parsinlu-entailment82.03382.54282.39282.03381.97182.13782.032
LinkSentence-Transformerm3hrdadfi/bert-fa-base-uncased-farstail81.71481.67381.58181.71481.60581.69181.590
LinkSentence-Transformerm3hrdadfi/bert-fa-base-uncased-farstail-mean-tokens38.10738.76528.97738.10728.50031.57723.542

FarsTail

In the following table, we will report evaluation results for Farstail dataset:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
LinkSentence-Transformerm3hrdadfi/bert-fa-base-uncased-farstail81.65081.61381.52081.65081.54181.62981.528
LinkSentence-Transformerm3hrdadfi/bert-fa-base-uncased-farstail-mean-tokens38.04338.70028.93038.04328.45431.50223.488

Named Entity Recognition(NER) Task

Named-entity recognition is a subtask of information extraction that seeks to locate and classify named entities mentioned in unstructured text into pre-defined categories such as person names, organizations, locations, medical codes, time expressions, quantities, monetary values, percentages, etc.

Sample Inference

import torch
from ner import NER

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model_name='HooshvareLab/bert-base-parsbert-ner-uncased'
ner_model = NER(model_name)

texts = [
    "مدیرکل محیط زیست استان البرز با بیان اینکه با بیان اینکه موضوع شیرابه‌های زباله‌های انتقال یافته در منطقه حلقه دره خطری برای این استان است، گفت: در این مورد گزارشاتی در ۲۵ مرداد ۱۳۹۷ تقدیم مدیران استان شده است.",
    "به گزارش خبرگزاری تسنیم از کرج، حسین محمدی در نشست خبری مشترک با معاون خدمات شهری شهرداری کرج که با حضور مدیرعامل سازمان‌های پسماند، پارک‌ها و فضای سبز و نماینده منابع طبیعی در سالن کنفرانس شهرداری کرج برگزار شد، اظهار داشت: ۸۰٪  جمعیت استان البرز در کلانشهر کرج زندگی می‌کنند.",
    "وی افزود: با همکاری‌های مشترک بین اداره کل محیط زیست و شهرداری کرج برنامه‌های مشترکی برای حفاظت از محیط زیست در شهر کرج در دستور کار قرار گرفته که این اقدامات آثار مثبتی داشته و تاکنون نزدیک به ۱۰۰ میلیارد هزینه جهت خریداری اکس-ریس صورت گرفته است.",
]
inference_output = ner_model.ner_inference(texts, device, ner_model.config.max_position_embeddings)

Evaluation

We evaluated the available models on the following datasets:

All evaluation steps can be found in the notebooks associated with this task. All the experimental results are aggregated in the corresponding result file. This file contains information such as the hardware, the evaluation time, and the final results.

Peyma

The following table shows the statistics of the entities within this dataset:

B_ORGI_ORGB_LOCI_LOCB_DATI_DATB_PERI_PERB_PCTI_PCTB_TIMI_TIMB_MONI_MONO
667110459521120823643429736401624266528215

In the following table, we will report evaluation results for test set of Peyma dataset:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (micro)Precision (macro)Recall (weighted)Recall (micro)Recall (macro)F1-Score (weighted)F1-Score (micro)F1-Score (macro)
LinkParsBERT v1.0HooshvareLab/bert-base-parsbert-peymaner-uncased98.23787.29787.96087.46077.84177.84174.52182.10682.59180.114
LinkParsBERT v1.0HooshvareLab/bert-base-parsbert-armanner-uncased95.60668.94067.65969.20856.73956.73956.26361.91161.71961.764
LinkParsBERT v1.0HooshvareLab/bert-base-parsbert-ner-uncased96.61079.85480.95870.02168.55368.55350.50872.83674.24057.095
LinkParsBERT v2.0HooshvareLab/bert-fa-base-uncased-ner-peyma97.58386.08986.80686.29670.15970.15968.29377.16077.60075.832
LinkParsBERT v2.0HooshvareLab/bert-fa-base-uncased-ner-arman95.13766.94664.38867.46051.75851.75850.94757.69057.38757.422
LinkALBERT v3.0HooshvareLab/albert-fa-zwnj-base-v2-ner57.22428.0336.24325.26713.16113.1619.0347.6238.4698.369
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-ner-peyma90.00857.60658.89848.90415.71415.71411.03724.19924.80917.547
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-ner-arman93.23856.11853.77956.07228.13028.13027.01436.18636.93835.229
LinkParsBERT v3.0HooshvareLab/bert-fa-zwnj-base-ner95.14065.53665.86463.31656.36856.36853.80160.45360.74857.971
LinkDistilBERT v3.0HooshvareLab/distilbert-fa-zwnj-base-ner94.71664.10863.85767.07351.91351.91349.72657.20957.26956.493
LinkRoberta v3.0HooshvareLab/roberta-fa-zwnj-base-ner93.94665.37865.33258.29447.79247.79244.81054.59655.20248.377

Arman

The following table shows the statistics of the entities within this dataset:

B-orgI-orgB-locI-locB-persI-persB-eventI-eventB-proI-proB-facI-facO
453355033408900327519405801939724739550936224969

In the following table, we will report evaluation results for test set of Arman dataset:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (micro)Precision (macro)Recall (weighted)Recall (micro)Recall (macro)F1-Score (weighted)F1-Score (micro)F1-Score (macro)
LinkParsBERT v1.0HooshvareLab/bert-base-parsbert-peymaner-uncased95.79963.59961.12663.62359.79859.79861.20360.29060.45560.963
LinkParsBERT v1.0HooshvareLab/bert-base-parsbert-armanner-uncased98.35886.17586.38883.09277.05577.05574.74281.25681.45578.505
LinkParsBERT v1.0HooshvareLab/bert-base-parsbert-ner-uncased97.53576.42576.00273.65872.46072.46065.95074.05174.18969.231
LinkParsBERT v2.0HooshvareLab/bert-fa-base-uncased-ner-peyma95.65065.33362.77965.32051.87051.87053.13456.48056.80657.162
LinkParsBERT v2.0HooshvareLab/bert-fa-base-uncased-ner-arman97.97384.22784.33881.93274.40474.40474.00878.81679.06077.481
LinkALBERT v3.0HooshvareLab/albert-fa-zwnj-base-v2-ner18.34920.7511.87218.6343.5603.5602.6072.9022.4542.886
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-ner-peyma92.51937.43633.37339.1876.2546.2546.54010.33210.53410.798
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-ner-arman93.63161.83262.54752.27328.58728.58722.76038.64539.23931.064
LinkParsBERT v3.0HooshvareLab/bert-fa-zwnj-base-ner92.64054.48132.94445.90251.23651.23647.53850.87240.10241.875
LinkDistilBERT v3.0HooshvareLab/distilbert-fa-zwnj-base-ner96.58662.76862.47957.04353.75553.75548.97757.66557.79051.919
LinkRoberta v3.0HooshvareLab/roberta-fa-zwnj-base-ner94.36360.15241.59744.54352.76952.76951.19354.54846.52242.800

Peyma+Arman

In the following table, we will report evaluation results for combination of test sets of Peyma and Arman datasets:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (micro)Precision (macro)Recall (weighted)Recall (micro)Recall (macro)F1-Score (weighted)F1-Score (micro)F1-Score (macro)
LinkParsBERT v1.0HooshvareLab/bert-base-parsbert-peymaner-uncased94.31565.17856.61034.27462.49762.49769.36762.05759.40837.299
LinkParsBERT v1.0HooshvareLab/bert-base-parsbert-armanner-uncased97.95583.59283.62779.26274.53874.53873.20878.68578.82175.852
LinkParsBERT v1.0HooshvareLab/bert-base-parsbert-ner-uncased97.19275.76775.15353.58671.57071.57050.03573.28273.31850.362
LinkParsBERT v2.0HooshvareLab/bert-fa-base-uncased-ner-peyma94.31866.49057.29634.89654.06154.06160.86057.93955.63135.448
LinkParsBERT v2.0HooshvareLab/bert-fa-base-uncased-ner-arman97.53681.48981.42578.05571.53071.53072.30875.94476.15874.658
LinkALBERT v3.0HooshvareLab/albert-fa-zwnj-base-v2-ner18.73620.0301.88711.0143.5563.5561.5602.7002.4661.673
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-ner-peyma91.90238.05231.49118.5526.5266.5264.27910.73110.8116.072
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-ner-arman93.52261.24061.42450.90028.29928.29922.40338.19738.74730.426
LinkParsBERT v3.0HooshvareLab/bert-fa-zwnj-base-ner92.62654.54034.24342.27051.61951.61950.07551.27341.17342.135
LinkDistilBERT v3.0HooshvareLab/distilbert-fa-zwnj-base-ner96.28962.21461.89556.61653.01653.01645.59957.00957.11249.725
LinkRoberta v3.0HooshvareLab/roberta-fa-zwnj-base-ner93.93760.05040.72641.71950.81450.81442.82653.31845.21434.298

WikiAnn

The following table shows the statistics of the entities within this dataset:

B-ORGI-ORGB-LOCI-LOCB-PERI-PERO
10681139851313673232213850701113338486529

In the following table, we will report evaluation results for test set of WikiAnn dataset:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (micro)Precision (macro)Recall (weighted)Recall (micro)Recall (macro)F1-Score (weighted)F1-Score (micro)F1-Score (macro)
LinkParsBERT v1.0HooshvareLab/bert-base-parsbert-peymaner-uncased49.53626.03719.73128.44711.95311.95312.19015.65114.88816.481
LinkParsBERT v1.0HooshvareLab/bert-base-parsbert-armanner-uncased46.82420.18817.98821.6109.4489.44811.22712.31812.38813.933
LinkParsBERT v1.0HooshvareLab/bert-base-parsbert-ner-uncased50.95924.97118.52526.84513.82013.82015.26016.64215.83118.095
LinkParsBERT v2.0HooshvareLab/bert-fa-base-uncased-ner-peyma45.55334.00933.28036.4738.7378.7378.97313.87913.84014.372
LinkParsBERT v2.0HooshvareLab/bert-fa-base-uncased-ner-arman43.19525.24925.43824.7346.7326.7326.53510.62810.64610.336
LinkALBERT v3.0HooshvareLab/albert-fa-zwnj-base-v2-ner22.69115.56910.40812.8486.9746.9748.1564.3408.3524.996
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-ner-peyma34.55944.59046.66738.9321.4881.4881.2112.8782.8832.347
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-ner-arman34.69734.08033.01732.9921.2331.2331.2272.3682.3762.355
LinkParsBERT v3.0HooshvareLab/bert-fa-zwnj-base-ner51.81017.91615.50217.96517.65517.65520.39717.25316.50818.165
LinkDistilBERT v3.0HooshvareLab/distilbert-fa-zwnj-base-ner52.51423.35914.69224.12814.41314.41318.80316.05314.55117.874
LinkRoberta v3.0HooshvareLab/roberta-fa-zwnj-base-ner40.43324.98912.97019.0642.8802.8803.1774.7564.7144.830

Arman+Peyma+WikiAnn

The following table shows the statistics of the entities within this dataset:

B-ORGI-ORGB-LOCI-LOCB-EVEI-EVEB-MONI-MONB-FACI-FACB-DATI-DATB-PROI-PROB-PCTI-PCTB-TIMI-TIMB-PERI-PERO
3216396728868582568889826324840840756831829694141437826461707178611

In the following table, we will report evaluation results for test set of combination of Peyma, Arman, and WikiAnn datasets:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (micro)Precision (macro)Recall (weighted)Recall (micro)Recall (macro)F1-Score (weighted)F1-Score (micro)F1-Score (macro)
LinkParsBERT v1.0HooshvareLab/bert-base-parsbert-peymaner-uncased95.19366.27662.58048.99764.57864.57868.45564.19363.56354.502
LinkParsBERT v1.0HooshvareLab/bert-base-parsbert-armanner-uncased97.09275.94174.79366.47466.12266.12266.16370.36270.19165.467
LinkParsBERT v1.0HooshvareLab/bert-base-parsbert-ner-uncased96.35570.31371.58052.63365.29265.29243.25367.23868.29246.386
LinkParsBERT v2.0HooshvareLab/bert-fa-base-uncased-ner-peyma94.88367.39763.33648.69653.18753.18755.79958.14157.82049.258
LinkParsBERT v2.0HooshvareLab/bert-fa-base-uncased-ner-arman96.65874.22672.27964.48563.14463.14466.80367.56567.40364.109
LinkALBERT v3.0HooshvareLab/albert-fa-zwnj-base-v2-ner8.10818.4281.38713.0021.5891.5890.74171.6341.4810.953
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-ner-peyma91.34734.81626.63723.8476.1866.1863.743510.18110.0406.254
LinkALBERT-fa-base-v2m3hrdadfi/albert-fa-base-v2-ner-arman93.67257.99655.16543.24326.51326.51319.82535.74235.81426.471
LinkParsBERT v3.0HooshvareLab/bert-fa-zwnj-base-ner90.79557.24827.09745.37950.54850.54847.70952.32135.28143.328
LinkDistilBERT v3.0HooshvareLab/distilbert-fa-zwnj-base-ner95.77960.29259.93155.09949.28049.28041.17153.85554.08645.728
LinkRoberta v3.0HooshvareLab/roberta-fa-zwnj-base-ner91.23956.23326.90440.49843.19143.19140.04646.84233.15633.375

Evaluation based on each entity

In result file, we reports the results of evaluating each model. You can find the per entity evaluation results in this file.

Textual Thematic Similarity Task

Sample Inference

import torch
from textual_thematic_similarity import TextualThematicSimilarity

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model_name = 'm3hrdadfi/bert-fa-base-uncased-wikinli'
tts_model = TextualThematicSimilarity(model_name=model_name, model_architecture="BertForSequenceClassification", label2id= {"dissimilar": 0, "similar": 1})

sentences_1 = [
    'در جریان انقلاب آلمان در سال های ۱۹۱۸ و ۱۹۱۹ او به برپایی تشکیلات فرایکورپس که سازمانی شبه نظامی برای سرکوب تحرکات انقلابی کمونیستی در اروپای مرکزی بود ، کمک کرد .	',
    'در جریان انقلاب آلمان در سال های ۱۹۱۸ و ۱۹۱۹ او به برپایی تشکیلات فرایکورپس که سازمانی شبه نظامی برای سرکوب تحرکات انقلابی کمونیستی در اروپای مرکزی بود ، کمک کرد .	',
    'شهر شیراز در بین سال های ۱۳۴۷ تا ۱۳۵۷ محل برگزاری جشن هنر شیراز بود .	', 
    'شهر شیراز در بین سال های ۱۳۴۷ تا ۱۳۵۷ محل برگزاری جشن هنر شیراز بود .	'
]
sentences_2 = [
    'کاناریس بعد از جنگ در ارتش باقی ماند ، اول به عنوان عضو فرایکورپس و سپس در نیروی دریایی رایش.در ۱۹۳۱ به درجه سروانی رسیده بود .	',
    'پسر سرهنگ وسل فرییتاگ لورینگوون به نام نیکی در مورد ارتباط کاناریس با بهم خوردن توطئه هیتلر برای اجرای آدمربایی و ترور پاپ پیوس دوازدهم در ایتالیا در ۱۹۷۲ در مونیخ شهادت داده است .	',
    'جشنواره ای از هنر نمایشی و موسیقی بود که از سال ۱۳۴۶ تا ۱۳۵۶ در پایان تابستان هر سال در شهر شیراز و تخت جمشید برگزار می شد .	',
    'ورزشگاه پارس با ظرفیت ۵۰ هزار تن که در جنوب شیراز واقع شده است .	'
]
tts_model.thematic_similarity_inference_seq_classification(sentences_1, sentences_2, device, max_length=tts_model.config.max_position_embeddings)
import torch
from textual_thematic_similarity import TextualThematicSimilarity

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model_name = 'm3hrdadfi/bert-fa-base-uncased-wikinli-mean-tokens'
tts_model = TextualThematicSimilarity(model_name=model_name, model_architecture="sentence-transformer")

sentences_1 = [
    'در جریان انقلاب آلمان در سال های ۱۹۱۸ و ۱۹۱۹ او به برپایی تشکیلات فرایکورپس که سازمانی شبه نظامی برای سرکوب تحرکات انقلابی کمونیستی در اروپای مرکزی بود ، کمک کرد .	',
    'در جریان انقلاب آلمان در سال های ۱۹۱۸ و ۱۹۱۹ او به برپایی تشکیلات فرایکورپس که سازمانی شبه نظامی برای سرکوب تحرکات انقلابی کمونیستی در اروپای مرکزی بود ، کمک کرد .	',
    'شهر شیراز در بین سال های ۱۳۴۷ تا ۱۳۵۷ محل برگزاری جشن هنر شیراز بود .	', 
    'شهر شیراز در بین سال های ۱۳۴۷ تا ۱۳۵۷ محل برگزاری جشن هنر شیراز بود .	'
]
sentences_2 = [
    'کاناریس بعد از جنگ در ارتش باقی ماند ، اول به عنوان عضو فرایکورپس و سپس در نیروی دریایی رایش.در ۱۹۳۱ به درجه سروانی رسیده بود .	',
    'پسر سرهنگ وسل فرییتاگ لورینگوون به نام نیکی در مورد ارتباط کاناریس با بهم خوردن توطئه هیتلر برای اجرای آدمربایی و ترور پاپ پیوس دوازدهم در ایتالیا در ۱۹۷۲ در مونیخ شهادت داده است .	',
    'جشنواره ای از هنر نمایشی و موسیقی بود که از سال ۱۳۴۶ تا ۱۳۵۶ در پایان تابستان هر سال در شهر شیراز و تخت جمشید برگزار می شد .	',
    'ورزشگاه پارس با ظرفیت ۵۰ هزار تن که در جنوب شیراز واقع شده است .	'
]
tts_model.thematic_similarity_inference_pair_similarity(sentences_1, sentences_2, device, label_list=["dissimilar", "similar"], similarity_threshold=0.5)

Evaluation

We evaluated the available models on the following datasets:

All evaluation steps can be found in the notebooks associated with this task. All the experimental results are aggregated in the corresponding result file. This file contains information such as the hardware, the evaluation time, and the final results.

In the following table, we will report evaluation results for Wiki D/Similar v1.0.0 dataset:

NotebookModel TypeModel NameAccuracyPrecision (weighted)Precision (macro)Recall (weighted)Recall (macro)F1-Score (weighted)F1-Score (macro)
Linkbertm3hrdadfi/bert-fa-base-uncased-wikinli76.64276.72276.72176.64276.64276.62576.625
LinkSentence-Transformerm3hrdadfi/bert-fa-base-uncased-wikinli-mean-tokens65.30875.10375.10665.30865.30361.55561.553
NotebookModel TypeModel NameCosine-AccuracyCosine-Accuracy_thresholdCosine-Average PrecisionCosine-f1Cosine-f1_thresholdCosine-PrecisionCosine-RecallDot Product-AccuracyDot Product-Accuracy_thresholdDot Product-Average PrecisionDot Product-f1Dot Product-f1_thresholdDot Product-PrecisionDot Product-RecallEuclidean-AccuracyEuclidean-Accuracy_thresholdEuclidean-Average PrecisionEuclidean-f1Euclidean-f1_thresholdEuclidean-PrecisionEuclidean-RecallManhatten-AccuracyManhatten-Accuracy_thresholdManhatten-Average PrecisionManhatten-f1Manhatten-f1_thresholdManhatten-PrecisionManhatten-Recall
LinkSentence-Transformerm3hrdadfi/bert-fa-base-uncased-wikinli-mean-tokens75.2230.67446481.14977.0070.63203769.15786.86874.422357.73080481.14776.217324.591522267.24187.95975.25918.48254080.57376.62720.07572667.99187.77775.168404.82232780.63976.657439.42517167.95187.923

In the following table, we will report evaluation results for Wiki Triplet v1.0.0 dataset:

NotebookModel TypeModel NameAccuracy Cosine DistanceAccuracy Manhatten DistanceAccuracy Euclidean Distance
LinkSentence-Transformerm3hrdadfi/bert-fa-base-uncased-wikitriplet-mean-tokens93.33193.40093.314