Awesome

RuNormAS

Описание задачи

В рамках соревнования RuNormAS (Russian Normalization of Annotated Spans) к решению предлагается задача нормализации – приведение части текста (именованной сущности, словосочетания) в нормальную (начальную) форму. Основная часть задачи состоит в том, чтобы правильно нормализовать нужные слова из группы, не меняя остальных (зависимых и т. п.), а также в грамотном использовании контекста. Последнее особенно важно, т. к. начальную форму для многих слов можно определить только в контексте – так, слово "Иванова" в зависимости от окружающего контекста может иметь как нормальную форму "Иванова", так и "Иванов".

Таймлайн соревнования

20.02.2021 -- выдача данных, начало соревновани.
28.03.2021 -- последний день соревнования.
29.03.2021 -- официальное подведение итогов.
Вы находитесь здесь
07.04.2021 -- дедлайн по подачи статей по результатам соревнования.

Итоги соревнования

*	Generic spans	Named entities
*Team*	exact match	exact match
ksmith	0.9801	0.9812
qbic	0.9791	0.9815
eindenbom	0.9758	0.9792
king_menin	0.9645	0.9575
baseline	0.7732	0.8881
fateev.da	0.7730	0.8897
shkunkov.a	0.0000	0.7680

*Таблица отсортирована по результатам первой дорожки, однако значимость обеих дорожек одинакова.

Детали соревнования

Соревнование предлагает две дорожки:

Нормализация именованных сущностей
Нормализация более широкого класса спанов текста, включая нормализацию разных частей речи.

Данные для первой дорожки собраны из статей газеты Взгляд, для второй – из документов Минэкономразвития. Обе выборки размечены вручную.

Метрика качества для задачи – доля точных совпадений результата нормализации и эталона.

Важно: в первой дорожке учитывается капитализация, во второй - нет.

Данные

3.03: в данных правильно отображаются разрывные аннотации.

26.02: добавлены тестовые и обновлённые тренировочные данные.

В train_new.zip две папки, соответствующие двум дорожкам: named - именованные сущности, generic - общие спаны. Обе дорожки имеют одинаковый формат данных. В папке text_and_ann находятся файлы с текстами (.txt) и файлы с разметкой спанов (.ann). В файле с разметкой на каждой строке написаны индексы начала и конца сущности в тексте. Если сущность имеет разрывы, то одной строке написаны индексы начала и конца для каждого куска (при этом куски могут быть неупорядочены). Например, если сущность имеет два разрывных куска, то в аннотациях на соответсвующей строке будет стоять start1 end1 start2 end2 или start2 end2 start1 end1. В папке norm на каждой строке расположен результат нормализации соответствующего спана. Соответствие производится по имени файла до точки.

public_test.zip - тестовые данные. У них такой же формат, как и у тренировочных.

В качестве решения ожидается архив с двумя папками: named и generic (если участие принимается только в одной дорожке, то вторую папку оставить пустой). Внутри каждой должны быть файлы *.norm (без подпакок) с именами до точки как в тестовых данных, где на каждой строке находится нормальная форма соответсвующего спана.

Ссылка на соревнование

https://competitions.codalab.org/competitions/29216

Бейзлайн

В соревновании представлен бейзлайн, полученный применением средств нормализации из библиотеки Natasha https://github.com/natasha/natasha Код, которым были получены результаты, находится в baseline.py.

Оценивание

Программа, считающая финальное качество в соревновании: score.py

Организаторы:

Иван Смуров, ABBYY, МФТИ
Денис Золотухин, ABBYY, ВШЭ

Страница соревнования на CodaLab

Телеграм-чат соревнования