Home

Awesome

RuNormAS

Описание задачи

В рамках соревнования RuNormAS (Russian Normalization of Annotated Spans) к решению предлагается задача нормализации – приведение части текста (именованной сущности, словосочетания) в нормальную (начальную) форму. Основная часть задачи состоит в том, чтобы правильно нормализовать нужные слова из группы, не меняя остальных (зависимых и т. п.), а также в грамотном использовании контекста. Последнее особенно важно, т. к. начальную форму для многих слов можно определить только в контексте – так, слово "Иванова" в зависимости от окружающего контекста может иметь как нормальную форму "Иванова", так и "Иванов".

Таймлайн соревнования

Итоги соревнования

*Generic spansNamed entities
Teamexact matchexact match
ksmith0.98010.9812
qbic0.97910.9815
eindenbom0.97580.9792
king_menin0.96450.9575
baseline0.77320.8881
fateev.da0.77300.8897
shkunkov.a0.00000.7680

*Таблица отсортирована по результатам первой дорожки, однако значимость обеих дорожек одинакова.

Детали соревнования

Соревнование предлагает две дорожки:

Данные для первой дорожки собраны из статей газеты Взгляд, для второй – из документов Минэкономразвития. Обе выборки размечены вручную.

Метрика качества для задачи – доля точных совпадений результата нормализации и эталона.

Важно: в первой дорожке учитывается капитализация, во второй - нет.

Данные

3.03: в данных правильно отображаются разрывные аннотации.

26.02: добавлены тестовые и обновлённые тренировочные данные.

В train_new.zip две папки, соответствующие двум дорожкам: named - именованные сущности, generic - общие спаны. Обе дорожки имеют одинаковый формат данных. В папке text_and_ann находятся файлы с текстами (.txt) и файлы с разметкой спанов (.ann). В файле с разметкой на каждой строке написаны индексы начала и конца сущности в тексте. Если сущность имеет разрывы, то одной строке написаны индексы начала и конца для каждого куска (при этом куски могут быть неупорядочены). Например, если сущность имеет два разрывных куска, то в аннотациях на соответсвующей строке будет стоять start1 end1 start2 end2 или start2 end2 start1 end1. В папке norm на каждой строке расположен результат нормализации соответствующего спана. Соответствие производится по имени файла до точки.

public_test.zip - тестовые данные. У них такой же формат, как и у тренировочных.

В качестве решения ожидается архив с двумя папками: named и generic (если участие принимается только в одной дорожке, то вторую папку оставить пустой). Внутри каждой должны быть файлы *.norm (без подпакок) с именами до точки как в тестовых данных, где на каждой строке находится нормальная форма соответсвующего спана.

Ссылка на соревнование

https://competitions.codalab.org/competitions/29216

Бейзлайн

В соревновании представлен бейзлайн, полученный применением средств нормализации из библиотеки Natasha https://github.com/natasha/natasha Код, которым были получены результаты, находится в baseline.py.

Оценивание

Программа, считающая финальное качество в соревновании: score.py

Организаторы:

Страница соревнования на CodaLab

Телеграм-чат соревнования