Awesome
factRuEval-2016
http://www.dialog-21.ru/evaluation/2016/letter/
###Статус
Оценка завершена. Результаты предварительной (run_1) и окончательной (run_2) оценок опубликованы в папке https://github.com/dialogue-evaluation/factRuEval-2016/tree/master/reports .
###Тестсет
В папке testset опубликована разметка оценочной коллекции для первых двух дорожек. Мы предполагаем, что в ней есть ошибки. Мы будем рады, если вы нам о них сообщите через раздел Issues. Просим вас создавать по одному issue на каждую ошибку. Это поможет быстро закрывать простые проблемы. Спасибо!
###Даты
- до 23:00 26.02.2016 - регистрация прогонов
- до 29.02.2016 - предварительные оценки
- 29.02.2016 - публикация разметки тестсета (в этом репозитории)
- до 01.03.2016 (включительно) - подача статей на конференцию Диалог (статьи нужно отправлять сюда: Secretary@dialog-21.ru)
- до 23:00 04.03.2016 - принимаются сообщения об ошибках в тестсете
- до 10.03.2016 - окончательне оценки (с учётом найденных ошибок)
- scripts/
- t1_eval.py - компаратор для первой дорожки
- Readme.txt - инструкция к компаратору
- devset/ - демонстрационная коллекция
- *.txt - тексты документов
- *.tokens - деление на токены и предложения
- *.spans - спаны (первый слой разметки)
- *.objects - упоминания объектов (второй слой разметки)
- *.coref - кореференция и идентификация (третий слой разметки)
Описание модели разметки: http://opencorpora.org/wiki/Nermanual/2/model
Формат демонстрационной разметки
Тексты документов (*.txt)
Текст предложений сохранён из источника. Предложения склеены через пробел. Абзацы - через двойной перевод строки.
Сегментация на токены и предложения (*.tokens)
Каждая строка - один токен. Предложения разделены пустой строкой.
Описание одного токена состоит из следующих полей:
- id токена
- позиция начала токена (от начала текста)
- длина токена
- текст токена
Разделитель полей - пробел. В токене пробела быть не может.
Спаны (*.spans)
Каждая строка - один спан. Разделитель полей - пробел.
Поля:
- id спана
- тип спана
- позиция первого символа спана от начала текста
- длина спана в символах
- первый токен спана
- длина спана в токенах
Справочно (после решётки):
- все id входящих токенов
- все тексты входящих в спан токенов
Упоминания объектов (*.objects)
Каждая строка - одно упоминание объекта. Разедлитель полей - пробел.
Поля:
- id упоминания
- тип упоминания
- список идентификаторов входящих в упоминание спанов
Справочно (после решётки):
- текст всех входящих в упоминание объекта спанов
Кореференция и идентификация (*.coref)
Каждая запись - один объект. Разделитель записей - пустая строка.
Первая строка записи состоит из следующих полей:
- идентификатор объединённого объекта
- список идентификаторов упоминаний объектов, входящих в объединённый объект
Последующий строки:
- ключ
- значение
Допустимые ключи:
- firstname, surname, patronymic, nickname - у объектов типа Person
- name - у Location, LocOrg, Org
- wikidata - у всех