Качество данных Википедии: автоматическая оценка инфобоксов на разных языках

Инфобокс (шаблон-карточка) предоставляет сводку наиболее важной информации, относящейся к конкретному объекту, описанному в статье Википедии. Другими словами — инфобокс Википедии резюмирует фактологические знания.

Инфобокс выглядит как таблица, обычно добавляемая в верхнюю правую часть статьи Википедии. В зависимости от темы такое информационное окно состоит из различных параметров. Например, если он описывает человека, то карточка часто имеет дату и место рождения, образование, гражданство и т.д. Другой пример — информационное окно о городе, которое часто показывает население, мэра, почтовый индекс, страну, дату города. права и прочее.

Из-за независимости редакционного процесса в разных языковых версиях Википедии информация в шаблонах-карточках по одной и той же теме может отличаться. Например, если кто-то предоставляет обновленную информацию о населении в статье о Лондоне в английской Википедии, это не означает, что другие (более 200) языков будут иметь такое обновление — часто другие пользователи Википедии должны вносить соответствующие изменения на каждом языке.

Если мы хотим сравнить качество данных в информационных карточках Википедии между разными языковыми версиями, нам часто нужно понимать эти языки. К счастью, мы можем автоматизировать этот процесс, используя методы машинного обучения для оценки качества многоязычной информации. Одно из приложений для этих целей — недавно выпущенное расширение Chrome, помогающее сравнивать качество инфобоксов между языковыми версиями Википедии. Посмотрите короткое видео о том, как это работает:

Лучшие языковые версии могут помочь улучшить качество статей в менее развитых языковых редакциях Википедии, а также обогатить другие популярные открытые базы знаний: DBpedia, Викиданные, YAGO и другие.

Исходный код расширения доступен на ГитХабе.

Источник: infoboxes.medium.com

Polski
English
Русский