В 23-м конкурсе Научного Общества Информационных Систем (польское сокр. NTIE) сотрудники Кафедры Информационных Систем Государственного Экономического Университета в Познани были награждены за лучшие дипломные работы в области информационных систем.
В группе диссертаций третье место занял Владимир Левоневский за работу под названием «Метод сравнения и обогащения информации в многоязычных вики, основанный на анализе их качества». Научным руководителем работы был профессор Витольд Абрамович, дополнительным руководителем был профессор Христофор Вэнцэль.
Источник: Государственный Экономический Университет в Познани
Оценка качества и обогащение информации в многоязычной Википедии
В Википедии на данный момент более 54 миллионов статей на более чем 300 языках. Несмотря на свою популярность, эту онлайн-энциклопедию часто критикуют за низкое качество информации. Однако, в зависимости от темы и языковой версии, вы можете найти там ценный контент. Используя алгоритмы машинного обучения и семантическое представление Википедии в других базах знаний (напр. DBpedia), можно автоматически сравнивать эту информацию в разных языковых версиях и выбирать лучшую (самого высокого качества).
В рамках докторской диссертации были разработаны инструменты, определяющие значения показателей на основе данных в различных форматах и с использованием различных источников. В ходе научных исследований были проанализированы данные общим объемом более 10 терабайт, и в различных языковых версиях Википедии было определено более миллиарда значений показателей качества. Эксперименты показали, что в локальных тематиках информация самого высокого качества обычно размещается в соответствующей языковой версии. Например, информация о польских городах обычно лучше всего в польскоязычной версии Википедии.
На основе местных и международных тем были построены модели качества для оценки особенно важной части статей Википедии — карточек (англ. infobox), которые обычно помещаются в верхней части статьи и содержат наиболее важную информацию по теме. В этом случае измерение популярности может помочь в оценке качества карточек. Это связано с тем, что некоторые пользователи могут быстро заметить устаревшую или неверную информацию. Поэтому, если статья популярна на этом языке — то исправления могут быть быстрее. Представленные в диссертации модели могут быть использованы для автоматического пополнения различных языковых версий Википедии. Часть исследований проводилась с использованием данных DBpedia.
Более подробную информацию об оценке качества и обогащении информации в Википедии можно найти в научных публикациях.