Границы фантастики в Википедии: анализ данных выявляет трудности классификации

Новое исследование анализирует, каким образом структура Википедии может помочь автоматически выявлять материалы, связанные с научной фантастикой и фэнтези. Результаты показывают, что хотя Википедия содержит огромные объёмы данных, пригодных для машинного анализа, их интерпретация не является простой.

На первый взгляд ответ на вопрос «какие статьи в Википедии относятся к научной фантастике или фэнтези?» кажется очевидным. На практике же всё оказывается значительно сложнее. Границы между этими жанрами размыты, а многие произведения сочетают элементы разных традиций — от мифологии и хоррора до антиутопии и магического реализма.

Википедия — это не только тексты статей. Это также сложная экосистема связей и метаданных, которые можно анализировать в больших масштабах. К наиболее важным относятся:

  • категории, присвоенные статьям (например, «science fiction novels»),
  • вики-ссылки, то есть внутренние ссылки между статьями,
  • структурированные данные из Wikidata, описывающие тип объекта (например, роман, фильм, вымышленный персонаж),
  • метки WikiProject — обозначения, создаваемые сообществами редакторов Википедии.

В публикации под названием «Science Fiction and Fantasy in Wikipedia: Exploring Structural and Semantic Cues» были использованы публичные дампы данных Википедии для анализа различных сигналов, которые могут указывать на связь статьи с фантастикой. Результаты исследования могут быть полезны для разных сообществ. Например, исследователи в области цифровой гуманитаристики могут анализировать развитие литературных жанров и популярной культуры в глобальном масштабе. Кроме того, сообщество Википедии может использовать эти результаты для выявления пробелов в маркировке статей или в структуре категорий.

Исследования структуры Википедии имеют значение, выходящее за рамки анализа фантастики. Автоматическое распознавание тематики статей может помочь в культурологических и литературоведческих исследованиях, анализе больших массивов данных о популярной культуре, развитии инструментов искусственного интеллекта, а также в улучшении поиска и рекомендаций контента в цифровых проектах.

Polski
English
Русский