Wiki Workshop 2025: индекс цитируемости и синтетическая мера качества для Википедии (видео)

На конференции Wiki Workshop 2025 были представлены результаты научного исследования, в рамках которого проведён комплексный анализ статей Википедии на 55 языках и по 18 тематическим категориям. В исследовании применялся авторский подход, основанный на индексе цитируемости и синтетической мере качества статей.

Для построения индекса цитируемости было проанализировано 6,6 миллиарда внутренних ссылок (wikilinks) между страницами Википедии, что позволило определить самые значимые статьи в каждом языковом разделе и по отдельным темам. Статьи были распределены по категориям на основе их связей с открытой семантической базой знаний Викиданные, что позволило выделить 18 основных тем и выявить наиболее цитируемые материалы в каждой из них. На этой основе были составлены рейтинги Top 10, Top 25 и Top 100 самых цитируемых статей для каждого языка и темы.

Запись презентации:

Параллельно была проведена оценка качества более 47 миллионов статей Википедии с использованием синтетической меры, учитывающей такие характеристики, как длина статьи, количество и плотность источников, число иллюстраций и разделов, а также наличие шаблонов, указывающих на проблемы с качеством. Используемая методика позволила сравнивать качество статей даже между языковыми версиями с разными стандартами. Оба показателя — индексы цитируемости и оценки качества статей — были опубликованы в открытом доступе: индексы цитируемости на платформе Hugging Face, а оценки качества — на платформе Kaggle.

Проведённые анализы выявили значительные различия в качестве и тематическом покрытии между различными языковыми разделами Википедии. Наивысшие показатели цитируемости и качества отмечены у крупнейших версий — английской и немецкой Википедий, особенно в таких категориях, как города, фильмы, биографии и университеты. Высокие оценки качества также показали каталонская, испанская, корейская и китайская Википедии. В менее развитых языковых версиях был зафиксирован заметный спад среднего качества статей по мере расширения анализируемой группы, что указывает на концентрацию высококачественного контента в основном среди наиболее цитируемых статей.

Результаты исследования предоставляют сообществу Википедии и научной среде ценную информацию о сильных и слабых сторонах отдельных языковых разделов. Полученные данные и выводы могут быть использованы для целенаправленного развития менее развитых версий, оптимизации редакторских процессов и более эффективного мониторинга качества контента. Кроме того, представленная методика и доступные инструменты создают основу для дальнейших, ещё более подробных сравнительных исследований Википедии в мировом масштабе.

Работа под названием «Utilizing citation index and synthetic quality measure to compare Wikipedia languages across various topics» опубликована в открытом доступе. В дальнейших планах — расширение анализа на дополнительные темы, новые языковые версии и дополнительные показатели, такие как статистика просмотров страниц и количество уникальных редакторов, что позволит ещё глубже понять разнообразие, тенденции и вызовы, стоящие перед многоязычной Википедией.

Wiki Workshop — это ежегодная международная научная конференция, организуемая академическим сообществом и экспертами, занимающимися исследованиями Википедии и других проектов фонда Wikimedia. Цель мероприятия — обмен знаниями, опытом и результатами исследований, которые могут способствовать дальнейшему развитию Википедии и улучшению качества публикуемых материалов. В этом году конференция прошла 21–22 мая в онлайн-формате. Подробнее узнать о мероприятии можно на сайте Wiki Workshop: wikiworkshop.org.

Источники: kie.ue.poznan.pl, ue.poznan.pl

Polski
English
Русский