На платформе Hugging Face опубликован обширный набор данных, содержащий результаты автоматической оценки качества для 47 миллионов статей Википедии в 55 языковых версиях. Эти оценки проводились с использованием алгоритмов, применяемых на WikiRank.net — инструменте, который сравнивает качество статей Википедии на разных языках.
Сервис ВикиРанк присваивает каждой статье синтетическую оценку по шкале от 0 до 100 на основе различных показателей, таких как длина текста, количество источников (референций), разделов и иллюстраций. В результате каждая статья получает единый показатель качества, что значительно упрощает сравнение между языковыми версиями, использующими различные критерии оценки.
Публикация этого набора данных открывает множество потенциальных применений и преимуществ.
Сравнение качества контента на разных языках
Единая система оценок от 0 до 100 позволяет непосредственно сравнивать качество статей между различными языковыми версиями. Это даёт возможность выявить, в каких языках статья проработана лучше всего, а где требуется доработка. Впервые становится возможен столь масштабный многоязычный анализ качества Википедии.
Исследования качества информации и обработки естественного языка
Данный набор данных является ценным ресурсом для исследователей в области информационных наук и специалистов по обработке естественного языка (NLP). Он позволяет анализировать тенденции качества на огромном масштабе и может использоваться для обучения моделей искусственного интеллекта, способных предсказывать качество текста. Ранее аналогичные данные уже использовались для изучения того, какие темы представлены наиболее качественно в разных языковых версиях Википедии, что демонстрирует полезность таких оценок в сравнительном анализе. Теперь такие исследования станут ещё доступнее благодаря этому общедоступному набору данных.
Поддержка редакторов Википедии
Автоматические оценки могут помочь редакторам Википедии в выявлении статей, требующих улучшения. Во многих языковых версиях большинство статей не имеет оценки качества, присвоенной сообществом (в некоторых Википедиях более 99 % статей остаются неоценёнными людьми). С использованием данных WikiRank редакторы смогут легко определить статьи более низкого качества — например, те, у которых мало источников или которые слишком кратки — и сосредоточить усилия на их доработке. Этот инструмент позволяет выявить пробелы и определить приоритеты для редактирования в каждой языковой версии.
Развитие алгоритмов ИИ для анализа качества контента
Публикация такого масштабного и разнообразного набора данных облегчит разработку алгоритмов искусственного интеллекта для оценки качества текстов в интернете. Модели ИИ можно обучать на миллионах примеров статей вместе с их оценками качества, что позволит им научиться различать надёжный контент и менее обоснованные материалы. Такие системы автоматической оценки могут найти применение не только в Википедии, но и при фильтрации онлайн-информации — от обнаружения недостоверных статей до улучшения результатов поисковых систем на основе качества контента.
Полный набор данных доступен для скачивания на платформе Hugging Face.