Википедия уже много лет основывается на одном из своих важнейших принципов — нейтральной точке зрения. В теории это означает, что каждая статья должна представлять факты без предвзятости. На практике, однако, достижение полной нейтральности является серьёзной задачей, особенно при наличии миллионов статей, создаваемых людьми со всего мира.
Недавно опубликованная научная работа под названием «Cross-Topic Sentiment Analysis of Wikipedia Articles: A Comparative Study of AI Models» показывает, как искусственный интеллект может помочь в анализе этой проблемы. Исследователи проанализировали около 7 миллионов статей англоязычной Википедии, пытаясь ответить на вопрос: действительно ли язык, используемый в этих текстах, является нейтральным?
На первый взгляд может показаться, что достаточно проверить, содержит ли текст положительные или отрицательные слова. Однако проблема гораздо сложнее. Статьи Википедии длинные и многоплановые, их стиль различается в зависимости от области (например, политика или квантовая физика), а иногда они описывают спорные темы. Это означает, что даже тонкие различия в формулировках могут указывать на предвзятость, даже если в тексте нет явно эмоционально окрашенных слов.
В рамках исследования были использованы несколько различных подходов к анализу языка:
- лексиконные модели, такие как TextBlob и VADER, основанные на готовых списках слов,
- современные языковые модели, основанные на архитектуре трансформеров, такие как RoBERTa и DistilBERT.
Результаты показывают, что нейтральность Википедии неоднородна — она различается между различными областями знаний. Выбор модели может существенно повлиять на оценку текста, а в случае длинных и сложных статей необходимо объединять оценки, полученные для меньших фрагментов. Результаты также могут иметь практическое применение. Например, улучшение контроля качества Википедии: автоматические системы могли бы выявлять фрагменты, отклоняющиеся от нейтральности, помогая редакторам быстрее их исправлять. Ещё одно применение — борьба с дезинформацией: аналогичные методы можно использовать для анализа интернет-статей и выявления предвзятых или манипулятивных материалов. Такие технологии могут помочь пользователям интернета лучше понимать, когда текст является объективным, а когда он пытается повлиять на их мнение.
Одним из важнейших результатов исследования является общедоступный набор данных, размещённый на платформе Hugging Face, который содержит оценки тональности, присвоенные различными моделями примерно для 7 миллионов статей англоязычной Википедии. Также были опубликованы дополнительные материалы, позволяющие лучше понять, как именно проводился анализ.
Научная работа была представлена на конференции IJCAI 2025. Публикация доступна по DOI: 10.1007/978-3-032-18920-2_34.