С момента основания и роста популярности Википедии появляется все больше и больше научных публикаций в области качества ее содержания. Одно из первых исследований связанных с автоматической оценкой качества Википедии — «Assessing information quality of a community-based encyclopedia» (авторы: Besiki Stvilia, Michael B. Twidale, Linda C. Smith, Les Gasser).
Эта работа показала, что измерение объема содержимого может помочь в определении степени «зрелости» статьи. В работе описывается методология построения метрик и результатов испытаний, вместе со статистическими характеристиками статей Википедии.
Исследования проводились на статьях английской версии Википедии. Исследовались такие параметры как:
- Длина статьи (количество символов)
- Количество внутренних ссылок
- Количество нерабочих внутренних ссылок
- Количество внешних ссылок
- Количество иллюстраций
- Информационный шум
- Индекс удобочитаемости Флеша
- Индекс удобочитаемости Кинкейда
- Количество правок статьи
- Общее количество отмен правок
- Количество уникальных авторов
- Разнообразие (Количество уникальных авторов / общее число правок)
- Доля администраторских правок (количество администраторских правок / общее количество правок)
- Количество правок анонимных пользователей
- Медиана времени отмены правок (в минутах)
- Актуальность (разница во времени между датой архива и датой последнего обновления статьи)
- Возраст статьи (в днях)
а также измерений:
- Авторитетность/Репутация авторов статьи
- Полнота статьи
- Сложность текста статьи
- Информативность статьи
- Согласованность статьи
- Актуальность статьи
- Изменчивость статьи
С научной работой можно ознакомиться тут.
С более современными исследованиями в области автоматической оценки качества информации в Википедии на в разных языковых версиях можно ознакомиться на странице Публикации.