На сайте издательства Elsevier опубликована исследовательская работа по автоматическому выявлению важных источников информации по конкретным темам в многоязычной Википедии на основе анализа более 230 миллионов примечаний (сносок). В рамках данного исследования были представлены различные модели автоматической оценки источников информации, которые учитывают частоту встречаемости исследуемых источников, популярность контента у редакторов и читателей Википедии.
Для проведения исследований статьи Википедии были разделены на 70 тем разного уровня абстракции, охватывающих такие области, как культура, география, история, общество, наука, технологии, инженерия и математика. Имея информацию о примечаниях, извлеченную из отдельных статей Википедии, можно проверить, насколько хорошо отдельные темы Википедии содержат проверяемую информацию в разных языковых версиях. На рисунке ниже показаны значения плотности ссылок для каждой из 70 тем Википедии и 42 языковых версий.
Кроме того, в рамках исследования были выявлены научные источники информации, что позволило определить различия между языковыми версиями по значению показателя Sci. Например, в самой обширной англоязычной версии Википедии доля научных источников информации составляет около 2,6 %, в польской версии — 0,76 %, в русской — 1,19 %, в немецкой — 1,2 %, во французской — 1,12 %. %, испанский — 1,44 %, китайский — 0,74 %, японский — 1,08 %, арабский — 2,86 %.
Результаты научного исследования были представлены на конференции KES 2022. Публикация доступна по адресу: doi.org/10.1016/j.procs.2022.09.387