На сайте издательства IEEE опубликована исследовательская работа по автоматической идентификации авторитетных и надежных источников информации о компаниях в многоязычной Википедии. Модели оценки источников информации, представленные в исследовательской работе, могут помочь пользователям Интернета найти ценные источники информации о компаниях, используя открытые данные из Википедии, Викиданных и DBpedia.
Сначала были определены примечания (источники информации) в каждой из рассматриваемых языковых версий Википедии. Например, для русскоязычной Википедии количество полученных примечаний составило около 13,6 млн (в том числе 9,9 млн уникальных), для англоязычной Википедии — около 70,3 млн (в том числе 52 млн уникальных). Затем были отобраны статьи Википедии о компаниях из более чем 40 различных языковых версий с использованием семантических баз знаний, таких как DBpedia и Викиданные. Из этих статей были отобраны и оценены источники информации на основе 5 описанных моделей.
Викиданные
База семантических знаний Викиданные работает аналогично Википедии с одним заметным отличием: здесь мы можем помещать факты об объектах в утверждениях содержащих свойства и значения, а не в предложениях на естественном языке. Каждый элемент Викиданных содержит набор различных утверждений, расположенных в форме «Тема-Высказывание-Объект» (для Викиданных это «Элемент-Свойство-Значение»). Например, информацию о компании «Газпром» можно найти на отдельной странице в Викиданных:
На приведенной выше странице мы можем найти факты, которые описываются с использованием различных свойств. Например, следующие операторы являются результатом операторов, которые связаны свойством P31 («это частный случай понятия») с другими объектами (идентификатор объекта указан в скобках):
- Газпром — это частный случай понятия — государственное предприятие (Q270791)
- Газпром — это частный случай понятия — бизнес (Q4830453)
- Газпром — это частный случай понятия — компания (Q783794)
- (и другие…)
Викиданные также считаются центральной платформой управления данными для Википедии и большинства родственных проектов. Это означает, что через Викиданные мы можем найти ссылки на статьи Википедии на разных языках, описывающие один и тот же объект. Таким образом, имея список элементов Викиданных определенного типа (например, компаний), мы также можем найти соответствующие названия статей Википедии.
В настоящее время Викиданные содержат более 100 миллионов элементов (описываемых объектов), а количество статей Википедии во всех языковых версиях составляет около 60 миллионов. Это означает, что не каждый элемент Викиданных должен ссылаться на отдельную статью Википедии по определенной теме.
Если оставить только те элементы Викиданных, которые связаны хотя бы с одной статьей Википедии, наиболее часто используемые значения в рамках свойства P31 («это частный случай понятия») можно представить в виде следующего облака значений (собственные расчеты в 2022 году):
На приведенном выше рисунке были исключены следующие значения: Q4167410 («страница значений в проекте Викимедиа»), Q13406463 («статья-список в проекте Викимедиа»), Q22808320 («имя-неоднозначность»), Q18340514 («хроника в Википедии»).
DBpedia
Семантическая база знаний DBpedia автоматически пополняется за счет структурированной информации из статей Википедии на разных языках. Полученные знания по заданной теме доступны на отдельной странице. Например, такие семантические данные о компании «Газпром», как ресурс DBpedia, извлеченные из англоязычной Википедии, можно найти по адресу:
На таких страницах DBpedia среди различных свойств мы также можем найти информацию о типе(ах) описываемого объекта. Для нашего примера DBpedia указывает, что объект относится к таким классам, как: dbo:Organisation, dbo:Company и другим. Имея названия интересующих нас классов, мы можем найти в DBpedia все объекты определенного типа.
Наиболее часто используемые классы из онтологии DBpedia показаны на следующем рисунке (собственные расчеты в 2022 году):
Результаты исследования были представлены на конференции FedCSIS 2022. С научной публикацией можно ознакомиться на сайтах IEEE и ACSIS.