Применение логистической регрессии в оценке качества информации на примере Википедии

Использование логистической регрессии в оценке качества данных может иметь особое значение в эпоху больших данных, где мы имеем дело со многими параметрами (переменными), описывающими данное явление или поведение. Расчет фактического значения информации позволяет устранить те параметры, которые не вносят большой вклад в описанное явление. Благодаря этому можно уменьшить информационный шум и сосредоточиться на тех параметрах, которые наилучшим образом характеризуют интересующее нас явление, что также может способствовать принятию правильных решений. Высокое качество переменных также способствует созданию моделей прогнозирования, которые позволяют предсказать, как конкретные данные повлияют на развитие явления. В статье представлено использование логистической регрессии при оценке параметров, описывающих качество статей, размещенных в Википедии в английской версии. Переменные были классифицированы в соответствии с полученным индексом ценности информации (IV) и оценены возможности прогнозирования. Исследование может быть отправной точкой для сравнения результатов с различными языковыми версиями Википедии.

Публикация (на польском) доступна на следующих веб-сайтах:

Polski
English
Русский