Твиттер как источник новостей: как определить их правдивость?
Группа индийских ученых сделала шаг к тому, чтобы автоматически распознавать истинные и ложные сообщения о важных событиях в Твиттере. Очевидно, что такой результат может быть полезен для начального получения достоверной информации из мест, куда СМИ еще не успели добраться.
Ученые создали модель стандартным образом: сначала сделали анализ большого количества реальных твиттов по различным ежедневным новостям, и классифицировали их на предмет правдивости. Затем применили один из алгоритмов «машинного обучения» для классификации новых твиттер-сообщений.
Согласно модели исследователей, для определения правдивости наиболее важны следующие факторы:
— количество уникальных символов в сообщении, чем их больше, тем больше достоверность;
— личные местоимения и бранные слова уменьшают вероятность того, что сообщение достоверное;
— некоторое количество счастливых «смайлов» и высокое количество «печальных» является сильным индикатором объективности;
— другие важные приметы достоверности — наличие в сообщении URL, большое количество фолловеров у автора сообщения и наличие слов, указывающих на негативные эмоции,
Модель, как все и всегда, является действительной до того момента, пока авторы фальшивых сообщений не примут во внимание ее рекомендации.