Моніторинги тем російської дезінформації

  1. Критика Зеленського, 9 травня, "Одеська трагедія"1—15 травня 2019 року
  2. Зеленський може стати "кривавим"27 травня — 2 червня 2019
  3. Вся увага на вибори 10—16 червня 2019
  4. В усьому винен Порошенко і Передвиборчий цирк 17—23 червня 2019 року
  5. Ще більше Медведчука24—30 червня 2019 року
  6. Медведчук і Шарій8—21 липня 2019 року
  7. Хід РПЦ в Україні, і знов Медведчук22—28 липня 2019 року

Методологія

Збір та обробка даних

Ми збирали новини з вибірки українських сайтів, у якій переважають так звані “зливні бачки”. Дані завантажували з RSS стрічок сайтів, або з посилань на їх сторінках у фейсбуці. Для кожної новини завантажили дату публікації, лінк, заголовок та повний текст. Далі визначили мову для кожного тексту та відібрали лише ті, які написані російською мовою. Вибір мови обумовлений тим, що більшість дезінформації російськомовна. Кожен текст підготовано до аналізу: токенізовано (розділено на одиниці мови - слова й розділові знаки), лематизовано для виявлення тем (приведено слова до нормальної, інфінітивної, форми), та складено словник слів у масиві даних новин.

З усіх новин класифіковано і відкинуто новини не про суспільно-політичне життя в Україні: спорт, погода, зіркове життя, іноземні новини. Таких матеріалів близько половини.

Виявлення маніпулятивних новин

Кожну новину оцінювала покращена версія класифікатора маніпулятивних новин: алгоритм додатково тренували на нових даних задля підвищення точності (попередня версія класифікатора). Він передбачає ймовірність того, що новина містить емоційні маніпуляції та/або хибну аргументацію. На новинах зі “зливних бачків”, сайтів з окупованих територій та видань з антиукраїнською позицією класифікатор знаходить 62% матеріалів, які містять хоча б один вид маніпуляції, при цьому хибно маркує як маніпулятивні 6% матеріалів. Тобто алгоритм радше пропускає маніпуляцію, ніж знаходить її там, де маніпуляцій немає.

Для дослідження тем вибрано лише маніпулятивні новини російською мовою з сайтів, на яких класифікатор виявив понад 10% маніпулятивних новин від загальної кількості матеріалів про суспільно-політичне життя в Україні.

До моніторингу потрапили наступні сайти: 112.ua, akcenty.com.ua, alternatio.org, anna-news.info, antifashist.com, antikor.com.ua, argumentua.com, argumentua.life, bbc-ccnn, begemot.media, bessarabiainform.com, beztabu.net, bin.ua, censoru.net, comitet.su, crisis.in.ua, dneprcity.net, donbass.ua, e-news.pro, e-news.su, elise.com.ua, expres.life, for-ua.life, from-ua.com, glavcom.life, glavk.info, glavred.life, golos.ua, hyser.com.ua, inform-ua.info, ipukr.com, ivasi.news, khersonline.net, kievpravda.com, kompromat1.news, kordon.org.ua, merezha.co, metayogg.com, mir-lug.info, most-dnepr.info, nahnews.org, naspravdi.info, nation-news.ru, newnews.in.ua, newsland.com, newsmir.info, newsonline24.com.ua, nk.org.ua, odessamedia.net, odnarodyna.org, onpress.info, osp-ua.info, person.org.ua, pl.com.ua, politeka.net, politica.com.ua, politnavigator.net, prioritet.org, proua.com.ua, prportal.com.ua, replyua.net, rnbee.com.ua, rupor.info, rusnext.ru, rusvesna.su, skelet-info.org, sobytiya.info, spichka.news, spzh.news, t.ks.ua, taras-ua.com, timer-odessa.net, u-news.com.ua, ua-banker.com.ua, ua24ua.net, uazmi.org, ukr.life, ukraina.ru, ukrainianwall.com, ukranews.life, verhovenstvo.com, versii.com, voskhodinfo.su, vybor.ua, укроп.org, znaj.ua, zrada.today

Розбиття за темами

Відібрані маніпулятивні новини, в середньому 3 тисячі матеріалів на тиждень, розбивали на теми тижня за допомогою автоматичного моделювання тем (NMF). Кластери новин, які отримали в результаті, редагували вручну: об’єднували схожі теми, відкидали нерелевантні або занадто загальні кластери, або ж теми, в яких не прослідковується російська дезінформація. Теми визначались автоматично, тому невелика частина новин може відноситись до теми помилково.

Кожну підтему ілюструє вибірка заголовків матеріалів, які класифікатор з високою ймовірністю визначив як маніпулятивні.

Для моніторингу ми з’єднали теми тижня у підтеми, які актуальні впродовж періоду моніторингу. Підтеми згрупували у мета-теми для узагальнення.