English

Моніторинги тем російської дезінформації

Методологія

Збір та обробка даних

Ми збирали матеріали з вибірки (1) українських сайтів-клікбейтів, (2) російських сайтів, орієнтованих на українську тематику, (3) великих російських сайтів та (4) провідних українських медіа. З перших двох типів сайтів до моніторингу потрапляють тільки маніпулятивні матеріали, а з великих українських та російських сайтів — всі матеріали, їх не перевіряли на маніпулятивність. Теми і матеріали на українських сайтах наведені для порівняння, більшість з них не є маніпулятивними.

Дані завантажували з RSS стрічок сайтів. Для кожної новини завантажили дату публікації, лінк, заголовок та повний текст. Далі визначили мову для кожного тексту та відібрали лише ті, які написані російською. Вибір мови обумовлений тим, що більшість дезінформації російськомовна. Кожен текст підготовано до аналізу: токенізовано (розділено на одиниці мови — слова й розділові знаки), лематизовано для виявлення тем (приведено слова до нормальної, інфінітивної, форми), та складено словник слів у масиві даних новин.

З усіх новин класифіковано і відкинуто ті, що не стосуються суспільно-політичного життя в Україні: спорт, погода, поп-зірки, ДТП, іноземні новини. Таких матеріалів близько половини від усіх, що ми завантажуємо.

Виявлення маніпулятивних новин

Кожнем матеріал оцінювала покращена версія класифікатора маніпулятивних новин: алгоритм додатково тренували на нових даних задля підвищення точності (попередня версія класифікатора). Він передбачає ймовірність того, що новина містить емоційні маніпуляції та/або хибну аргументацію. На новинах зі «зливних бачків», сайтів з окупованих територій та видань з антиукраїнською позицією класифікатор знаходить 62% матеріалів, які містять хоча б один вид маніпуляції, при цьому хибно маркує як маніпулятивні 6% матеріалів. Тобто алгоритм радше пропускає маніпуляцію, ніж знаходить її там, де маніпуляцій немає.

Категорію маніпулятивних сайтів формували з тих сайтів, де класифікатор виявив понад 10% маніпулятивних новин від загальної кількості матеріалів про суспільно-політичне життя в Україні. З цих сайтів-клікбейтів і російських сайтів, спрямованих на українську тематику, до моніторингу надходять лише маніпулятивні матеріали. Теми для матеріалів з провідних українських сайтів показано для всіх новин, не тільки для маніпулятивних.

Сайти моніторингу

  • 68 російських сайтів, орієнтованих на українську тематику (лише маніпулятивні матеріали): 3652.ru, 3654.ru, 8692.ru, anna-news.info, antifashist.com, antimaydan.info, c-inform.info, comitet.su, crisis.in.ua, delovoydonbass.ru, dnr-lnr.info, dnr-pravda.ru, dnr24.com, dnr24.su, donbasstoday.ru, doneck-news.com, dontimes.ru, dosie.su, e-gorlovka.com.ua, e-news.su, evening-crimea.com, free-news.su, fresh.org.ua, fromdonetsk.net, front-novorossii.ru, gorlovka.today, jankoy.org.ua, kafanews.com, komtv.org, kv-journal.su, lgt.su, luga1news.ru, lugansk1.info, meridian.in.ua, metayogg.com, miaistok.su, mir-lug.info, mnyug.com, mozaika.dn.ua, nahnews.org, naspravdi.info, newc.info, news-front.info, newsland.com, nk.org.ua, novorosinform.org, novorossiy.info, novosti.icu, on-line.lg.ua, patriot-donetsk.ru, pohnews.org, politnavigator.net, pravdanews.info, ruinformer.com, rusdnepr.ru, rusnext.ru, russian-vesna.ru, rusvesna.su, sevastopol.su, sevnews.info, sobytiya.info, svodki24.ru, time-news.net, ukraina.ru, voenkor.info, voskhodinfo.su, vsednr.ru, xvesti.ru
  • 70 українських онлайн-видань, де виявлено понад 10% маніпулятивних новин від усіх новин про Україну (лише маніпулятивні матеріали): 112.ua, agrimpasa.com, aif.ua, akcenty.com.ua, antikor.com.ua, baza-pravda.in.ua, bbcccnn.com.ua, begemot.media, bessarabiainform.com, censoru.net, dialog.ua, expres.life, finoboz.net, fraza.ua, from-ua.com, glavcom.life, glavk.info, glavred.info, glavred.life, golos.ua, hpib.life, hyser.com.ua, inforesist.org, inform-ua.info, informator.news, ivasi.news, jizn.info, khersonline.net, kompromat1.info, kompromat1.news, kordon.org.ua, korr.com.ua, kyiv.press, lifedon.com.ua, mignews.com.ua, newnews.in.ua, news247.com.ua, newsmir.info, onpress.info, podrobnosti.ua, politeka.net, politica.com.ua, pravda.rv.ua, prioritet.org, proua.com.ua, replyua.net, rupor.info, sharij.net, skelet-info.org, spektrnews.in.ua, spichka.news, spzh.news, strana.ua, t.ks.ua, timer-odessa.net, ua24ua.net, ukr.life, ukrainianwall.com, ukranews.com, ukranews.life, ukrrudprom.ua, vesti-ukr.com, vesti.ua, voi.com.ua, vremya.com.ua, vybor.ua, vz.ua, xn--j1aidcn.org, zik.ua, znaj.ua
  • 17 великих українських онлайн-видань (всі матеріали): 24tv.ua, bykvu.com, censor.net.ua, fakty.com.ua, fakty.ua, gordonua.com, interfax.com.ua, lb.ua, liga.net, nv.ua, pravda.com.ua, rbc.ua, segodnya.ua, tsn.ua, ukrinform.ru, unian.net, zn.ua
  • 16 великих російських видань (всі матеріали): aif.ru, dni.ru, kommersant.ru, kp.ru, lenta.ru, lentainform.com, life.ru, newsru.com, pravda.ru, regnum.ru, riafan.ru, russian.rt.com, slovodel.com, svpressa.ru, tass.ru, vz.ru

Як визначали теми

Відібрані маніпулятивні новини, в середньому 3 тисячі матеріалів на тиждень, розбивали на теми тижня за допомогою автоматичного моделювання тем (NMF). Алгоритмом, яким визначали теми в маніпулятивних матеріалах, шукали теми серед матеріалів на російських великих сайтах і в українських новинах. Кластери (групи) новин, які отримали в результаті, редагували вручну: об’єднували схожі теми, відкидали нерелевантні або занадто загальні кластери, або ж теми, в яких не прослідковується російська дезінформація. Ці теми-кластери за тиждень новин ми описуємо у випусках моніторингу. Для цього дашборду теми тижня згрупували у мета-теми для узагальнення.

На основі мета-тем алгоритму кластеризації та тем, визначених аналітиками вручну, розробили класифікатор, який визначає, до якої мета-теми та її підтеми відноситься новина. Вони визначались автоматично, тому невелика частина новин може відноситись до теми помилково.

Кожну підтему ілюструє вибірка заголовків матеріалів. Для матеріалів з російських сайтів і для українських не-маніпулятивних новин це випадкова вибірка матеріалів за регулярні проміжки часу. Для матеріалів з сайтів-клікбейтів та антиукраїнських російських сайтів вибирали матеріали, яким алгорим пошуку маніпулятивних новин призначив високу ймовірність маніпулятивності.