Ну ось ви отримали ваші дані – і що тепер з ними робити? Що в них шукати? Які інструменти застосовувати? Цей розділ починається з кількох ідей, як покращити вашу обізнаність щодо даних, підказок, як працювати з цифрами та статистикою, та тих речей, які слід мати а увазі, працюючи із невпорядкованими, недосконалими та часто не задокументованими наборами даних. Далі ми навчимося, як вишукувати в даних сюжети для статей, дізнаємося про улюблений інструментарій журналістів даних і про те, як використовувати візуалізацію даних, щоб глибше проникнути в тему, яку ви досліджуєте.
Дані для чайників: лікнеп за три прості кроки
Так само, як слово «грамотність» означає «здатність читати й отримувати з прочитаного знання, логічно писати та критично осмислювати друкований матеріал», грамотність у даних - це здатність використовувати дані для пошуку знань, створювати логічні дані та критично осмислювати їх. Вона включає обізнаність у статистиці, а крім цього, розуміння, як працювати з великими наборами даних, як вони були створені, як поєднувати різні набори даних та як їх інтерпретувати.
Ілюстрація 68. Копаючи дані (JDHancock)
Університет журналістики Пойнтера (Poynter’s News University) пропонує курси з математики для журналістів, на яких репортери отримують допомогу в розумінні таких понять, як процентні зміни та середні числа. Вельми цікаво, що ці ж поняття в той же час викладають поблизу від приміщення університету, у школах Флориди, для учнів п’ятих класів (віком 10-11 років), як про це свідчить навчальна програма.
Те, що журналісти потребують допомоги по темах з математики, які зазвичай вивчаються у середніх класах школи, показує, наскільки далекі редакції від грамотності в даних. І тут не обходиться без проблем. Як може журналіст даних використати групу цифр по темі глобального потепління, якщо він не знає, що таке довірчий інтервал?
Як може репортер даних писати статтю про розподіл рівня доходів, якщо він не може відрізнити середнього значення від медіани?
Журналістові й справді не потрібно мати вищу статистичну освіту, щоб ефективніше працювати з даними. Коли маєш справу з цифрами, то кілька простих прийомів можуть допомогти у написанні значно кращої публікації. Як каже професор інституту Макса Планка Герд Гігеренцер, кращі інструменти не гарантують кращої журналістики, якщо використовувати їх без розуміння суті.
Навіть якщо у вас нема жодних знань із математики та статистики, ви легко можете стати загартованим журналістом даних, якщо поставите собі три прості питання.
1. Як були зібрані дані
Дивовижне зростання ВВП
Найлегший спосіб похизуватися ефектними даними – це сфабрикувати ці дані. Це звучить банально, але такі часто цитовані дані, як, наприклад, дані про валовий внутрішній продукт (ВВП), цілком можуть бути підробленими. Колишній посол Британії в Узбекистані Крейг Мюррей свідчить в своїй книзі «Вбивство в Самарканді» про те, що рівень росту ВВП в Узбекистані є предметом інтенсивних переговорів між місцевим урядом та міжнародними установами. Інакше кажучи, вони не мають нічого спільного з місцевою економікою.
ВВП використовують в якості індикатора номер один, тому що він потрібний урядам для відстеження їхнього головного джерела доходів - податку на додану вартість. Якщо уряд не фінансується з ПДВ, або якщо бюджет такого уряду не є публічним, в нього нема жодного резону збирати дані про ВВП, і краще просто їх сфабрикувати.
Злочинність завжди зростає
«Кримінал у Іспанії виріс на три відсотки», - пише видання «Ель Паіс». «Брюссель став жертвою росту злочинності серед нелегальних мігрантів та наркоманів», - повідомляє RTL. Така репортерська практика, що базується на зібраній поліцією статистиці, є типовою, але вона мало що повідомляє про справжній рівень насильства.
Ми можемо довіряти даним Європейського Союзу, вони не підроблені. Але на поліційну статистику впливає система заохочень. Якщо якість роботи поліціянта визначають за кількістю затримань, він схильний повідомляти якомога більше про інциденти, які не вимагають розслідування. Зразок такого злочину – це паління марихуани. Цим пояснюється те, чому у Франції злочини, пов’язані з наркотиками, зросли вчетверо за останні 15 років, тоді як рівень споживання наркотиків залишався незмінним.
Що ви можете зробити
Якщо ви сумніваєтеся у достовірності цифр, завжди проводьте подвійну перевірку, так само, як ви б це робили, маючи справу з цитатою слів політика. У випадку з Узбекистаном достатньо буде телефонного дзвінка будь-кому, хто прожив там певний час («Чи справді виглядає так, що країна стала втричі багатшою порівняно з 1995 роком, як про це кажуть офіційні цифри?»).
У випадку з даними поліції соціологи часто проводять дослідження віктимізації, у яких запитують людей, чи ставали вони жертвами злочину. Дані цих досліджень набагато стійкіші, ніж дані поліції. Можливо, саме з цієї причини ці дані не потрапляють до заголовків публікацій.
Є інші засоби точного встановлення достовірності даних, такі як закон Бенфорда, але ніякий із них не замінить вашого власного критичного мислення.
2. Чому це нас учить?
Ризик розсіяного склерозу подвоюється для тих, хто працює вночі
Безперечно, будь-який адекватний німець перестане працювати в нічні зміни,прочитавши такий заголовок. Але стаття не повідомляє нам, який ризик тут існує насправді.
Візьмімо 1000 німців. Один із тисячі протягом життя захворіє на розсіяний склероз. Тепер, якщо кожен із цієї 1000 німців працював би в нічну зміну, кількість випадків розсіяного склерозу зросла б з 1 до 2. Додатковий ризик захворіти на РС, працюючи позмінно, становить 1 на 1000, а не 100%. Зрозуміло, що така інформація значно корисніша для тих, хто обдумує своє працевлаштування.
В середньому один з п’ятнадцяти європейців є повністю неграмотним
Наведений вище заголовок викликає жах. І він абсолютно правдивий. Із 500 мільйонів європейців десь 36 мільйонів не вміють читати. І ці 36 мільйонів також мають вік до 7 років (дані Євростату).
Коли ви пишете про щось середньостатистичне, завжди думайте – «середньостатистичне щодо чого»? Чи є відповідне населення однорідним за складом? Нерівномірний розподіл пояснює, наприклад, те, чому більшість людей водить авто краще, ніж вказують середньостатистичні показники. Більшість людей за все життя або взагалі не потрапляють в аварію, або потрапляють лише один раз. А в небагатьох необережних водіїв аварій багато, і це піднімає середній рівень аварійності значно вище, ніж це трапляється з більшістю людей. Те ж саме правдиве для розподілу доходів: більшість людей заробляє менше, ніж середньостатистичний дохід.
Що ви можете зробити
Завжди беріть до уваги показники розподілу та бази. Перевірка середнього та медіанного значення, так само як і моди ) (найчастотніше значення в розподілі) допоможе вам краще зрозуміти дані. Знання порядку величини полегшує розуміння контексту, як у випадку з розсіяним склерозом. І насамкінець, використання у статті натуральних частот (один зі ста) значно легше сприймається читачем, ніж процентні дані (1%).
3. Наскільки надійною є інформація?
Проблема з розміром вибірки
«80% людей незадоволені судовою системою», - йдеться в дослідженні, про яке пише видання Diaro de Navarra із Сарагоси. І як можна екстраполювати 800 опитаних осіб на 46 мільйонів іспанців? Кожному ясно, що все це порожня балаканина.
Зовсім ні. Коли ви проводите статистичне дослідження серед значної кількості людей (понад кілька тисяч), вам рідко коли знадобиться більше тисячі респондентів, щоб отримати рівень похибки нижче 3%. Це означає, що якщо ви повторите опитування на цілком іншій вибірці, то в 9 випадках з 10 отримані відповіді будуть в межах 3% інтервалу з результатами, які ви отримали першого разу. Статистика – це потужна штука, і рідко коли вину за сумнівні результати опитувань можна покласти на розмір вибірки.
Пиття чаю знижує ризик інфаркту
Статті про корисність пиття чаю трапляються повсякчас. Ця коротка замітка в Die Welt, де йдеться, що чай знижує ризик інфаркту міокарду, не є винятком. І хоч ефекти від вживання чаю ретельно вивчалися, багато з досліджень не беруть до уваги фактори стилю життя, такі, як дієта, рід діяльності чи заняття спортом.
У більшості країн чай п’ють представники вищого класу, які дбають про своє здоров’я. Якщо дослідники не враховують фактори стилю життя під час дослідження впливу чаю, вони неспроможні сказати нічого більше, ніж «багаті люди мають краще здоров’я – і вони, імовірно, п’ють чай».
Що ви можете зробити
Математика, що стоїть за кореляціями та рівнем похибки у дослідженні впливу чаю, є зазвичай вірною, принаймні у більшості випадків. Але якщо дослідники не беруть до уваги взаємні кореляції (наприклад, пиття чаю корелює із заняттям спортом), їхні результати матимуть невисоку цінність.
Журналістам нема сенсу сумніватися в кількісних результатах статистичних досліджень, таких, як розмір вибірки, - хіба що в них є серйозні підстави для цього. Втім, легко виявити, що дослідники не взяли до уваги важливі компоненти інформації.
Ніколя Кайзер-Бріл, Journalism++
Достарыңызбен бөлісу: |