• Найкраща рекомендація по роботі з даними - отримуйте від цього задоволення. Дані можуть здаватися чимось неприступним. Але дозвольте їм залякати вас, і ви нічого не досягнете. Поводьтеся з ними як з об’єктом гри та досліджень, і вони з дивовижною легкістю відкриють вам свої таємниці та сюжети для статей.
Тож поводьтеся з ними так само, як ви поводитеся з іншими фактами, без страху чи благоговіння. Зокрема, трактуйте їх як вправа на розвиток уяви. Будьте креативними, придумуючи альтернативні сюжети, які можуть відповідати цим даним і краще пояснюватися ними, а тоді перевіряйте ці сюжети на предмет додаткових доказів. «Який інший сюжет може це пояснити?» - корисне привід подумати над тим, як ця цифра, ця очевидно завелика або неправильна цифра, цей безсумнівний доказ того чи цього може насправді не бути ні тим, ні іншим.
• Не плутайте скептичне ставлення до даних із цинічним ставленням. Скептицизм – це корисно, цинізм – це коли ви просто склали руки й здалися. Якщо ви вірите в журналістику даних, а це саме так, інакше б ви не читали цю книгу, тоді ви маєте вірити що дані – це щось значно краще, ніж просто брехня та велика брехня з відомого вислову, або шокуючі факти для сенсаційних заголовків. Дані часто дають нам глибокі знання, якщо користуватися ними ретельно. Нам не слід бути ні цинічними, ні наївними, але пильними.
• Якщо я повідомлю вам, що під час економічної кризи зріс рівень пияцтва, ви можете відповісти мені, що причиною цього є загальна депресія. Якщо я скажу, що рівень пияцтва знизився, ви можете сказати, що це через брак коштів у людей. Іншими словами, те, про що говорять дані, нічого не змінює в тій інтерпретації, яку ви маєте намір застосувати, а саме – що справи так чи інакше є жахливими. Якщо дані показують зростання – це погано, якщо спад – це теж погано. Ідея тут ось яка: якщо ви вірите в дані, то дайте їм сказати своє слово до того, як почне говорити ваш настрій, переконання чи очікування. Навколо є стільки даних, що ви зазвичай зможете знайти підтвердження ваших початкових переконань, якщо трохи пошукаєте. Інакше кажучи, журналістика даних, принаймні для мене особисто, має невелику цінність, якщо журналіст при цьому не має широких поглядів. Вона об’єктивна рівно настільки, наскільки ви намагаєтеся зробити її об’єктивною, а не тому, що базується на цифрах.
• Непевність - це не проблема. Ми асоціюємо цифри з чимось авторитетним та однозначним. Проте так само часто відповіддю на питання є те, що відповіді нема, або найкраща знайдена нами відповідь ні в які ворота не пролазить у сенсі точності. Я гадаю, що про це треба говорити відверто. Якщо це виглядає як вірний спосіб знищення теми статті, то я заперечу, що це вірний спосіб ставити нові питання. Так само може існувати більш ніж один прийнятний спосіб компонувати дані. Цифри не повинні бути або правдивими, або неправдивими.
• Розслідування – це теж сюжет для статті. Із історії про те, як ви намагалися про щось довідатися і як просувалися від одного доказу до іншого, може вийти чудова журналістика – і це ж іще більшою мірою стосується доказів, отриманих із даних, де одної цифри рідко буває достатньо. Різні джерела створюють нові кути розгляду, нові ідеї, глибше розуміння. Варто поміркувати, чи не занадто ми поведені на тому, щоб бути авторитетними і повідомляти людям готову відповідь – і тим самим позбавляємо себе шансу показати їм хід наших пошуків.
• Найкращі питання – це найдавніші питання: а чи справді ця цифра позначає щось велике? Звідки вона взялася? Ви впевнені, що вона називає кількість саме того, що ви мали на увазі? Це загалом лише пропозиція подумати над даними, подумати про те, що не вписується в картину, якщо розглядати лише одну цифру, про ускладнення, властиві реальному життю, про широкий діапазон інших можливих порівнянь на інших часових проміжках, про географічні особливості; коротше кажучи, подумати про контекст.
Майкл Бластленд, журналіст-фрилансер
Основні етапи роботи з даними
Є принаймні три головні принципи, які вам слід усвідомити, починаючи проект із журналістики даних:
-
Перш ніж надсилати запит про дані, підготуйте список питань, на які ви хочете отримати відповідь.
-
Дані часто є невпорядкованими і потребують очистки.
-
Дані можуть містити незадокументовані особливості.
Ілюстрація 69. Невпорядковані дані
Знайте питання, на які хочете отримати відповідь
Багато в чому робота з даними подібна до інтерв’ю з живою людиною. Ви ставите даним запитання і отримуєте дані, щоб з’ясувати відповіді. Але так само як людина, в якої ви берете інтерв'ю, може відповісти лише про те, про що в нього або неї є інформація, так і набір даних може відповісти лише на ті запитання, щодо яких є відповідні записи й відповідні змінні в базі даних. Це означає, що вам треба ретельно зважити, на які питання вам слід знайти відповідь, перш ніж ви почнете добувати ваші дані. Загалом це «робота навпаки». Спочатку складіть список підкріплених даними тверджень, які ви хочете включити до вашої публікації. Тоді вирішіть, які цифри та записи бази даних вам слід отримати та проаналізувати, щоб зробити ці твердження.
Розглянемо як приклад дані про місцеву злочинність. Припустимо, що ви хочете написати статтю, яка розглядає типові закономірності злочинів у вашому місті, і твердження, які ви хочете зробити, включають дані про час доби та день тижня, у який найчастіше трапляються різні види злочинів, так само як і те, які райони міста є «гарячими зонами» щодо різних категорій злочинів.
Ви усвідомите, що ваш запит про дані повинен включати в себе дату та час повідомлення про злочин, вид злочину (вбивство, крадіжка, пограбування тощо), а також адресу місця скоєння злочину. Тож, Дата, Час, Категорія злочину та Адреса – це той мінімальний обсяг змінних, які потрібні вам, щоб отримати відповіді на ваші запитання.
Але майте на увазі, що є набір потенційно цікавих запитань, на які ваш набір даних із чотирьох змінних НЕ МОЖЕ ВІДПОВІСТИ, такі як раса та стать постраждалих, повна вартість вкраденого майна, або які офіцери поліції здійснюють найбільше арештів. Ви також, можливо, отримаєте записи лише щодо певного періоду часу, наприклад, за останні три роки, і це означатиме, що ви нічого не зможете сказати про те, чи змінювалися типові закономірності скоєння злочинів протягом довшого періоду часу. Ці запитання можуть не входити до «поля зору» вашої статті, і тоді все гаразд. Але вам навряд чи захочеться зануритися в аналіз даних і раптово вирішити, що вам потрібно знати, який відсоток злочинів у різних частинах міста закінчується арештом.
Звідси урок: часто виглядає гарною ідеєю робити запит про ВСІ змінні та записи в базі даних, а не про витяг з неї, який може дати відповіді до вашої поточної статті (насправді отримання всіх даних є дешевшим, ніж отримання вибірки, якщо вам доведеться платити агенції за програмування, пов’язане з вилученням цієї вибірки). Ви завжди можете отримати вибірку даних самостійно, а маючи доступ до повного набору даних, зможете знайти відповідь на нові запитання, які можуть постати під час вашої роботи над матеріалом, і навіть згенерувати нові ідеї для статей-продовжень. Може статися так, що деякі конфіденційні дані, такі, як імена жертв чи таємних інформантів поліції, за законом заборонено оприлюднювати. Але навіть часткова база даних значно краща, ніж ніякої бази даних взагалі, принаймні доти, доки ви розумієте, на які запитання ця відредагована база даних може дати відповідь, а на які ні.
Очистка невпорядкованих даних
Одна з найбільших проблем роботи з базами даних – це те, що повсякчас вам доведеться використовувати для аналітичних потреб дані, зібрані для бюрократичних потреб. І проблема тут в тому, що стандарт точності для цих двох потреб є цілком відмінним.
Наприклад, основна функція бази даних системи кримінального правосуддя – це подбати, щоб обвинувачуваного Джонса доправили з в’язниці до судді Сміта у час розгляду справи. Для цієї мети не має великого значення те, що дата народження Джонса вказана неточно, що в назві вулиці помилка, або навіть те, що ініціали по батькові наведені невірно. Загалом система може використовувати навіть ці неідеальні дані, щоб доправити Джонса до суду під головуванням Сміта у призначений час.
Але такі помилки можуть спотворити спроби журналіста знайти певні узагальнення в цій базі даних. Через це найперша велика справа, яку вам слід зробити, отримавши нову базу даних, - це перевірка, наскільки впорядкованими є дані в ній, і виправлення цих даних. Гарний швидкий спосіб знаходити ці невпорядкованості – це створити таблицю частот категоріальних змінних, тих, які, як очікується, матимуть порівняно невелику кількість відмінних значень (використовуючи Excel, наприклад, це можна зробити за допомогою функцій Filter чи Pivot Tables по кожній із категоріальних змінних.
Розглянемо поле бази даних «Стать», це легкий приклад. Ви можете виявити, що ваше поле «Стать» містить будь-який із перелічених варіантів значень: наприклад, Чоловіча, Жіноча, Ч, Ж, 1, 0, ЧОЛОВІЧА, ЖІНОЧА тощо, включно з помилковим написанням, напр. «жиноча». Інша відома база даних, де спостерігаються подібні проблеми, - це записи фінансування виборчих кампаній в США. Тут у полі «Фах» може стояти «Юрист», «Адвокат», «Адв», «Правник» та аналогічне розмаїття варіацій та помилок правопису; знову ж таки, весь сенс у тому, щоб стандартизувати назви фаху, привівши їх до коротшого списку варіацій.
Очистка даних стає навіть більш проблематичною, коли справа доходить до імен. Чи є «Джозеф Т. Сміт», «Джозеф Сміт», «Т.Дж. Сміт», «Джоз. Сміт» та «Джо Сміт» однією й тією ж особою? Можливо, вам доведеться переглянути інші змінні, такі як адреса чи дата народження, або навіть провести глибше дослідження інших записів бази даних, щоб це з’ясувати. Але інструменти на зразок Google Refine можуть зробити завдання з очистки та стандартизації більш швидким та менш марудним.
Дані можуть містити незадокументовані особливості
Розетським каменем будь-якої бази даних є так званий словник даних. Зазвичай, цей файл (це може бути текстовий файл чи PDF, а може навіть й електронна таблиця) повідомить вам, як відформатовано файл із даними (текст із розмежуванням, текст у колонці, таблиця Excel, база даних dBase, тощо), послідовність полів, назву кожного поля та тип кожного поля (текстовий, ціле число, десяткове число тощо). Ця інформація допоможе вам правильно імпортувати файл із даними у аналітичну програму, яку ви хочете застосувати (Excel, Access, SPSS, Fusion Tables, будь-які з варіацій бази даних SQL, тощо).
Інший ключовий елемент словника даних – це пояснення усіх кодів, застосованих для певних полів. Наприклад, поле «Стать» може бути закодованим так, що 1 означає «Чоловіча», 0 – «Жіноча». Злочини можуть бути закодовані відповідно до статей кримінального кодексу по кожному виду злочину. Записи в базі даних лікарні можуть використовувати сотні 5-символьних цифрових кодів, що вказують на діагнози пацієнта, який проходив курс лікування. Без словника даних ці набори даних важко або навіть неможливо аналізувати належним чином.
Але навіть якщо словник даних у вас під рукою, можуть виникнути проблеми. Подібне сталося з репортерами флоридської газети Miami Herald кілька років тому, коли вони проводили аналіз відмінностей у важкості покарань, які різні судді призначали особам, заарештованим за водіння під дією алкоголю чи наркотиків. Журналісти отримали записи про покарання від судової установи та аналізували цифри за трьома полями із словника даних: тривалість тюремного присуду, тривалість попереднього ув’язнення та розмір штрафу. Ці цифри суттєво відрізнялися в різних суддів, даючи репортерам фактаж для статті про те, що деякі судді є суворими, а деякі – поблажливими.
Втім, близько 1-2 відсотків справ у кожного судді не містили записів про тюремний термін, тривалість попереднього ув’язнення чи штраф. Тож у діаграму, яка наводила співвідношення покарань по кожному судді, увійшла дуже незначна кількість справ, відмічених як «Покарання не призначено». Коли статтю та діаграму було опубліковано, судді буквально завили від обурення, заявивши, що Miami Herald звинуватила їх у порушенні закону штату, який вимагав, щоб кожна особа, визнана винною у водінні в нетверезому стані, повинна бути покарана.
Тож репортери знову повернулися до клерка з судової установи, який надав їм файл даних, і запитали, що було причиною цієї помилки. Їм пояснили, що «сумнівні» справи стосувалися незаможних підзахисних, заарештованих уперше. Зазвичай їм присуджувався б штраф, але в них не було грошей. Тож судді присуджували їх до громадських робіт, таких як прибирання сміття вздовж доріг. Як виявилося, закон, що вимагав покарання, був прийнятий вже після того, як створили структуру бази даних. Тож усі клерки в суді знали, що в їхніх даних нулі в усіх трьох полях «тюрма», «попереднє ув’язнення», «штраф» означали громадські роботи. Але це НЕ БУЛО позначено в словнику даних, і через це Miami Herald була змушена вносити виправлення до статті.
Урок із цієї ситуації: завжди запитуйте установу, яка надає вам дані, чи нема в цих даних якихось незадокументованих елементів: чи це новостворені коди, які не ввійшли до словника даних, зміна у форматуванні файлу чи будь-що інше. Крім цього, завжди переглядайте результати свого аналізу й запитуйте себе: «А чи має це сенс?» Репортери з Miami Herald створювали діаграму в умовах браку часу і були так зосереджені на визначенні середнього рівня суворості покарань у кожного з суддів, що не звернули уваги на кілька випадків, де покарань, здавалося, не було взагалі. Їм треба було запитати себе, чи таке взагалі можливе, що всі судді порушують закон штату, хай навіть у крихітних обсягах.
Стів Дойг, школа журналістики імені Уолтера Кронкайта університету штату Аризони
Достарыңызбен бөлісу: |