Візуаліація має критичне значення для аналізу даних. Вона – це перша лінія атаки, що розкриває складну внутрішню структуру даних, яку неможливо усвідомити в інший спосіб. Ми виявляємо факти, про який не могли й уявити, а виявивши – беремося за їх розгляд. Вільям С. Клівленд, «Візуалізуючи дані»
Дані самі по собі – як послідовність бітів та байтів, що зберігається у файлі на жорсткому диску комп’ютера – є невидимими. Щоб побачити їх та зрозуміти їхнє значення, нам потрібно візувалізувати ці дані. У цій главі я маю намір використовувати ширше визначення терміну «візуалізація», яке включає навіть просте текстове представлення даних. Наприклад, елементарне завантаження бази даних у програму електронних таблиць вже можна розглядати як візуалізацію даних. Невидимі дані раптом перетворюються на видиму «картину» на екрані нашого комп’ютера. Отже, запитання не в тому, чи слід журналістові візуалізувати дані, а в тому, який вид візуалізації є найбільш придатним у тій чи іншій ситуації
Інакше кажучи, мова йде про те, коли є сенс виходити за межі табличної візуалізації? Коротка відповідь така – майже завжди. Одних лише таблиць однозначно замало для того, щоб дати нам загальне представлення про базу даних. І таблиці самі по собі не дозволяють нам відразу ж визначати певні закономірності в наборі даних. Найбільш типовий приклад – це географічні закономірності, які можна спостерегти тільки після того, як дані будуть візуалізовані за допомогою карти. Але є й інші типи закономірностей, про які йтиметься далі в цій главі.
Застосування візуалізації для пошуку ідей
Нереалістично очікувати, що інструментарій та техники з візуалізації даних автоматично завалять вас сюжетами для публікацій, отриманими з баз даних. Не існує правил чи «протоколів», які гарантують вам статтю. Натомість я вважаю, що краще шукати в них «ідеї», які в руках гарного журналіста вміло вплітаються в сюжети статей.
Кожна нова візуалізація, імовірно, дасть нам якісь ідеї щодо наших даних. Деякі з цих ідей можуть бути вже відомими (але, можливо, наразі не доведеними), тоді як інші можуть бути цілком новими або навіть несподіваними. Деякі нові ідеї можуть означати початок нової статті, тоді як інші можуть бути наслідком помилок в даних, які, з високою імовірністю, виявляться під час візуалізації даних.
Для того, щоб пошук ідей у даних став більш ефективним, я рекомендую наступну корисну процедуру.
Ілюстрація 71. Ідеї, отримані з даних: візуалізація (Грегор Айш)
Кожен з етапів цієї процедури буде розглянуто далі.
Як візуалізувати дані
Візуалізація надає унікальний метод бачення бази даних. Візувалізувати дані можна в найрізноманітніші способи.
Таблиці є дуже потужними, коли ви маєте справу з порівняно малою кількістю позицій даних. Вони показують категорії та кількісні дані в найбільш структурованій та організованій формі, і розкривають свій повний потенціал у поєднанні із можливістю сортувати та відфільтровувати дані. На додачу до цього Едвард Тафт рекомендує включати невеликі діаграми у колонки з даними, наприклад, один стовпчик на рядок, або маленький лінійний графік (відомий також як спарклайн, sparkline). Але як вже було сказано у вступі, таблиці, без сумніву, мають свої обмеження. Вони прекрасно показують вам одновимірні дані (наприклад, перша десятка чогось), але погано пристосовані для порівняння різновимірних даних (наприклад, зміна чисельності населення в країні протягом часу).
Ілюстрація 72. Рекомендації Тафта: спарклайни (Грегор Айш)
Графіки та діаграми загалом дають вам змогу вказувати різні виміри у ваших даних у формі візуальних пропорцій геометричних форм. Про ефективність тих чи інших візуальних властивостей написано дуже багато, і коротко це можна сформулювати так: колір – це складно, позиція – це все. У діаграмі розсіювання http://en.wikipedia.org/wiki/Scatter_plot , наприклад, два виміри прив’язані до координат по осях Х та У. Ви навіть можете додати третій вимір – за допомогою кольору чи розміру наведених символів. Лінійні графіки особливо зручні для показу змін за певний період часу, тоді як стовпчикові діаграми ідеальні для порівняння категоріальних даних. Елементи діаграм можна розміщувати поверх один одного. Якщо ви хочете порівняти малий набір груп у ваших даних, є потужний спосіб це зробити, показавши кілька екземплярів подібних графіків (цей тип графіків має назву small multiples ). В усіх графіках чи діаграмах ви можете використовувати різні види масштабування, щоб відобразити різні аспекти ваших даних (тобто, лінійний чи логарифмічний масштаб).
Фактично, більшість із даних, з якими ми маємо справу, у той чи інший спосіб пов’язані з реальними людьми. Сила карт у тому, що вони прив’язують дані до нашого власного фізичного світу. Уявімо базу даних злочинів, яка містить географічну прив’язку. Для вас критично важливо бачити, де відбулися ці злочини. Також карти можуть висвітлити географічні закономірності в даних, наприклад, зміну тренду від Півночі до Півдня, або від міських до сільських регіонів.
Ілюстрація 73. Фонова картограма (Грегор Айш)
Якщо мова зайшла про взаємні зв’язки, то четвертим найбільш важливим є граф. Графи показують взаємні зв’язки (дуги) між вашими елементами даних (вузлами). Розташування вузлів обраховують за допомогою простіших або складніших алгоритмів побудови графів, що дозволяє нам відразу ж бачити структуру певної мережі. Вся хитрість у візуалізації графів загалом полягає в тому, щоб знайти правильний спосіб моделювання самої мережі. Не всі бази даних містять взаємні зв’язки, і навіть якщо й містять, вони можуть бути не найцікавішими для розгляду. Часто від журналіста залежить визначення дуг між вузлами. Ідеальний приклад – це соціальний граф Сенату США, де дуги поєднують сенаторів, які однаково голосували в понад 65% випадків.
Ілюстрація 74. Соціальна мережа сенату (slate.com)
Аналізуйте та інтерпретуйте те, що ви бачите
Ось ви візуалізували ваші дані – і на наступному етапі ви маєте про щось довідатися з картини, яку створили. Запитайте себе:
-
Що я бачу в цій ілюстрації? Це те, на що я розраховував?
-
Чи є тут якісь цікаві закономірності?
-
Що це означає в контексті даних?
Іноді у вас може вийти візуалізація, яка, попри її зовнішню красу, не скаже вам нічого цікавого про ваші дані. Але майже завжди будь-яка візуалізація вас чомусь навчить, хай і чомусь тривіальному.
Документуйте ваші ідеї та етапи роботи
Якщо розглядати цей процес як подорож базою даних, документація – це ваші дорожні нотатки. Вони повідомлять вам, куди ви мандрували, що ви там побачили і як ви приймали рішення щодо наступних кроків. Ви навіть можете почати документування ще до того, як вперше кинули погляд на дані.
Коли ми у більшості випадків починаємо роботу з базою даних, якої не бачили раніше, ми вже сповнені очікувань та припущень про ці дані. Зазвичай існує причина, чому ми зацікавилися набором даних, який взялися розглядати. Тому є сенс почати документування із записів цих попередніх думок. Це допоможе визначити наші наміри та зменшити ризик неправильної інтерпретації даних, - коли ми знаходимо в них те ж, що і збиралися знайти початково.
Я справді вважаю, що документування – це найважливіший етап цього процесу; і це також той етап, який ми зазвичай схильні пропускати. Як ви побачите в прикладі, наведеному нижче, описаний процес включає значні обсяги графічних робіт та аналізу даних. Перегляд набору з 15 діаграм може збити з пантелику, особливо якщо з моменту їх створення пройшов час. Фактично, ці графіки чи діаграми мають цінність тільки тоді (для вас чи будь-якої іншої людини, яку ви хочете ознайомити з вашими знахідками), якщо вони подані в тому ж контексті, в якому їх створювали.
Отже, вам треба витратити час, щоб занотувати собі таке:
-
Навіщо я створив цю діаграму?
-
Що я зробив з даними, щоб її створити?
-
Про що повідомляє ця діаграма?
Трансформуйте дані
Природно, що на основі ідей, які ви отримали від попередньої візуалізації, у вас може виникнути ідея, на що треба подивитися далі. Ви могли виявити певні цікаві закономірності в базі даних, які вам захочеться дослідити більш детально.
Можливі трансформації:
Зміна масштабу
Щоб подивитися на певну рису в сукупності візуалізацій, з'єднайте багато елементів бази даних у єдину групу
Фільтрація
Щоб (тимчасово) усунути ті елементи бази даних, які перебувають поза вашим головним фокусом
Усунення «викидів»
Щоб позбавитися від окремих елементів даних, які не є репрезентативними для 99% бази даних
Уявімо, що ви візуалізували граф, і у вас вийшло ніщо інше, як плутанина вузлів, пов’язаних сотнями дуг (дуже поширений результат під час візуалізації так званих щільно пов’язаних мереж). Типовим трансформаційним етапом тут буде фільтрація деяких дуг. Якщо, наприклад, ці дуги репрезентують потік коштів від країн-донорів до країн-реципієнтів, ми можемо усунути всі потоки, які «менші» за певну суму грошей.
Якими інструментами користуватися
Питання про інструментарій не належить до простих. Кожен існуючий інструмент із візуалізації даних у чомусь кращий за інші. Візуалізація та аналіз даних повинні виконуватися просто й дешево. Якщо зміна параметрів візуалізацій займає у вас години часу, вам, можливо, не слід так багато експериментувати. Звісно ж, це не означає, що вам не треба вчитися, як використовувати цей інструмент. Але як тільки ви навчитеся, він буде справді ефективним.
Зазвичай має сенс обирати інструментарій, який поєднує можливості й аналізу даних, і візуалізації. Розмежування цих задач на окремі інструменти означає, що вам часто доведеться імпортувати та експортувати дані. Ось короткий перелік інструментів, придатних для обробки та візуалізації даних:
• Електронні таблиці - LibreOffice, Excel чи Google Docs.
• Середовище для статистичного програмування - R (r-project.org) чи Pandas (pandas.pydata.org)
• Геоінформаційні системи (GIS) - Quantum GIS, ArcGIS, GRASS
• Бібліотеки візуалізацій - d3.js (mbostock.github.com/d3), Prefuse (prefuse.org), Flare (flare.prefuse.org)
• Інструменти для обробки даних - Google Refine, Datawrangler
• Середовище для візуалізацій, де не використовується програмування - ManyEyes, Tableau Public (tableausoftware.com/products/public)
Приклади візуалізацій у наступній главі були створені за допомогою R, яка є таким собі швейцарським армійським ножиком у справі (наукової) візуалізації даних.
Приклад: дослідження пожертв на виборчу кампанію в США
Поглянемо на базу даних фінансування президентської кампанії в США, яка містить дані про близько 450 тисяч пожертв кандидатам на пост президента. Файл у форматі CSV має розмір 60 мегабайт – завеликий, щоб легко працювати з ним у програмі на кшталт Excel.
На першому етапі я чітко запишу мої «стартові» припущення про базу даних пожертв на президентські вибори:
-
Обама отримує найбільше пожертв (бо він президент і має найбільшу популярність)
-
Кількість пожертв зростає із наближенням дати виборів
-
Обама отримує більше малих пожертв, ніж кандидати від республіканців
Щоб отримати відповідь на перше питання, нам слід трансформувати дані. Замість окремих пожертв нам треба мати повну суму, пожертвувану кожному кандидату. Після візуалізації результатів у відсортованій таблиці ми маємо підтвердження, що Обама зібрав найбільше грошей:
Кандидат
|
Сума ($)
|
Обама, Барак
|
72,453,620.39
|
Ромні, Мітт
|
50,372,334.87
|
Перрі, Рік
|
18,529,490.47
|
Пол, Рон
|
11,844,361.96
|
Кейн, Герман
|
7,010,445.99
|
Гінгріч, Ньют
|
6,311,193.03
|
Поленті, Тімоті
|
4,202,769.03
|
Хантсмен, Джон
|
2,955,726.98
|
Бахман, Мішель
|
2,607,916.06
|
Санторум, Рік
|
1,413,552.45
|
Джонсон, Гері Ерл
|
413,276.89
|
Ромер, Чарльз Е Бадді ІІІ
|
291,218.80
|
МакКоттер, Тадеус Г
|
37,030.00
|
І хоч ця таблиця показує максимальні та мінімальні суми й порядок їх розташування, вона небагато повідомляє про внутрішні закономірності у рейтингу кандидатів. Ілюстрація 75 подає інший вигляд цих даних, діаграму, яка має назву «точкова діаграма», і де ми можемо бачити все, що вказане в таблиці, плюс закономірності. Наприклад, точкова діаграма дозволяє нам відразу бачити відстані між Обамою та Ромні та Ромні й Перрі, і для цього не потрібно віднімати цифри (Примітка: точкова діаграма була створена за допомогою R. Лінки на програмний код наведено наприкінці цієї глави).
Ілюстрація 75. Візуалізація як спосіб показу внутрішніх закономірностей (Грегор Айш)
А зараз давайте створимо ширшу картину на основі цієї бази даних. На першому етапі я зробив спрощену графічну візуалізацію усіх пожертв за весь період часу. Ми бачимо, що майже всі пожертви є дуже-дуже маленькими порівняно з трьома справді великими «викидами» даних. Подальше дослідження виявляє, що ці величезні пожертви надходять від фонду “Obama Victory Fund 2012” (також відомому як Super PAC) і були зроблені 29 червня ($450 тис.), 29 вересня ($1.5 млн) and 30 грудня ($1.9 млн).
Ілюстрація 76. Три виразні «викиди» в даних (Грегор Айш)
І хоч пожертви від Super PACів є найбільшою темою в даних, також може бути цікаво поглянути за межі цієї теми. Ідея в тому, що ці великі пожертви спотворюють бачення маленьких пожертв, які надходять від окремих осіб, тож ми усунемо перші з даних. Цю трансформацію зазвичай називають усуненням викидів. Повторивши візуалізацію, ми бачимо, що більшість пожертв перебуває в діапазоні $10 тис та -$5 тис.
Ілюстрація 77. Вилучення викидів (Грегор Айш)
Згідно з існуючими обмеженнями на розмір пожертв, фізичні особи не можуть жертвувати більше ніж 2500 доларів на кожного кандидата. Як бачимо, є численні пожертви, які перевищують цей ліміт. Зокрема, нашу увагу привертають дві великі пожертви, зроблені в травні. Вони дзеркально відображені у негативних сумах (поверненнях коштів) за червень та липень. Подальші дослідження даних виявляють такі транзакції:
• 10 травня Стівен Джеймс Девіс із Сан-Франциско, співробітник Banneker Partners (адвокат), пожертвував Обамі $25,800.
• 25 травня Синтія Мерфі з Літтл-Рок, співробітниця Murphy Group (піар-компанія) пожертвувала Обамі $33,300.
• 15 червня сума у $30,800 була повернута Синтії Мерфі, що зменшило обсяг пожертви до $2500.
• 8 липня сума у $25,800 була повернута Стефану Джеймсу Девісу, що зменшило обсяг його пожертви до 0 доларів.
Чим цікаві ці цифри? $30,800, які повернули Синтії Мерфі, відповідають максимальній сумі, яку фізичні особи протягом року можуть пожертвувати національній політичній партії. Можливо, вона просто хотіла поєднати дві пожертви в одній транзакції, і це не пройшло. $25,800, які повернулися до Стівена Джеймса Девіда, імовірно, дорівнюють $30,800 мінус $5000 (ліміт пожертв будь-якій іншій політичній партії).
Ще одна цікава знахідка в останній візуалізації – це горизонтальна лінія, яка відображає пожертви республіканським кандидатам на суму $5000 та -$2500. Щоб побачити їх детальніше, я візуалізував лише пожертви республіканцям. Отриманий графік є ідеальним прикладом тих закономірностей у даних, які неможливо помітити без візуалізації.
Ілюстрація 78. Вилучення викидів - 2 (Грегор Айш)
Ми бачимо, що є багато пожертв кандидатам-республіканцям на суму 5 тисяч доларів. Фактично, за даними таких пожертв є 1243, це лише 0,3% від загальної кількості пожертв, але так як вони рівномірно розподілені в часі, то виникає лінія на візуалізації. У ній цікавим є те, що пожертви від фізичних осіб обмежені сумою в 2500 доларів. Отже, кожен долар, що перевищує цей ліміт, був повернений жертводавцям, і це утворило ще одну лінію із сумою -$2500. І навпаки, серед пожертв Бараку Обамі аналогічної закономірності нема.
Ілюстрація 79. Вилучення викидів - 3 (Грегор Айш)
Тож, могло бути цікаво дізнатися, чому тисячі жертводавців-республіканців не помітили, що існує ліміт пожертв для фізосіб. Щоб проаналізувати цю тему глибше, нам слід подивитися на загальну кількість пожертв у розмірі 5 тисяч доларів на кожного кандидата.
Ілюстрація 80. Пожертви на кандидата (Грегор Айш)
Зрозуміло, що це досить-таки спотворений вигляд, бо в ньому не врахована загальна сума пожертв, отримана кожним кандидатом. Наступний графік показує відсоток пожертв у 5 тисяч доларів на кожного кандидата.
Ілюстрація 81. Звідки походять сенаторські кошти?: пожертви на кандидата (Грегор Айш)
Який звідси урок
Зазвичай подібний візуальний аналіз нової бази даних схожий на захопливу подорож до невідомої країни. Ви починаєте як іноземець, у якого є лише дані й припущення щодо них, але з кожним зробленим вами кроком, з кожним згенерованим графіком ви отримуєте нові ідеї по цій темі. На основі цих ідей ви приймаєте рішення про наступні кроки і про те, які теми варті подальшого дослідження. Як ви могли побачити в цій главі, процес візуалізації, аналізу та трансформації даних можна повторювати майже до нескінченності.
Отримайте початковий код
Усі графіки та діаграми, використані в цій главі, були створені за допомогою чудового і потужного програмного засобу R. Його розробили передусім як інструмент наукової візуалізації, і важко знайти таку технологію візуалізації чи аналізу даних, яку б уже не вбудували до R. Тим, хто цікавиться візуалізацією та аналізом даних за допомогою R, я надаю початковий код графіків та діаграм, створених для цієї глави. Також існує широке розмаїття книжок та посібників з цієї теми.
dotchart: пожертви кандидатам
plot: всі пожертви за весь час
plot: пожертви від уповноважених виборчих комітетів
Грегор Айш, фундація Open Knowledge
Достарыңызбен бөлісу: |