Псссс. З таким звуком розкривається герметична обгортка, у яку запаковані ваші дані. І що тепер? Що саме ви будете шукати? І які інструменти ви використаєте під час пошуку? Ми попросили фахівців із журналістики даних розповісти нам дещицю про те, як вони працюють із даними. Ось що вони повідомили.
Ліза Еванс, The Guardian
У проекті Guardian Datablog ми орієнтуємося на взаємодію з нашими читачами – і те, що ми даємо їм можливість оперативно використовувати нашу журналістику даних, означає, що вони мають змогу будувати щось своє на фундаменті нашої роботи і часом помічати таке, чого не помітили ми. Тож чим інтуїтивнішими є інструменти для роботи з даними, тим краще. Ми намагаємося підібрати такий інструментарій, з яким може впоратися будь-хто, і при цьому не потрібно вчити мову програмування, проходити спеціальні тренінги чи платити за інструменти чималі гроші .
Наразі ми вельми інтенсивно використовуємо продукти Google заме з цих міркувань. Всі набори даних, які ми впорядковуємо та публікуємо, доступні в форматі електронних таблиць Google Spreadsheet. Це означає, що люди, які мають екаунт Google, можуть завантажувати ці дані, імпортувати їх до свого власного екаунта, робити власні діаграми, сортувати дані, створювати зведені таблиці, або ж вони можуть імпортувати дані до іншого інструментарію, обраного ними. Коли ми створюємо теплокарти у Fusion, то викладаємо у вільний доступ контурні KML-файли, щоб читачі могли завантажувати їх і створювати свої власні теплокарти, і, можливо, додавати додаткові шари даних поверх оригінальної карти від Datablog. Інша приємна риса цих інструментів Google – це те, що вони працюють на багатьох платформах, з яких наші читачі заходять на блог, - таких, як настільні комп’ютери, мобільні телефони та планшети.
На додач до Google Spreadsheets та Fusion ми в нашій повсякденній роботі використовуємо ще два інструменти. Перший – це tableau для візуалізації багатовимірних наборів даних, а другий – ManyEyes для швидкого аналізу даних. Ні той, ні інший не є ідеальним, тож ми працюємо над кращими інструментами візуалізації, які сподобалися б нашим читачам.
Синтія О’Мурчу, Financial Times
Чи я колись збираюся стати програмістом? Та мабуть що ні. Я зовсім не вважаю, що всім журналістам слід знати програмування. Але я справді вважаю, що для них було б дуже доречно мати загальні уявлення про те, чого можна досягти за допомогою програмування, і як розмовляти з програмістами.
Якщо ви починаєте, то поспішайте повільно. Вам слід переконати ваших колег та редакторів, що робота з даними надасть вам теми, яких ви не знайдете у інший спосіб, і тому цим варто зайнятися. Як тільки вони побачать цінність такого підходу, ви зможете розширити його у більш складні статті та проекти.
.
Моя порада - це вивчити Excel і підготувати для початку кілька простих статей. Починайте з малого і просувайтеся до аналіз баз даних та картографії. Ви стільки всього можете зробити в Excel – це надзвичайно потужний інструмент, і більшість людей не використовують і частини його функціональності. Якщо ви маєте змогу, пройдіть навчальний курс з Excel для журналістів, подібний до того, який пропонує Центр журналістських розслідувань.
Ставтеся з повагою до інтерпретації даних: не підходьте до цього легковажно. Будьте ретельні. Звертайте увагу на деталі та критично оцінюйте результати. Робіть нотатки про те, як ви обробляли дані, і зберігайте копію оригінальних даних. Помилитися легко. Я завжди виконую свій аналіз двічі чи тричі – щоразу практично від початку. Ще краще буде, якщо ваш редактор чи хтось іще проаналізує ці дані окремо і порівняє результат.
Скотт Клейн, ProPublica
Здатність написати та запустити в роботу складний програмний продукт так само швидко, як журналіст може написати статтю, - це нова ідея. Зазвичай на це йшло значно багато часу. Все змінилося завдяки розробці двох середовищ швидкого програмування - Django and Ruby on Rails. Обидві належать до вільного/відкритого програмного забезпечення і були вперше запущені в середині 2000-х років.
Django, «надбудова» над мовою програмування Python, був творений Адріаном Головатим і редакційною командою Lawrence Journal-World у Лоуренсі, штат Канзас. Ruby on Rails була розроблена в Чикаго Девідом Хейнмеєром Ханнсоном та компанією з веб-програмування 37Signals.
Хоч обидва середовища по-різному підходять до концепції «Модель-вид-контроллер», вони чудові й дозволяють дуже швидко розробити навіть дуже складну веб-програму. Вони беруть на себе частину рудиментарної роботи з побудови програми. Речі на кшталт створення та отримання інформації з бази даних та пов’язування URL-адрес із специфічним кодом у програмі вбудовані в середовище, тож розробникам не потрібно писати код, щоб виконувати такі-от базові речі.
Попри те, що в США не було формального опитування команд, що створюють програми в редакціях, загалом відомо, що більшість команд використовують одне з цих двох середовищ для журналістських програм, що працюють з базами даних. У ProPublica ми застосовуємо Ruby on Rails.
Розвиток сервісів швидких веб-серверів (“slice”) також позбавив нас частини тих завдань, які перетворювали впровадження веб-програми на повільний процес.
Окремо від цього, ми застосовуємо для роботи з даними цілком стандартні інструменти: Google Refine та Microsoft Excel для очистки даних; SPSS та R для статистичних досліджнь; ArcGIS та QGIS для картографії та геоінформаційних систем (GIS); Git для управління початковим кодом; TextMate, Vim та Sublime Text для написання коду; так комбінацію MySQL, PostgreSQL та SQL Server для баз даних. Ми створили наше власне середовище JavaScript під назвою“Glass”, яке допомагає нам дуже швидко розробляти на JavaScript «важкі» програми, які виконуються на клієнтському комп’ютері.
Частенько найкращим інструментом є найпростіший інструмент – силу електронних таблиць легко недооцінити. Та коли я використала електронні таблиці у той час, коли все інше було під DOS, то завдяки цьому змогла зрозуміти складну формуло партнерської угоди між власниками команди «Техаські рейнджери» - тоді, коли серед головних власників був Джордж Дабл’ю Буш. Таблиця допомагає мені виявити відхилення значень чи помилки в обрахунках. Сказавши це, зазначу, що мій улюблений інструментарій має ще більше можливостей – це SPSS для статистичного аналізу та програми з прив’язки даних до картографії даних, які дозволяють мені бачити географічні закономірності.
Грегор Айш, фундація Knowledge Foundation
Я великий шанувальник Python. Python – це чудова відкрита мова програмування, яку легко читати і якою легко писати (тобто, вам не треба ставити крапку з комою після кожного рядка). Більш важливим є те, що Python має гігантську базу користувачів, а отже, додаткові модулі (їх називають «пакети») буквально під усе, що може вам знадобитися.
Django – це інструмент, який, на мою думку, іноді може знадобитися журналістам даних. Це середовище для розробки веб-програм на Python, точніше, інструмент, для створення великих веб-програм, орієнтованих на роботу з базами даних. Вона однозначно «заважка» для невеликої інтерактивної інфографіки.
Я також використовував QGis – це програма з відкритою ліцензією, яка надає широкий діапазон функціональності, пов’язаної з геоінформаційними системами (картографія) і потрібної журналістам даних, які повсякдень працюють із географічними даними. Якщо вам потрібно перевести геопросторові дані з одного формату в інший, тоді QGis – це те, що вам потрібно. Вона може впоратися з майже будь-яким форматом географічних даних (Shapefiles, KML, GeoJSON, …). Якщо ви хочете «вирізати» кілька регіонів, у QGis можна робити й це. До тогож навколо QGis існує велика спільнота, тож ви знайдете тонни документації, на кшталт веб-підручників.
Мову R було створено головним чином і як інструмент наукової візуалізації. Важко знайти такий метод візуалізації чи техніку оцінки даних, яка б уже не була вбудована в R. R – це всесвіт у собі, мекка візуального аналізу даних. Єдиний недолік – вам потрібно вивчити ще одну мову програмування, бо в R є власна мова. Але як тільки ви почали рух вгору по навчальній кривій, для вас не буде інструмента, потужнішого за R. Досвідчені журналісти даних можуть використати R для аналізу гігантських наборів даних, які перевищують обмеження Excel (наприклад, у вас є таблиця з мільйоном рядків).
Що в R справді добре – це те, що ви можете зберігати точний «протокол» того, що ви робите з даними протягом усього процесу – від зчитування файлу в форматі CSV до генерування діаграм. Якщо дані змінюються, ви можете заново згенерувати діаграму одним кліком мишки. Якщо когось зацікавила цілісність ваших діаграм, ви можете представити точне джерело, яке дає змогу будь-кому відтворити точно цю діаграму самостійно (чи, може, знайти зроблені вами помилки).
NumPy + MatPlotLib – це спосіб виконати те ж саме з використанням Python. Цей варіант з’являється тоді, якщо ви вже добре знаєте Python. Фактично, NumPy та MatPlotLib – це два приклади пакетів у Python. Їх можна застосувати для аналізу та візуалізації даних, і обидва обмежені сферою статичної візуалізації. Їх неможливо використати для створення інтерактивних діаграм з підказками та більш просунутими елементами.
Я не користуюся MapBox, але чув, що це чудовий інструмент, якщо ви хочете створити більш складні карти на базі OpenStreetMap. Він дає вам змогу, наприклад, оформити на власний смак стилі карти (кольори, позначки тощо). Супровідний інструмент до MapBox має назву Leaflet. Leaflet в основі своїй є більш високорівневою JavaScript-бібліотекою для картографії, за допомогою якої можна легко переходити від одного до іншого постачальника карт (OSM, MapBox, Google Maps, Bing, …).
RaphaelJS – це загалом низькорівнева бібліотека візуалізації, яка дає вам змогу працювати з базовими графічними примітивами (такими, як кола, лінії, текстові написи), анімувати їх, додавати взаємодію між ними тощо. У ній немає таких речей, як готова стовпчикова діаграма – вам доведеться малювати прямокутники самостійно.
Втім, у Raphael гарне те, що все, створене вами, буде також працювати й під Internet Explorer. Так не вийде у багатьох інших (чудових) бібліотек візуалізації на кшталт d3. Прикро, але багато користувачів усе ще користуються ІЕ, і жодна редакція не може дозволити собі ігнорувати 30% користувачів.
Крім використання RaphaelJS, є ще варіант – створювати для ІЕ резервну версію у Flash. Сааме так зазвичай роблять у New York Times is doing. Це означає, що кожну програму вам доведеться розробляти двічі.
Я все ще не маю певності, який процес створення візуалізації для ІЕ чи сучасних браузерів є «найкращим». Часто виявляється, що програми у RaphaelJS можуть працювати жахливо повільно у ІЕ, - у десять разів повільніше, ніж коли вони виконуються у Flash на сучасних браузерах. Тож резервна версія під Flash може бути кращим варіантом, якщо ви хочете створити високоякісні анімовані візуалізації для користувачів усіх браузерів.
Стів Дойг, школа журналістики імені Уолтера Кронкайта при університеті штату Аризона
Мій повсякденний інструмент – це Excel, за допомогою якого можна вирішити більшість проблем комп’ютерної журналістики, і перевагами якого є легкість вивчення та доступність більшості репортерів. Коли мені треба об’єднати таблиці, я зазвичай використовую Access, але потім експортую злиті таблиці знову до Excel для подальшої роботи. Я застосовую ArcMap від ESRI для географічного аналізу; це потужний інструмент, який використовують агенції, що збирають геокодовані дані. TextWrangler чудовий для дослідження текстових даних з хитрим форматуванням та структурою, і в ньому можна виконувати складні операції пошуку та заміни за допомогою шаблонних команд. Коли потрібні статистичні методики на зразок лінійної регресії, я використовую SPSS; ця програма має дружелюбне меню, що дозволяє роботу за принципом «наведи й клацни». Для справді важких завдань, на кшталт обробки наборів даних із мільйонами записів, яким може знадобитися серйозна фільтрація та програмна зміна полів, я використовую програмне забезпечення SAS.
Наш улюблений інструментарій – це Python та Django для аналізу, вилучення та маніпуляцій із даними, та PostGIS, QGIS і MapBox для будівництва справді головоломних веб-карт. R ТА NumPy + MatPlotLib наразі змагаються за зверхність у нашому інструментарії для дослідницького аналізу даних, хоч нашим улюбленим і найостаннішим знаряддям є домашня розробка: CSVKit. Майже все, що ми робимо, розміщене в хмарі.
Анжеліка Перальта Рамос, La Nacion (Аргентина)
У La Nacion ми використовуємо:
-
Excel для очистки, впорядкування та аналізу даних;
-
Google Spreadsheets для публікації та зв’язку із сервісами на зразок Google Fusion Tables чи Junar Open Data Platform;
-
Junar для поширення наших даних та вбудовування їх у наші статті та публікації в блогах.
-
Tableau Public для інтерактивної візуалізації даних;
-
Qlikview, дуже швидкий інструмент бізнесової аналітики, який ми використовуємо для аналізу та фільтрації великих наборів даних.
-
NitroPDF для перетворення PDF-файлів у текстові та excel файли.
-
Google Fusion Tables для візуалізації карт.
Педро Маркун, Transparência Hacker
Оскільки ми є «низовою» спільнотою без будь-якого технічного ухилу, ми в Transparency Hackers використовуємо розмаїття інструментів та мов програмування. Кожен член має свій власний набір уподобань, і це розмаїття є водночас нашою силою та слабкістю. Дезто з нас розбудовує середовище ‘Transparency Hacker Linux Distribution’, до якого можна під’єднатися будь-де та почати роботу з даними. У цьому наборі інструментів є кілька цікавих функцій та бібліотек для обробки даних, Refine, RStudio та OpenOffice Calc (останній часто не беруть до уваги фахівці, але він справді корисний для швидких чи простих завдань). Ми також досить часто використовуємо Scraperwiki для швидкого створення прототипів та збереження результатів із даними в онлайні.
Є багато інструментів візуалізації та створення графіків, які нам до вподоби. Python та NumPy вирізняються своєю потужністю. Кілька людей у спільноті пробували освоїти R, але в підсумку цього я все ще вважаю, що рештою у більшості проектів застосовується d3, Flot and RaphaelJS. Насамкінець, ми багато експериментували зі створенням, карт, і було справді цікаво працювати з Tilemill.
Достарыңызбен бөлісу: |