У січні 2010 року ВВС отримала дані Міністерства транспорту Британії із оцінками надійності автомобілів різних моделей та від різних виробників. Це результати тесту, що вказують, чи є авто безпечним та придатним для користування – будь-яка машина віком понад три роки повинна щорічно проходити цей тест Міністерства транспорту.
Ілюстрація 47. Публікація рейтингу надійності автомобілів (ВВС)
Ми отримали ці дані у відповідності до закону про свободу інформації, в результаті 18-місячної битви з VOSA, агенцією Департаменту транспорту, яка здійснює нагляд за системою тестів. VOSA повертала наші запити про надання цифрових даних на тій підставі, що це порушить комерційну таємницю. Вона заявляла, що виробники автомобілів із високим рівнем ненадійності постраждають від оприлюднення цієї інформації. Ми, однак, звернулися до уповноваженого з питань інформації, який прийняв рішення, що розкриття цих даних служитиме інтересам суспільства. І тоді VOSA оприлюднила дані, через 18 місяців після нашого прохання про це.
Ми проаналізували цифри, зосередившись на найбільш популярних моделях та порівнюючи машини одного віку. І виявили суттєві розбіжності. Для прикладу, поміж 3-річних автівок 28% машин Рено Меган не пройшли тест Міністерства транспорту, на противагу лише 11% машин Тойота Королла. Цифри були оприлюднені на телебаченні, радіо та в онлайні.
Ми отримали дані у формі PDF-документа на 1200 сторінок, який нам треба було перетворити на електронну таблицю, щоб мати змогу виконати аналіз. Поруч із публікацією наших висновків ми оприлюднили цю таблицю в форматі Excel (понад 14 тисяч рядків даних) на сайті BBC News. Це забезпечило загальний доступ до цих даних у формі, придатній для користування.
Як результат, інші почали використовувати ці дані для власної аналітики, яку ми не зробили, поспішаючи опублікувати статтю якнайшвидше, або на яку в нас на той час бракувало технічних ресурсів. Це включало вивчення рейтингів поломок у машин з іншим терміном експлуатації, порівняння рейтингів виробників, а не окремих моделей, і створення баз даних із можливістю пошуку в них результатів щодо окремих моделей. Ми додали лінки на ці сайти в нашу онлайнову публікацію, щоб наші читачі могли скористатися й цими розробками.
Це ілюструє переваги публікації «сирих» даних на додачу до статті, створеної за методикою журналістики даних. Тут можуть бути й винятки (наприклад, якщо ви плануєте використати ці дані для наступних публікацій і хочете до того часу притримати їх у себе), але загалом оприлюднення даних забезпечує кілька важливих вигід.
-
Ваша робота полягає в тому, щоб дізнаватися про щось і повідомляти про це людям. Якщо ви потурбувалися про те, щоб отримати всі дані, поширення цих даних – це частина вашої роботи.
-
Інші люди можуть помітити цікаві моменти, які ви пропустили, або ж просто деталі, які мають для них значення, навіть якщо ці деталі були недостатньо важливими для вашої статті.
-
Інші можуть розвинути вашу роботу за допомогою подальшого, більш деталізованого аналізу даних або інших форм представлення чи візуалізації цифр, використання власних ідей чи технічних вмінь, які забезпечать продуктивний аналіз цих даних в альтернативний спосіб.
-
Це – складова частина привнесення відповідальності та прозорості в журналістський процес. Інші можуть зрозуміти ваші методики та перевірити вашу роботу, якщо в них виникне таке бажання.
-
Мартін Розенбаум, ВВС
Автобусні субсидії в Аргентині
Із 2002 року субсидії на громадський автобусний транспорт зростали в Аргентині експоненційно, щороку встановлюючи новий рекорд. Але в 2011 році новий уряд після перемоги на виборах оголосив про скорочення субсидій на комунальні послуги, починаючи з грудня того ж року. В той же час національний уряд вирішив передати управління місцевими лініями автобусного транспорту та метро до уряду міста Буенос-Айреса.
А так як механізм передачі субсидій місцевій владі не було конкретизовано, і через брак місцевих коштів, потрібних для гарантування безпеки транспортної системи, місцева влада Буенос-Айреса відхилила це рішення.
Коли це все відбувалося, я вперше зустрівся зі своїми колегами з La Nación, щоб обговорити, як почати нашу власну діяльність із журналістики даних. Редактор рубрики «Фінанси» подав ідею, що дані про субсидії, оприлюднені міністерством транспорту, можуть стати гарною відправною точкою, - бо в цих даних було важко знайти сенс через використаний в них формат та термінологію.
Неналежний стан системи громадського транспорту щодня впливає на життя понад 5,8 мільйонів людей. Затримки, страйки, вихід з ладу транспортних засобів чи навіть нещасні випадки трапляються регулярно. Ми, отже, вирішили подивитися, куди йдуть субсидії на підтримку системи громадського транспорту в Аргентині, та надати всім громадянам Аргентини легкий доступ до цих даних за допомогою проекту «Дослідження транспортних субсидій», над яким ми зараз працюємо.
Ілюстрація 48. Дослідження транспортних субсидій (La Nación)
Ми почали з підрахунку того, скільки коштів щомісячно отримують від уряду автобусні компанії. Для цього ми переглянули дані, опубліковані на веб-сайті міністерства транспорту, - понад 400 документів у PDF форматі, що містили інформацію про щомісячні платежі понад 1300 компаніям в період із 2006 року.
Ілюстрація 49. Рейтинг транспортних компаній за обсягом субсидій (La Nación)
Ми створили команду зі старшим програмістом (у редакції), щоб розробити програму, яка автоматизовано завантажувала ці PDF-документи та трансформувала їх у формат електронних таблиць Excel чи файли баз даних. Ми використали результуючу базу даних із понад 285 тисячами записів для нашого розслідування та візуалізацій, як для друкованих, так і для онлайнових публікацій. На додачу до цього ми працюємо над тим, щоб викласти ці дані у форматі, придатному для машинного зчитування, - щоб кожен аргентинець міг їх використати чи поділитися ними з іншими.
Наступний етап – ідентифікувати, у яку суму в середньому обходилося урядові щомісячне обслуговування громадського транспортного засобу. Щоб це дізнатися, ми пішли на інший урядовий веб-сайт, Національної комісії з регулювання транспорту (CNRT), яка відповідальна за регламентування транспортних питань в Аргентині. На цьому сайті ми знайшли список автобусних компаній, яким загалом належали 9 тисяч транспортних засобів. Ми розробили нормалізатор, який дав нам змогу знайти зв’язок між назвами автобусних компаній та створити перехресні посилання між двома базами даних.
Щоб рухатися далі, нам треба було знати реєстраційні номери кожного транспортного засобу. Ми знайшли на сайті CNRT список машин на кожному автобусному маршруті, із вказаними номерами. Реєстраційні номери транспортних засобів у Аргентині складаються з літер та цифр, що відповідають «вікові» машини. Наприклад, номер моєї автівки IDF234, де «І» відповідає березню-квітню 2011 року. Ми опрацювали за методом зворотної інженерії номери, що належали всім наведеним у списку компаніям, виявили середній вік автобусів у компанії та в такий спосіб змогли показати, скільки грошей іде на кожну компанію, і порівняти суми з урахуванням середнього віку їхніх машин.
Ілюстрація 50. Порівняння «віку» транспортного парку з обсягом коштів, отриманих від уряду (La Nación)
На середині цього процесу зміст оприлюднених урядом PDF-документів із потрібними нам даними загадковим чином змінився, хоч лінки та назви файлів залишилися такими ж. Серед того, що змінилося, було зникнення вертикальної колонки «Загалом», через що стало неможливо виконувати перехресну перевірку загальних обсягів витрат за весь період розслідування, з 2002 по 2011 рік.
Ми прийшли із цією ситуацією на хакатон, організований Hacks/Hackers у Бостоні, де програміст Метт Перрі зробив добру справу й створив те, що ми називаємо «PDF-шпигун» (PDF Spy). Ця програма здобула на хакатоні перше місце в категорії «Найбільш інтригуюча розробка». PDF-шпигун відстежує веб-сторінку, де багато PDF-документів, і перевіряє, чи не змінився зміст цих PDF-файлів. «Вас більше ніколи не введе в оману так звана «урядова прозорість», - каже Метт Перрі.
Хто працював над проектом?
Команда з семи журналістів, програмістів та фахівця з інтерактивного дизайну працювала над цим розслідуванням протягом 13 місяців
Для проекту були потрібні такі навички:
-
Журналісти зі знанням того, як працює субсидування громадського транспорту і які тут є ризики; та знанням ринку автобусних компаній.
-
Програміст, що вміє «вилучати» інформацію з веб-сайтів, виконувати структурний аналіз та нормалізацію даних, перетворювати дані з PDF-документів у електронні таблиці Excel.
-
Статистик для проведення аналізу даних та різноманітних обрахунків.
-
Дизайнер для створення інтерактивних візуалізацій даних.
Який інструментарій ми використовували?
Ми використовували програмне середовище VBasic for applications, макроси Excel, Tableau Public та Junar Open Data Platform, а також Ruby on Rails, інтерфейс прикладної програми (АРІ) до Google charts, Mysql for the Subsidies Explorer.
Проект мав потужний резонанс. Ми отримали десятки тисяч переглядів, а розслідування було опубліковане на першій сторінці друкованого видання La Nación.
Успішність цього першого проекту із журналістики даних допомогла нам створити внутрішню команду із обробки даних, яка брала б участь у журналістських розслідуваннях та служила б громадськості. В результаті з’явилася платформа Data.lanacion.com.ar, де ми публікуємо дані на різноманітні теми, що мають суспільний інтерес, у форматі, придатному для машинного зчитування.
Анжеліка Перальта Рамос, La Nación, Аргентина
Достарыңызбен бөлісу: |