Що ж, ви готові розпочати ваш перший проект із журналістики даних. І що далі? У першу чергу вам потрібні якісь дані. Цей розділ присвячено тому, де ви можете їх отримати. Ми навчимося, як знаходити дані в Інтернеті, як робити запити про дані на базі законів про свободу інформації, як використовувати технології вилучення неструктурованих даних «з екрану» і як застосовувати колективний збір інформації, щоб отримати ваші власні набори даних від ваших читачів. Ми розглянемо, що каже закон про повторну публікацію баз даних, і як використовувати прості юридичні інструменти, щоб дати право іншим повторно використовувати ваші дані. Насамкінець, розділ завершують історії з життя та «бойовий досвід» наших авторів – через що їм довелося пройти, щоб отримати дані, які вони шукали.
П’ятихвилинний «курс молодого бійця»
Шукаєте дані з певної конкретної теми чи проблеми? Не впевнені, що існує на цю тему, чи де шукати? Не знаєте, з чого почати? У цьому розділі ми розглянемо, як почати пошук публічних джерел даних в Інтернеті.
Ілюстрація 54. datacatalogs.org (Фундація Open Knowledge)
Визначте напрямок пошуку
Хоч їх часом нелегко знайти, але багато баз даних у Інтернеті вже проіндексовані пошуковими механізмами, хотів цього їхній власник чи ні. Ось кілька підказок:
• Шукаючи дані, пересвідчіться, що ви включили до пошукового запиту слова, пов’язані зі змістом даних, які ви намагаєтеся знайти, а також певну інформацію про формат джерела, де, за вашими сподіваннями, є ці дані. Google та інші пошукові механізми дають вам змогу вести пошук за певними типами файлів. Наприклад, ви можете шукати тільки в електронних таблицях (доповнивши пошуковий запит рядком ‘filetype:XLS filetype:CSV’), географічних даних (‘filetype:shp’), чи базах даних (‘filetype:MDB, filetype:SQL, filetype:DB’). Якщо вам конче треба, то можете спробувати навіть шукати PDF-документи (‘filetype:pdf’).
• Ви також можете шукати за частиною інтернет-адреси (URL). Запит у Google ‘inurl:downloads filetype:xls’ спробує знайти всі файли у форматі Excel, веб-адреси яких містять слово “downloads” (якщо ви знайдете один такий файл, часто є сенс просто перевірити, які ще результати є в цій же самій папці на веб-сервері). Ви можете також звузити ваш пошук до результатів лише з одного доменного імені, наприклад, за допомогою пошукового запиту ‘site:agency.gov’.
• Ще один поширений прийом – не вести пошук безпосередньо за змістом, а перевіряти місця, де може бути доступ до «звалища» даних. Наприклад, запит ‘site:agency.gov Directory Listing’ може дати вам каталоги, згенеровані веб-сервером, із легким доступом до «сирих» файлів, тоді як запит ‘site:agency.gov Database Download’ шукатиме спеціально створені каталоги.
Переглядайте сайти та сервіси даних
Протягом останніх кількох років у Інтернеті з’явилися спеціалізовані портали даних, центри даних та інші сайти з даними. Це гарне місце для того, щоб ознайомитися з представленими там типами даних. Для початку можете подивитися на:
• Офіційні портали даних. Бажання владних установ відкрити доступ до тієї чи іншої бази даних відрізняється залежно від конкретної країни. Все більша кількість країн запускає портали даних (як наслідування американського сайту data.gov та британського data.gov.uk), щоб сприяти громадському та комерційному використанню урядової інформації. Актуальний всесвітній індекс таких сайтів можна знайти наdatacatalogs.org. Ще один зручний сайт – це Guardian World Government Data, метапошуковий механізм, який включає багато міжнародних каталогів урядових даних.
• Data Hub. Створений спільнотою ресурс, яким керує фундація Open Knowledge. Він полегшує пошук, обмін та повторне використання даних, що перебувають у відкритому доступі, особливо якщо йдеться про автоматизовані методики обробки.
• ScraperWiki. Онлайновий інструмент, призначений для вилучення «корисних фрагментів даних, щоб їх можна було використати в інших програмах або перетворити на об’єкт розгляду журналістів та дослідників». Більшість із програм-«скреперів» та їхніх баз даних є публічною, і її можна використовувати повторно.
• Портали даних Світового банку та ООН надають високорівневі дані-індикатори по всіх країнах, часто за тривалий період часу.
• З'являються нові проекти-стартапи, які ставлять за мету створення спільнот навколо процесів обміну та перепродажу даних. До них входить Buzzdata – місце обміну та співпраці над приватними та публічними базами даних – та «крамниці даних», такі як Infochimps та DataMarket.
• DataCouch — Місце, куди можна завантажити ваші дані, очистити їх, поширювати та візуалізувати.
• Цікавий підрозділ Google під назвою Freebase надає «об’єктні графи людей, місць та предметів, збудовані спільнотою, яка любить відкриті дані.»
• Дані досліджень. Є багато національних чи спеціалізованих агрегаторів дослідницьких даних, таких, як UK Data Archive. І хоч там буде значна кількість баз даних із вільним доступом, також буде багато даних, які вимагають передплати, або таких, які не можна повторно використовувати чи поширювати, не отримавши попередньо дозволу на це.
Запитайте на форумі
Шукайте вже існуючі відповіді або поставте запитання на Get The Data чи Quora. GetTheData – це довідковий сайт, де ви можете ставити питання, пов’язані з даними, в тому числі й про те, де шукати дані з певної теми, як побудувати запит чи отримати інформацію з певного джерела даних, які інструменти використовувати для дослідження набору даних у візуальний спосіб, як очистити дані чи трансформувати їх у формат, придатний для роботи.
Поставте питання в списку розсилки
Списки поштової розсилки об’єднують мудрість цілої спільноти із певної теми. Для журналістів даних чудовою відправною точкою є списки Data Driven Journalism List таNICAR-L. В обох присутні фахівці з журналістики даних та комп’ютерної журналістики (Computer Assisted Reporting, CAR), які беруть участь у найрізноманітніших проектах. Є шанси, що хтось вже працював над статтею, подібною до вашої, та має ідеї, з чого починати, а може, й сам лінк на дані. Ви також можете спробувати Project Wombat(«список дискусій із складних довідкових питань», велику кількість розсилок від фундації Open Knowledge, списки розсилки на theInfo, або ж пошукати списки розсилки із певної теми або у тому регіоні, який вас цікавить.
Вступіть до Hacks/Hackers
Hacks/Hackers («журналюги/хакери») – це міжнародна «низова» журналістська організація, яка швидко зростає, із десятками підрозділів та тисячами членів на чотирьох континентах світу. Її завдання – створити мережу журналістів ("hacks") та фахівців із технологій ("hackers"), які переосмислять майбутнє ЗМІ та інформацію. У такій широкій мережі у вас є гарні шанси знайти когось, хто знає, де шукати те, що вам потрібно.
Запитайте експерта
Професори, держслужбовці та галузеві фахівці часто знають, де саме потрібно шукати. Зателефонуйте їм. Напишіть електронного листа. Запрошуйте їх на події. Прийдіть до них у офіс. Будьте чемні. «Я пишу статтю на тему Х. Де мені знайти ці дані? Чи ви не знаєте, у кого вони є?»
Дізнайтеся про урядові інформаційні технології
Розуміння технічного та адміністративного контексту, у якому влада зберігає інформацію, пов’язану з її діяльністю, часто допомагає при спробах отримати доступ до даних. Чи це CORDIS, COINS чи THOMAS - абревіатури на позначення великих баз даних, - вам стане у великій пригоді, коли ви почнете розуміти їхнє призначення.
Знайдіть структурні схеми урядових організацій та відшукайте департаменти/підрозділи, які виконують перехресні функції (публікація, служби інформаційних технологій), і вивчіть їхні веб-сайти. Багато даних зберігаються в різних департаментах, і якщо для одного це може бути найзаповітніший скарб, інші можуть надавати до цих даних вільний доступ.
Шукайте динамічну інфографіку на урядових сайтах. Вона часто використовує структуровані джерела даних та інтерфейси прикладних програм (API), які можна використовувати незалежно (наприклад, апплети із відстежування рейсів літаків, ява-апплети прогнозу погоди тощо).
Робіть повторний пошук за фразами та «нечастотними» наборами слів, які ви помітили після того, як шукали востаннє.
Коли ви більше знаєте про те, що саме шукаєте, вам може більше пощастити із пошуковими системами.
Напишіть запит згідно із законами про свободу інформації
Якщо ви точно знаєте, що урядова структура має потрібні вам дані, запит у відповідності до закону про свободу інформації може стати вашим найкращим інструментом. Далі є більше інформації про те, як подати такий запит.
Браян Боєр (Chicago Tribune), Джон Кіф(WNYC), Фридрих Ліндберг (Open Knowledge Foundation), Джейн Парк (Creative Commons), Крис Ву (Hacks/Hackers)
Достарыңызбен бөлісу: |