Журналістика даних: Посібник


Журналістика даних: Посібник Краудсорсинг даних у Guardian Datablog



бет33/46
Дата15.07.2016
өлшемі7.71 Mb.
#201068
1   ...   29   30   31   32   33   34   35   36   ...   46

Журналістика даних: Посібник


Краудсорсинг даних у Guardian Datablog


За Вікіпедією, краудсорсинг (crowdsourcing, «колективне збирання інформації») – це процес розподіленого вирішення проблем чи виробництва, який передбачає передачу завдань на виконання мережі людей, яку ще називають «гурт». Далі читайте уривок з інтерв’ю Саймона Роджерса про те, як у Guardian Datablog застосували краудсорсинг для висвітлення скандалу з витратами парламентарів, теми вживання наркотиків та листів до Сари Пейлін.



Ілюстрація 65. Відредагована копія документа про побічні витрати парламентарія Стівена Паунда (Guardian)
Часом до вас потрапляє тонна файлів, статистичних даних чи звітів, які неможливо опрацювати одній людині. Так само ви можете роздобути матеріали, які нечитабельні або в поганому форматі, і ви мало що можете з цим зробити. І тут у пригоді може стати краудсорсинг.

Що вже точно є в Guardian, так це багато читачів, і багато пар очей. Якщо є цікавий проект, де нам потрібен їхній внесок, ми можемо попросити їх про допомогу. Саме це ми зробили у проекті про витрати британських парламентарів. У нас було 450 тисяч документів та дуже мало часу на роботу. Тож чи є кращій спосіб, ніж запропонувати це завдання нашій читацькій аудиторії?

Проект «Витрати парламентарів» відкрив багато прихованих фактів. Ми отримали більше тем для публікацій, ніж даних. Проект був винятково успішним у сенсі інтернет-трафіку. Людям він справді сподобався.

Наразі ми ведемо проект із MixMag про вживання наркотиків, який теж був феноменальним. Виглядає, що він буде масштабнішим за огляд злочинності в Британії за показниками кількості людей, які взяли в ньому участь, що просто прекрасно.

Ці два проекти поєднує те, що вони присвячені питанням, які справді хвилюють людей, і тому люди охоче витрачають на них свій час. Значний обсяг роботи з краудсорсингу, ініційованої нами, було виконано завдяки допомозі від «фанатиків». У проекті про витрати парламентарів спочатку був потужний сплеск трафіку, який згодом згас. Але у нас все ще є люди, які з одержимістю переглядають кожну сторінку, шукаючи в ній аномалії чи теми для статей. Одна особа опрацювала 30 тисяч сторінок. Вони знаються на цій справі.

Ми також застосовували краудсорсинг у проекті, присвяченому листам до Сари Пейлін. І знову це дуже допомогло в процесі просіювання сирої інформації в пошуках журналістських тем.

Якщо говорити про створення сюжетів для статей, то в нашому випадку краудсорсинг спрацював дуже добре. Але в сенсі генерації даних ми не дуже активно застосовували краудсорсинг.

Деякі з наших проектів із краудсорсингу, які справді добре спрацювали, були більш подібні на старомодні опитування. Коли ви запитуєте людей про їхній досвід, їхні життя і діяльність, це працює дуже добре, бо люди не схильні тут щось вигадувати. Вони кажуть те, що відчувають. А коли ми просили людей начебто виконати замість нас нашу роботу, тут треба було знаходити такий базовий підхід, за якого ви могли б довіряти тим даним, які створили люди для вас.

Щодо надійності даних, то я гадаю, що метод, використаний у проекті Old Weather, - це те що треба. Вони брали десять людей для опрацювання кожної позиції, що є гарним способом забезпечити точність. У проекті «Витрати парламентарів» ми намагалися мінімізувати ризик того, що парламентарі виходили б в онлайн та редагували свої власні записи, щоб виглядати в них краще. Але остаточного захисту від подібних дій нема. Можна лише відстежувати певні URL-адреси, або чи не надходять дані з району SW1 у Лондоні. Тож тут справа хитріша. Дані, які ми отримували, не завжди були надійними. І хоч статті вийшли чудові, ми не отримали «сирих» даних, якими можна було б із упевненістю користуватися.

Якщо б я давав пораду завзятим журналістам даних, які хочуть застосувати краудсорсинг задля збору даних, я б рекомендував їм робити це по такій темі, яка справді хвилює людей, і яка продовжуватиме їх хвилювати й після того, коли вона зникне з заголовків на перших сторінках. Ще допомагає залучати людей організація краудсорсингу у формі, подібній до гри. Коли ми вдруге готували публікацію про витрати, це було більше схоже на гру, де люди отримували окремі завдання. Це справді допомогло – давати людям специфічні завдання. Велика відмінність тут ось у чому: я вважаю, якщо ви просто даєте людям гору інформації, щоб вони її опрацювали, і кажете «ану працюйте», це виглядатиме як важка і невдячна робота. Тому я вважаю, що дуже важливо, щоб це був цікавий процес.


Маріанн Бучар, блог «Журналістика даних», інтерв’ю із Саймоном Роджерсом (Guardian)


Як Datablog використав колективний збір інформації для висвітлення теми квитків на Олімпіаду


Як на мене, проект із краудсорсингу, що отримав найбільшу кількість відгуків, - це проект, присвячений темі квитків на Олімпіаду. Тисячі людей у Великобританії намагалися роздобути квитки на Олімпійські ігри-2012 і були дуже обурені тим, що не отримали нічого. Люди зробили замовлення вартістю в кількасот фунтів, а їм сказали, що вони нічого не матимуть. Але насправді ніхто не знав, чи це просто кілька осіб голосно висловлювали невдоволення, а насправді більшість була цілком щаслива. Тож ми спробували знайти спосіб дізнатися про це.

Ми вирішили, що найкраще з того, що ми можемо зробити за відсутності будь-яких надійних даних з цієї теми, - це запитати людей. І ми подумали, що до цього треба підійти легко, бо це не буде збалансована вибірка.

Ми створили форму в Google і поставили в ній дуже конкретні запитання. Це насправді була довга форма, в ній запитувалося, на яку суму люди замовили квитки, скільки списали з їхніх карток, на які події вони ходили, і далі в такому ж сенсі.

Ми виставили результат як маленьку картинку на першій сторінці сайту, і її почали поширювати справді дуже швидко. Я вважаю, що це одна з найважливіших речей, ти не можеш просто думати «що мені потрібно знати для моєї статті», слід думати «про що люди хочуть мені розповісти просто зараз». І тільки коли ви усвідомите, про що саме люди хочуть розповісти, краудсорсинг буде успішним. Обсяг відгуків у цьому проекті, який був однією з наших перших спроб колективного збору даних, був просто гігантським. У нас була тисяча відповідей менше ніж за годину, і сім тисяч до кінця першого дня.




Ілюстрація 66. Скільки квитків на Олімпіаду ви отримали?: дані читачів (Guardian)
Тож, зрозуміло, тоді ми вирішили представити ці результати трохи серйозніше. Початково в нас не було гадки про те, чи добре все пройде. Тож ми додали кілька роз’яснень: читачі Guardian можуть бути заможнішими за інших людей, люди, які отримали менше, ніж сподівалися, можуть охочіше спілкуватися з нами і таке інше.

Ми не знали, наскільки вартісними будуть результати. Коли ми завершили, в нас було добрих сім тисяч записів як підґрунтя для статті, і ми виявили, що десь половина людей, які звернулися по квитки, не отримала нічого. Ми використали цю інформацію, і через те, що так багато людей взяли участь у опитуванні попереднього дня, результати викликали значний інтерес.

Через кілька тижнів вийшов офіційний підсумковий звіт, і наші цифрі були приголомшливо близькі до його цифр. Ми майже точно влучили в ціль. Я гадаю, певною мірою нам пощастило, але це ще й тому, що так багато людей взяли участь у опитуванні.

Якщо подібне питання ставити у коментарях до статті, ви будете обмежені в тому, що можна зробити з результатами. Тож починати слід з таких міркувань: «Який найкращий засіб для того, що я хочу взнати?» Чи це стрічка коментарів? Чи треба написати програму? І якщо ви пишете програму, то вам треба подумати: «А чи варто це того, щоб чекати? І чи це варто тих ресурсів, які потрібні на це?».

У нашому випадку ми використали сервіс Google Forms. Якщо хтось заповнює форму, ви бачите результат у вигляді рядка в таблиці. Це означає, що навіть коли таблиця доповнювалася, навіть коли результати ще надходили, можна було відкрити таблицю й відразу побачити всі результати.

Я міг б спробувати виконати роботу в Google, але я завантажив таблицю в Microsoft Excel і тоді виконував операції на зразок сортування від меншого до більшого, пошуку людей, які вирішили ввести текстом, а не цифрами суму того, скільки грошей вони потратили, і виправляв це все. Я вирішив виключати з таблиці якомога менше. Тож замість того, щоб приймати лише правильно введені відповіді, я намагався виправити інші. Люди наводили дані в іноземній валюті, тож я конвертував їх у фунти стерлінгів, і це було досить-таки марудно.

Але загальний аналіз було виконано за кілька годин, і я викинув очевидно безглузді відповіді. Багато людей вирішили заповнити форму і при цьому вказати, що вони нічого не витратили на квитки. Це трохи комічно, але нехай. Загалом таких відповідей було менше сотні з понад семи тисяч.

Було кількадесят людей, які ввели очевидно фальшиві, дуже завищені суми, намагаючись спотворити результати. Такі, як десять мільйонів фунтів. Тож це змусило мене застосувати ті ж принципи роботи з даними, які ми застосовуємо щодня. Я зробив те, що називається «зведена таблиця». Я застосував усереднення даних. Щось таке.

Ми не мали гадки, яку динаміку продемонструє цей проект, тож над ним працював лише я разом із редактором блогу «Спорт». Ми взялися до справи спільно і думали, що це може бути цікавий задум. Ми зробили це, від початку до кінця, за 24 години. У нас виникла ідея, ми обговорили її за ланчем, ми поставили форму на першу сторінку сайту, ми побачили, що це виявилося популярним, ми протримали її на першій сторінці протягом решти дня, і представили результат в онлайні наступного раку.

Ми вирішили використати сервіс Google Docs, бо він забезпечує повний контроль над результатом. Мені не потрібно було використовувати сторонні аналітичні інструменти. Я міг легко ввести дані до бази даних чи електронної таблиці. Коли ви починаєте використовувати спеціалізоване програмне забезпечення для опитувань, ви зазвичай будете змушені використовувати лише цей інструментарій. Якби інформація, про яку ми запитували, була б особливо делікатного характеру, можливо, ми б подумали, чи використовувати Google, і придумали б щось «своє». Але загалом було дуже легко поставити форму Google на стартову сторінку Guardian, і користувач фактично не помічав, що ми її використовуємо. Тож це дуже зручно.

Що можна порадити журналістам даних, які хочуть застосувати краудсорсинг: вам потрібно дуже чітко визначити те, про що хочете довідатися. Запитуйте про ті речі, на які може бути багато варіантів відповідей. Спробуйте встановити загальну демографічну картину щодо тих людей, з ким ви спілкуєтеся, щоб зрозуміти, чи не є ваша вибірка нерепрезентативною. Якщо ви запитуєте про кількісні дані, то спробуйте вказати в інструкції, що їх треба подавати в цифрах, що слід використовувати одну валюту тощо. Багато хто цього не зробить, але чим більше людей ви проінструктуєте, тим краще. І завжди, завжди додавайте поле для коментарів, бо багато людей стануть вводити інші дані лише тому, що насправді їм хочеться поділитися своєю точкою зору з цієї теми. Особливо коли йдеться про досвід чи обурення споживачів.
Маріанн Бучар, блог «Журналістика даних», інтерв’ю із Джеймсом Боллом (Guardian



Достарыңызбен бөлісу:
1   ...   29   30   31   32   33   34   35   36   ...   46




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет