Журналістика даних: Посібник


Шкільні звіти штату Іллінойс



бет23/46
Дата15.07.2016
өлшемі7.71 Mb.
#201068
1   ...   19   20   21   22   23   24   25   26   ...   46

Шкільні звіти штату Іллінойс


Рада з питань освіти штату Іллінойс щорічно публікує шкільні «табелі», звіти про демографічні дані та показники успішності в усіх державних школах Іллінойсу. Це великий масив даних, цьогорічна версія - це таблиця з 9500 колонками. Із такими розлогими даними пов’язана проблема: треба вибрати, що саме взяти для представлення (як у будь-якому проекті з розробки комп’ютерних програм, важко не створити програму, а створити правильну програму).


Ілюстрація 43. Шкільні звіти штату Іллінойс (Chicago Tribune)
Ми працювали з репортерами та редактором нашої команди «освітян», щоб вибрати цікаві дані (там є багато даних, які виглядають цікаво, але репортер скаже про них, що насправді вони некоректні або вводять у оману).

Ми також провели опитування та консультації зі співробітниками редакції, у яких діти навчаються в школах. Ми зробили це через «пробіл у досвіді» - ні в кого із команди, яка розробляла програму, не було дітей шкільного віку. У процесі ми дізналися багато нового про наших користувачів та про зручність користування (насправді – про її відсутність на той час!) попередньою версією нашого сайту про школи.

Нашою метою була програма, спрямована на декілька специфічних типів користувачів, а саме: (1) батьки, чиї діти навчаються в школі, і які хочуть дізнатися рівень цієї школи, та (2) батьки, які хочуть визначитися, де їм мешкати, адже якість шкіл зазвичай сильно впливає на таке рішення.

На першому етапі сайт про школи розробляли два програмісти протягом шести тижнів. Оновлена версія в 2011 році – два програмісти та чотири тижні. (Насправді над проектом активно працювало троє осіб, але в усіх це був неповний робочий день, тож в сумі їх можна вважати двома).

Ключовою частиною проекту був інформаційний дизайн. Хоч ми використовували набагато менше даних порівняно з тими, що були в наявності, це все одно чимало інформації, і було непросто зробити її придатною для «споживання». На щастя, ми «позичили» фахівця з нашого графічного підрозділу – дизайнера, який спеціалізується на представленні складної інформації. Він дав нам чимало знань про дизайн діаграм і, загалом, підвів нас до такої форми представлення, яка є читабельною але при цьому не недооцінює спроможність чи бажання читача розуміти цифрові дані.

Сайт був створений з використанням мов програмування Python та Django. Дані були представлені у форматі MongoDB —  інформація про школи є гетерогенною та ієрархічною, тому реляційні (табличні) бази даних погано для неї підходять (інакше ми б, напевне, використали PostgreSQL).

Для цього проекту ми вперше експериментували з інтерфейсом користувача Twitter Bootstrap, і результати нас повністю вдовольнили. Діаграми намальовані за допомогою Flot.

Програма також включає в себе багато написаних нами статей про показники шкіл. Тобто, вона працює як такий собі портал – коли з’являється нова стаття про показники школи, ми ставимо її в топі програми, поруч зі списками шкіл, пов’язаних із цією статтею (і коли виходить нова стаття, читачів chicagotribune.com скеровують на програму, а не на статтю).

Ранні відгуки показали, що читачам сподобалася наша програма про школи. Отримані нами коментарі були переважно позитивними (або принаймні конструктивними!), і кількість переглядів сторінок «вийшла з берегів». Бонусом стало те, що ці дані залишалися цікавими протягом цілого року: попри наші очікування, що кількість заходів зменшиться після того, як статті про школи зникатимуть зі стартової сторінки, наш досвід показав, що читачі заходили на цей сайт увесь рік.
Декілька ключових ідей, які ми винесли з цього проекту:


  • Підрозділ графічного дизайну – ваші друзі. Вони вміють робити складну інформацію приданою для споживання.

  • Просіть редакцію про допомогу. Це другий проект, для якого ми проводили в редакції опитування та інтерв’ю, і це чудовий спосіб дізнатися точку зору вдумливих людей, які, так само як наша аудиторія, мають різну фахову підготовку і зазвичай не дуже вправні з комп’ютерами.

  • Показуйте свою роботу! Більшість із відгуків являла собою запити про дані, які використовувала програма. Ми забезпечили публічний доступ до великої кількості даних через інтерфейс прикладної програми (API), і невдовзі опублікуємо ті речі, які спочатку не думали включати до проекту.



Браян Боєр, Chicago Tribune


Оплата лікування


Журналістам-розслідувальникам із CaliforniaWatch надійшла інформація, що велика мережа лікарень у Каліфорнії систематично вводить в оману федеральну медичну програму Medicare, яка оплачує витрати на медичне обслуговування американців віком 65 років та старше. Ця конкретна форма шахрайства, у якій були звинувачені лікарні, відома як «накрутка»: про пацієнтів повідомляють, нібито в них більш серйозні ускладнення – і вони потребують більших відшкодувань – ніж це є насправді.



Ілюстрація 44. Квашиоркор (California Watch)
Але джерелом цієї інформації була профспілка, що вела боротьбу із менеджментом лікарняної мережі, і команда CaliforniaWatch розуміла: слід провести незалежну перевірку, щоб стаття на цю тему була об’єктивною.

На щастя, у департаменті охорони здоров’я Каліфорнії є загальнодоступні дані, які представляють дуже детальну інформацію про кожен випадок лікування в усіх державних медичних установах. 128 змінних містять до 25 діагностичних кодів за довідником «Міжнародна статистична класифікація хвороб та пов’язаних із ними проблем зі здоров’ям» (відомим як ICD-9), опублікованим Всесвітньою організацією охорони здоров’я. І хоч пацієнтів не можна ідентифікувати за іменем, інші змінні повідомляють про вік пацієнта, які кошти були сплачені і яка лікарня вела лікування. Репортери дійшли висновку, що на основі цих записів можна побачити, чи лікарні, які належали до згаданої вище мережі, повідомляли про певні нетипові стани здоров’я частіше, ніж інші лікарні.

Масив даних був великим; майже чотири мільйони записів на рік, і репортери хотіли вивчити записи за шість років, щоб побачити, як змінювалися з часом певні ситуації. Вони замовили дані в державної агенції; ці дані надійшли на компакт-дисках, які нескладно було скопіювати на настільний комп’ютер. Репортер, який здійснював власне аналіз даних, використовував для роботи систему під назвою SAS. Вона дуже потужна (дає змогу аналізувати багато мільйонів записів), і її застосовують багато урядових установ, у тому числі й каліфорнійський департамент охорони здоров’я, але ця програма дорога – такий же аналіз можна зробити за допомогою будь-якого іншого інструментарію для роботи з базами даних, наприклад, Microsoft Access чи програма з відкритим кодом MySQL.

Маючи на руках дані та програми, написані для вивчення цих даних, було порівняно нескладно знайти підозрілі випадки. Наприклад, у одному із звинувачень ішлося про те, що мережа лікарень повідомляла про різні ступені дистрофії, пов’язаної з недостатнім харчуванням, значно частіше, ніж інші лікарні. За допомогою SAS аналітик даних отримав таблиці частот, де наводилася кількість випадків дистрофії по кожній з понад 300 каліфорнійських лікарень швидкої допомоги. Необроблені таблиці частот були імпортовані в Microsoft Excel для ретельнішого дослідження ситуацій у кожному госпіталі; спроможність Excel сортувати, фільтрувати та обраховувати відсотки на основі «сирих» цифр дозволили легко побачити ці ситуації.

Особливо вразили повідомлення про стан під назвою «квашиоркор», синдром дефіциту протеїну, який спостерігається майже виключно у недохарчованих дітей із нерозвинених країн, що страждають від голоду. Але мережа повідомляла, що в її лікарнях діагноз «квашиоркор» у каліфорнійців літнього віку ставили в 70 разів частіше, ніж у середньому по всіх лікарнях штату.

Для інших статей використовувалися аналогічні технології аналізу, які досліджували відсоток діагнозів на кшталт септицемії, енцефалопатії, артеріальної злоякісної гіпертензії та автономного нервового розладу. Інший аналіз дослідив звинувачення в тому, що лікарняна мережа приймала зі своїх відділів швидкої допомоги нетипово великий відсоток пацієнтів із страховкою Medicare, у яких джерело оплати послуг було більш надійним, ніж у багатьох інших пацієнтів швидкої.

Підведемо підсумки: публікації, подібні до вказаних вище, стають можливими тоді, коли ви використовуєте дані, щоб отримати докази і провести незалежну перевірку звинувачень, висунутих джерелами, у яких можуть бути суб’єктивні причини це робити. Ці публікації також є гарним прикладом того, наскільки потрібними є дієві закони про оприлюднення громадських даних; влада вимагає від лікарень надавати ці дані для того, щоб їх можна було проаналізувати – чи то владою, науковцями, журналістами-розслідувальниками, чи просто громадськими журналістами. Тема цих статей важлива тому, що вона досліджує, чи справді мільйони доларів із громадських коштів були витрачені належним чином.
Стів Дойг, Школа журналістики штату Аризона імені Уолтера Кронкайта




Достарыңызбен бөлісу:
1   ...   19   20   21   22   23   24   25   26   ...   46




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет