Тема основные понятия информатики. Основные информационные процессы. Этапы информационного развития общества

Программа статистической разработки. Основы группировки данных

жүктеу/скачать 3.16 Mb.

бет	8/14
Дата	25.07.2016
өлшемі	3.16 Mb.
	#221176

1 ... 4 5 6 7 8 9 10 11 ... 14

Программа статистической разработки. Основы группировки данных

Программа разработки предусматривает реализуемые на втором этапе статистического исследования сводку и группировку статистических данных. Эти операции, осуществляемые на основе статистических таблиц, позволяют систематизировать полученные в ходе наблюдения данные, провести обработку и подсчет групповых итогов, расчеты простейших производных величин (статистических коэффициентов, средних величин). На этом же этапе, для повышения наглядности данных, предусматривается использование графических изображений. Иногда (в официальной статистике - почти всегда), на этом заканчивается весь процесс обработки собранных данных.

Группировка - основа статистической разработки (систематизации) первичного материала. Играет исключительную роль в статистике. Группировка, правильно спланированная на этапе подготовки исследования, позволяет облегчить регистрацию или понизить точность измерений на этапе сбора исходных данных без снижения результативности исследования в целом. Группировка собранной исходной информации определяет весь ход статистического анализа.

В ходе статистической разработки исследователю приходится сталкиваться со следующими вариантами группировок, каждый из которых имеет свои методические особенности:

разделение анализируемой статистической совокупности на группы по тем или иным признакам. С такого рода группировкой приходится сталкиваться уже при подготовке программы сбора и в ходе реализации программы разработки любого исследования;
объединение мелких однородных групп в более крупные. Этот вариант группировки применяется, как правило, уже в процессе статистической обработки данных, если выясняется несостоятельность мелких групп (малое число наблюдений, не четко выраженный характер распределений и т. п.). Возможность такой группировки целесообразно предусмотреть уже на этапе подготовки программы сбора данных, т.е. обеспечить возможность укрупнения групп в соответствии с общепринятыми границами групп;
комплексная группировка обеспечивает формирование комплексных оценок на основе многих учетных признаков, даже если они разнородны. Такая группировка часто делается на основе специально разрабатываемых алгоритмов или экспертных оценок (по аналогии — постановка диагноза на основе многих симптомов и результатов лабораторных обследований). Такая группировка представляет весьма сложную задачу и нередко сама по себе является самостоятельной целью исследования.

Выбор метода или способа группировки во многом определяется видом учетных признаков. Для группировки качественных признаков используются альтернативная шкала и шкала рангов.

Альтернативная шкала, шкала рангов, шкала номиналов, шкала категорий характеризуются тем, что для отличия одного «измерения» признака от другого «измерения» используются имена, метки, ярлыки (номер телефона, почтовый индекс и т.п.). Эти метки могут быть дихотомическими, т. е. допускать разбиение на два, либо на несколько вариантов. Например: пол, диагноз заболевания, место рождения. Измерение в такой шкале не содержит никаких указаний на величину признака или его качественную характеристику относительного другого признака (мужской пол лучше, женский - хуже). Вместе с тем, при статистической сводке для удобства работы все значения качественных учетных признаков часто кодируются (мужской пол - 1, женский - 2 и т.п.). Таким образом, эти характеристики приобретают некое количественное выражение, оставаясь, в принципе, качественными. Это количественное выражение нередко побуждает исследователя механически включать такие данные в статистическую обработку вместе с другими количественными характеристиками изучаемого явления, что является грубой ошибкой.

Шкала рангов (баллов) или порядковая шкала (шкала ординаров) представляет собой альтернативную шкалу, но дополнительно вводит ранговый порядок взаиморасположения. Это упорядочение производится по определенному правилу. Например: от большего к меньшего или наоборот. В этой шкале каждое конкретное значение признака может быть выше, ниже или равно другому значению. Например: стадия онкологического заболевания, разделение территорий по уровню загрязненности (высокий уровень, средний, низкий). Значения рангов (баллы, классы) при этом остаются качественными. Разность между ними не соответствует действительному различию признаков. Основой для выводов здесь является только соотношение «больше» - «меньше», т.е. анализируется только информация о взаимной упорядоченности признаков. С этими числами, как и в случае шкалы номиналов, нельзя делать привычные арифметические операции. Например, вряд ли справедливы утверждения, что знания отличника равны сумме знаний двоечника и троечника (хотя 5=2+3), или что сумма знаний двух двоечников равна знаниям одного хорошиста (4=2+2). Несмотря на это «средний балл» широко используется в отечественной педагогике.

Достоинством балльных шкал является возможность получения интегрированных оценок (табл. 1). Например:

Сравнительная оценка отношения к курению мужчин и женщин

Таблица 1

Отношение к курению	Баллы	Мужчины		Женщины
Отношение к курению	Баллы	%	Баллы	%	Баллы
Не курят	1	30	30*1=30	55	55*1=55
Выкуривают меньше пачки сигарет в день	2	39	39*2=78	40	40*2=80
Выкуривают больше пачки сигарет в день	3	31	31*3=93	5	5*3=15
Итого	-	100	201	100	150

Используются балльные шкалы и при получении комплексных оценок, когда составляющие этих оценок выражены разнородными величинами. Например: оценка физического развития может включать рост в сантиметрах, массу тела в килограммах, и т.п. Для получения комплексной оценки производится суммирование баллов. Если рост ребенка оценен 2 баллами, вес 3 баллами, то его комплексная оценка по росту и весу будет равна (2+3) 5 баллам.

Ключевым звеном успешного статистического анализа качественных ранжируемых признаков является выбор границ рангов. Неправильно выбранные границы не позволят вскрыть истинную картину распределения изучаемых явлений.

Оптимальное число рангов при распределении медико-биологической информации лежит в пределах 6-14. Чаще всего границы балльных оценок устанавливаются эмпирически, при этом желательно сохранить достаточную наглядность распределения изучаемой статистической совокупности. Как показывает практика, формирование балльных оценок исследователями подсознательно происходит в соответствии с психофизическим законом Фехнера, согласно которому сила ощущения каких-либо раздражителей изменяется в арифметической прогрессии, в то время как сила явления, вызывающая раздражение, изменяется в геометрической прогрессии. Учет этого обстоятельства помогает лучшему восприятию и осмыслению статистических данных.

Интервальные шкалы позволяют получать количественные оценки объектов исследования (учетных признаков), упорядочивать объекты исследования, численно выражать их характеристики и проводить сравнение. Например, увеличение при некоторой дозированной нагрузке диастолического давления в легочной артерии на 4,7мм.рт.ст. (с 10,5 до 15,2 мм рт. ст.).

Относительные шкалы очень похожи на интервальные шкалы. В дополнение ко всем свойствам переменных, измеренных в интервальной шкале, их характерной чертой является наличие нулевой точки. Типичный пример шкалы отношений - температура по Кельвину. Можно вполне определенно утверждать, что температура 200° вдвое выше, чем 100°. Интервальные шкалы (шкала Цельсия) не обладают данным свойством шкалы отношения.

Выделяют следующие основные виды группировки в зависимости от конкретной цели статистического исследования (табл. 2).

Классификация статистических группировок

Таблица 2

Аналитические	Структурные	Типологические	Специальные (балансовые, матричные и т. д.)
Характеризуют взаимосвязи между признаками, проявляют основные тенденции	Выявляют состав, структуру обследованных групп	Характеризуют основные группы (типы групп признаков)	Используются при составлении балансов предприятий и учреждений, отраслей промышленности и т.п.

Аналитическая группировка выявляет взаимосвязи между явлениями (признаками их характеризующими). При этом они подразделяются на факторные и результативные. Взаимосвязь проявляется в систематическом изменении результативного признака в связи с изменением факторного. Например: температура тела влияет на частоту пульса, в зависимости от величины роста изменяется вес и т.п.

Структурная группировка выявляет состав, строение однородной в качественном отношении статистической совокупности. Например: состав больных по полу, возрасту, диагнозу и т.п. Сопоставление данных структурной группировки во времени дает представление о структурных сдвигах.

Группировка типологическая - с ее помощью в статистической совокупности выделяются качественно однородные в существенном отношении группы. Например: группы больных с одинаковым диагнозом, с одинаковым исходом заболеваний и т.п.

При статистической разработке материала любого исследования необходимо учитывать существующие правила и стандарты определения группировочных признаков и границ групп (возрастно-половые группировки, группировки по категориям тяжести труда и т.п.). Не соблюдение правил формирования этих группировок ведет к потере ценности данных. Это обусловлено следующими причинами:

Во-первых, невозможностью сравнения полученных данных с данными других исследований. Например: для общей оценки возрастного состава применяется следующее укрупненное распределение на три группы 0-14 лет, 15-59 лет, 60 лет и старше. Если использовать группы 0-16 лет или 15-50 лет, то полученные данные в этом случае будут просто несопоставимыми.

Во-вторых, объединение в стандартные группы обусловлено определенными мотивами, игнорирование которых может лишить научной содержательности все исследование. Например, группировка людей по возрастным группам производится с учетом физиологических особенностей развития организма человека, действующего законодательства (трудового, пенсионного и т.п.), практикой экономического анализа и демографических исследований. В качестве примера рассмотрим границы и мотивы образования возрастно-половых групп, при формировании которых исследователями допускается наибольшее число ошибок. В национальной статистике выделяют следующие возрастно-половые группы (в границах точного возраста):

дети до 3 лет. Эта группа находится под наблюдением детских консультаций и обслуживается детскими яслями. Из них часто выделяются дети в возрасте 0 лет и 1 год;
дошкольники — дети от 3 до 7 лет. Обслуживаются детскими садами;
дети и подростки школьного возраста — 7—13 лет и 13-16 лет;
подростки — 16-18 лет;
трудоспособный контингент — мужчины 16-60 лет, женщины 16-55 лет;
лица пенсионного возраста — мужчины 60 лет и старше, женщины 55 лет и старше;
женщины репродуктивного возраста — обычно от 15 до 45 лет.

Иногда для группировки по возрасту используют одногодичные или (для взрослых) пятилетние, реже десятилетние интервалы. Группировка с пятилетним интервалом выглядит следующим образом: до 20 лет, 20-24, 25-29, 30-35 и т.д. С десятилетним интервалом: до 20 лет, 20-29, 30-39 и т.д. При изучении заболеваемости в связи с производственными факторами обычно используются аналогичные 5- и 10-летние интервалы группировок по стажу работы: 1-4 года, 5-9 лет, 10-14 лет и т.д. При этом, в группу 1-4 года относятся лица со стажем от 1 года до 4 лет 11 мес. 29 дней. Аналогично в группу со стажем от 5 до 10 лет относятся лица, отработавшие от 5 лет до 9 лет 11 мес. и 29 дней.

В ряде случаев целесообразно расчленять отдельные крупные группы на более мелкие. Например: до 20 лет, 20—29, 30—39, 40-44, 45—49, 50-59, 60 и старше.

Группировка данных по своей сути представляет собой процесс классификации, т.е. установление принадлежности явлений и объектов к определенным классам. В государственной статистике для этого используются классификаторы - специальные справочники, инструкции и указатели в виде алфавитных и систематических словарей, дополняемых стандартным перечнем объектов и их групп. Использование классификаторов в официальной статистике является обязательным и имеет силу государственного стандарта. Например: по специальным инструкциям формируется статистика данных об общей, госпитализированной заболеваемости, инвалидности, смертности и т.п.

Основные классификаторы рассчитаны на длительное использование. Однако с течением времени они пересматриваются, дополняются, в них вносятся необходимые коррективы. Так, с 1983 до 1999 года в СССР, а затем в России общепринятой считалась Международная статистическая классификация болезней, травм и причин смерти 9-го пересмотра. С 1999 года вводится классификация 10-го пересмотра (с 01.01.99 г. по Приказу Минздрава России № 3 от 12.01.98 г.).

В медико-биологических научных исследованиях использование государственных и международных классификаторов болезней и причин смерти не является строго обязательным. Однако только их прямое применение или возможность путем вторичной группировки привести данные исследований в рамки, определяемые общепринятыми классификаторами, гарантирует сопоставимость статистических материалов о заболеваемости, причинах смерти разных категорий населения на различных территориях страны и за рубежом.

жүктеу/скачать 3.16 Mb.

Достарыңызбен бөлісу:

1 ... 4 5 6 7 8 9 10 11 ... 14