Ключевые слова: машинное обучение, Data Mining, медицинская статистика, граф,
математическое моделирование, математическое прогнозирование, дерево регрессии.
Одним из самых распространенных методов обработки данных в области ме-
дицины является регрессионный анализ. В данном типе анализа происходит опреде-
лении аналитического выражения, в котором изменение одной величины обуслов-
лено влиянием одной или нескольких независимых величин, а также множество всех
прочих факторов, оказывающих влияние на зависимую величину.
Важным классом регрессионных моделей – деревья регрессии, которые поз-
воляют осуществить разделение входного пространства на сегменты с последую-
щим построением для каждого из них собственной модели и представить кусочно-
заданную функцию регрессии в интуитивно понятной и наглядной форме.
Каждый шаг построения дерева регрессии с применением метода CART фак-
тически состоит из совокупности трех трудоемких операций:
-
сортировка источника данных по столбцу;
-
разделение источника данных;
-
вычисление индексов Gsplit для всех возможных разбиений.
Подсчет числа классов будет выполняться быстро, если знать число экземпля-
ров каждого класса в таблице и при переходе на новую строку таблицы изменять на
единицу только число экземпляров одного класса – класса текущего примера.
Все возможные разбиения для категориальных атрибутов удобно представ-
лять по аналогии с двоичным представлением числа.
При одномерном ветвлении по методу CART деревья классификации при по-
строении будут осуществлять полный перебор всех возможных вариантов одномер-
ного ветвления. При данном условии будет найдено несколько вариантов ветвления,
в которых будет присутствовать тот, который даст наилучшую классификацию.
15
Если имеется много предикторных переменных с большим числом уровней,
поиск методом CART может оказаться довольно продолжительным, так же этот ме-
тод имеет склонность выбирать для ветвления те предикторные переменные, у кото-
рых больше уровней.
Для работы ИСППР для деревьев решений и для деревьев регрессии в задачах
планирования с помощью машинного обучения по электронным персонифицирован-
ным картам данных больных требуется следующие данные:
-
фамилия, имя, отчество пациента;
-
пол пациента;
-
возраст пациента;
-
дата рождения пациента;
-
наличие очного посещения кардиолога или терапевта;
-
присутствие отметки об обращении за амбулаторной помощью;
-
вызовы скорой медицинской помощи;
-
наличие отметки о госпитализации в стационар, включающая в себя дли-
тельность лечения, дату поступления и выписки пациента, а также количество дней,
проведенных в стационаре. Данный макет представлен на рисунке 1:
Рис. 1. Макет ИСППР для деревьев решений в задачах планирования с помощью
машинного обучения по электронным персонифицированным картам данных больных
16
В анализе использовались данные персонифицированных счетов-реестров
2500 больных стенокардией, сделавших обращения за медицинской помощью в по-
ликлиники, СМП (скорую медицинскую помощь) и стационары.
Работа с переменными для того, чтобы применить метод CART, показана на
рисунке 2:
Рис. 2. Работа с переменными исходного набора данных
Дерево классификации для переменной «Возраст», использующее опцию пол-
ный перебор деревьев с одномерным ветвлением по методу CART сумело правильно
классифицировать из 2500 значений 2496 значений.
Граф дерева для этого дерева классификации показан на рисунке 3.
В заголовке графа приведена общая информация, согласно которой получен-
ное дерево классификации имеет 7 ветвлений и 8 терминальных вершин.
Терминальные вершины (листья) – узлы дерева, начиная с которых никакие
решения больше не принимаются [5].
Началом дерева считается самая верхняя решающая вершина, которую иногда
также называют корнем дерева. На рисунке она расположена в левом верхнем углу
и помечена цифрой 1.
Первоначально все значения приписываются к этой корневой вершине и пред-
варительно классифицируются, как 2 на это указывает надпись в правом верхнем
углу вершины. Этот класс был выбран для начальной классификации потому, что
число таких значений немного больше, чем других.
17
Рис. 3. Граф дерева для данной классификации
В левом верхнем углу графа имеется легенда, указывающая, какие столбики
гистограммы вершины соответствуют значениям данной переменной.
Корневая вершина разветвляется на две новых вершины. Под корневой вер-
шиной имеется текст, описывающий схему данного ветвления. Из него следует, что
имеющие значение «Пол», которые меньше или равно 1,5, а таких значений 1086
отнесутся к вершине 2, а отнесенных к вершине номер 3 будут 1410 наблюдений, у
которых пол больше или равно 1,5, то есть женщины.
Затем, если мы обратим внимание на вершину 2, то ее деление продолжится
следующим образом. А именно, количество пациентов, которые обращаются «к те-
рапевту диспансерно» составит 904 человека, а тех, кто не обратится 182 человека.
Впоследствии те, кто не проигнорировал посещение терапевта, будут вынуждены,
обратится по поводу осложнений, связанных с ИБС, и таких будет 898 человек. Те 6
человек мужского пола, которые обращались к терапевту, им окажется достаточно
очного приема специалиста для уменьшения развития ИБС в стенокардию. Осталь-
ные 898 человек распределятся следующим образом: 884 человека вызовут скорую
медицинскую помощь, так как у них наступит стенокардия, а остальные 14 человека
не будут нуждаться в госпитализации.
Если рассмотреть ситуацию с женским полом, то есть разветвление вершины
3, то те, у кого были вызовы скорой медицинской помощи по стенокардии – их ко-
личество составит 1394 человека, а у 16 человек не было таких обращений, воз-
можно, у них наличии ИБС без ведущих за собой осложнений в виде стенокардии.
18
Затем 1273 человека обратятся на лечебную диагностику со стенокардией, и
затем эти же люди будут обращаться к терапевту за диспансерной помощью. У 121
человека не будет обращений на лечебную диагностику стенокардии.
Как видно из графа, проблемы с осложнением ишемической болезни в стено-
кардию наиболее чаще развито у женского пола, но при этом наблюдение и посеще-
ние специалистов, а так, же вызов скорой медицинской помощи практически всегда
осуществляется у женщин. Мужчины реже обращаются на лечебные диагностики,
что приводит к высокому значению вызовов скорой медицинской помощи.
На графе дерева вся эта информация представлена в простом, удобном для
восприятия виде, так что для ее понимания требуется гораздо меньше времени.
Метод деревьев регрессии CART является удобным, если окажется правиль-
ный выбор варианта анализа. Чтобы построить модель, дающую хороший прогноз,
в любом случае нужно хорошо понимать природу взаимосвязей между предиктор-
ными и зависимыми переменными.
Такой метод можно охарактеризовать, как набор иерархических, чрезвычайно
гибких средств предсказания принадлежности наблюдений к определенному классу
значений категориальной зависимой переменной по значениям одной или несколь-
ких предикторных переменных [6].
Алгоритм обладает следующими преимуществами:
-
алгоритм не является статистическим, поэтому не требует вычисления па-
раметров вероятностных распределений;
-
атрибуты разбиения выбираются непосредственно в процессе построения
дерева, поэтому нет необходимости проводить процедуру отбора переменных для
модели;
-
алгоритм устойчив к выбросам и аномальным значениям;
-
высокая скорость работы.
К недостаткам алгоритма можно отнести неустойчивость данных, а именно
небольшие изменения в обучающем множестве порождают значительные изменения
в структуре дерева решений.
Для оценки адекватности модели необходимо исследовать остатки [8].
Остатки должны иметь нулевое среднее значение и постоянную дисперсию,
независимо от величин зависимых и независимых переменных, то есть быть нор-
мально распределены. Модель должна быть адекватна на всех отрезках интервала
изменения зависимой переменной. Вначале
На графике, который показан на рисунке 4 наблюдаемые значения, должны
представлять приблизительно горизонтальную полосу одинаковой ширины на всем
ее протяжении.
Коэффициент корреляции равен нулю между регрессионными остатками и пе-
ременными. Преобразование переменных или ввод новых, а также переход к нели-
нейной модели является основанием к применению, если возникает сомнение в адек-
ватности модели, как например, если присутствует нелинейный тренд в регрессион-
ных остатках.
Линейная модель регрессии предполагает, что переменные не взаимодей-
ствуют друг с другом, и изменение одного из них не оказывает никакого влияния на
значения других.
19
Рис. 4. График наблюдаемых значений зависимой переменной полученных
по регрессионному уравнению
Достарыңызбен бөлісу: |