Сборник научных трудов по материалам Международной научно-практической конференции г. Белгород, 11 июня 2020 г



Pdf көрінісі
бет8/64
Дата19.05.2022
өлшемі6.35 Mb.
#457522
түріСборник
1   ...   4   5   6   7   8   9   10   11   ...   64
Sb k-11.06.20

 
Ключевые слова: машинное обучение, Data Mining, медицинская статистика, граф, 
математическое моделирование, математическое прогнозирование, дерево регрессии. 
Одним из самых распространенных методов обработки данных в области ме-
дицины является регрессионный анализ. В данном типе анализа происходит опреде-
лении аналитического выражения, в котором изменение одной величины обуслов-
лено влиянием одной или нескольких независимых величин, а также множество всех 
прочих факторов, оказывающих влияние на зависимую величину.
Важным классом регрессионных моделей – деревья регрессии, которые поз-
воляют осуществить разделение входного пространства на сегменты с последую-
щим построением для каждого из них собственной модели и представить кусочно-
заданную функцию регрессии в интуитивно понятной и наглядной форме.
Каждый шаг построения дерева регрессии с применением метода CART фак-
тически состоит из совокупности трех трудоемких операций: 

сортировка источника данных по столбцу;

разделение источника данных; 

вычисление индексов Gsplit для всех возможных разбиений.
Подсчет числа классов будет выполняться быстро, если знать число экземпля-
ров каждого класса в таблице и при переходе на новую строку таблицы изменять на 
единицу только число экземпляров одного класса – класса текущего примера. 
Все возможные разбиения для категориальных атрибутов удобно представ-
лять по аналогии с двоичным представлением числа.
При одномерном ветвлении по методу CART деревья классификации при по-
строении будут осуществлять полный перебор всех возможных вариантов одномер-
ного ветвления. При данном условии будет найдено несколько вариантов ветвления, 
в которых будет присутствовать тот, который даст наилучшую классификацию. 


15 
Если имеется много предикторных переменных с большим числом уровней, 
поиск методом CART может оказаться довольно продолжительным, так же этот ме-
тод имеет склонность выбирать для ветвления те предикторные переменные, у кото-
рых больше уровней.
Для работы ИСППР для деревьев решений и для деревьев регрессии в задачах 
планирования с помощью машинного обучения по электронным персонифицирован-
ным картам данных больных требуется следующие данные: 

фамилия, имя, отчество пациента

пол пациента; 

возраст пациента; 

дата рождения пациента; 

наличие очного посещения кардиолога или терапевта

присутствие отметки об обращении за амбулаторной помощью; 

вызовы скорой медицинской помощи; 

наличие отметки о госпитализации в стационар, включающая в себя дли-
тельность лечения, дату поступления и выписки пациента, а также количество дней, 
проведенных в стационаре. Данный макет представлен на рисунке 1:
Рис. 1. Макет ИСППР для деревьев решений в задачах планирования с помощью 
машинного обучения по электронным персонифицированным картам данных больных 


16 
В анализе использовались данные персонифицированных счетов-реестров 
2500 больных стенокардией, сделавших обращения за медицинской помощью в по-
ликлиники, СМП (скорую медицинскую помощь) и стационары.
Работа с переменными для того, чтобы применить метод CART, показана на 
рисунке 2: 
Рис. 2. Работа с переменными исходного набора данных 
Дерево классификации для переменной «Возраст», использующее опцию пол-
ный перебор деревьев с одномерным ветвлением по методу CART сумело правильно 
классифицировать из 2500 значений 2496 значений.
Граф дерева для этого дерева классификации показан на рисунке 3. 
В заголовке графа приведена общая информация, согласно которой получен-
ное дерево классификации имеет 7 ветвлений и 8 терминальных вершин.
Терминальные вершины (листья) – узлы дерева, начиная с которых никакие 
решения больше не принимаются [5].
Началом дерева считается самая верхняя решающая вершина, которую иногда 
также называют корнем дерева. На рисунке она расположена в левом верхнем углу 
и помечена цифрой 1.
Первоначально все значения приписываются к этой корневой вершине и пред-
варительно классифицируются, как 2 на это указывает надпись в правом верхнем 
углу вершины. Этот класс был выбран для начальной классификации потому, что 
число таких значений немного больше, чем других.


17 
Рис. 3. Граф дерева для данной классификации 
В левом верхнем углу графа имеется легенда, указывающая, какие столбики 
гистограммы вершины соответствуют значениям данной переменной. 
Корневая вершина разветвляется на две новых вершины. Под корневой вер-
шиной имеется текст, описывающий схему данного ветвления. Из него следует, что 
имеющие значение «Пол», которые меньше или равно 1,5, а таких значений 1086 
отнесутся к вершине 2, а отнесенных к вершине номер 3 будут 1410 наблюдений, у 
которых пол больше или равно 1,5, то есть женщины.
Затем, если мы обратим внимание на вершину 2, то ее деление продолжится 
следующим образом. А именно, количество пациентов, которые обращаются «к те-
рапевту диспансерно» составит 904 человека, а тех, кто не обратится 182 человека. 
Впоследствии те, кто не проигнорировал посещение терапевта, будут вынуждены, 
обратится по поводу осложнений, связанных с ИБС, и таких будет 898 человек. Те 6 
человек мужского пола, которые обращались к терапевту, им окажется достаточно 
очного приема специалиста для уменьшения развития ИБС в стенокардию. Осталь-
ные 898 человек распределятся следующим образом: 884 человека вызовут скорую 
медицинскую помощь, так как у них наступит стенокардия, а остальные 14 человека 
не будут нуждаться в госпитализации.
Если рассмотреть ситуацию с женским полом, то есть разветвление вершины 
3, то те, у кого были вызовы скорой медицинской помощи по стенокардии – их ко-
личество составит 1394 человека, а у 16 человек не было таких обращений, воз-
можно, у них наличии ИБС без ведущих за собой осложнений в виде стенокардии.


18 
Затем 1273 человека обратятся на лечебную диагностику со стенокардией, и 
затем эти же люди будут обращаться к терапевту за диспансерной помощью. У 121 
человека не будет обращений на лечебную диагностику стенокардии. 
Как видно из графа, проблемы с осложнением ишемической болезни в стено-
кардию наиболее чаще развито у женского пола, но при этом наблюдение и посеще-
ние специалистов, а так, же вызов скорой медицинской помощи практически всегда 
осуществляется у женщин. Мужчины реже обращаются на лечебные диагностики, 
что приводит к высокому значению вызовов скорой медицинской помощи.
На графе дерева вся эта информация представлена в простом, удобном для 
восприятия виде, так что для ее понимания требуется гораздо меньше времени. 
Метод деревьев регрессии CART является удобным, если окажется правиль-
ный выбор варианта анализа. Чтобы построить модель, дающую хороший прогноз, 
в любом случае нужно хорошо понимать природу взаимосвязей между предиктор-
ными и зависимыми переменными. 
Такой метод можно охарактеризовать, как набор иерархических, чрезвычайно 
гибких средств предсказания принадлежности наблюдений к определенному классу 
значений категориальной зависимой переменной по значениям одной или несколь-
ких предикторных переменных [6].
Алгоритм обладает следующими преимуществами: 

алгоритм не является статистическим, поэтому не требует вычисления па-
раметров вероятностных распределений; 

атрибуты разбиения выбираются непосредственно в процессе построения 
дерева, поэтому нет необходимости проводить процедуру отбора переменных для 
модели; 

алгоритм устойчив к выбросам и аномальным значениям; 

высокая скорость работы. 
К недостаткам алгоритма можно отнести неустойчивость данных, а именно 
небольшие изменения в обучающем множестве порождают значительные изменения 
в структуре дерева решений. 
Для оценки адекватности модели необходимо исследовать остатки [8].
Остатки должны иметь нулевое среднее значение и постоянную дисперсию, 
независимо от величин зависимых и независимых переменных, то есть быть нор-
мально распределены. Модель должна быть адекватна на всех отрезках интервала 
изменения зависимой переменной. Вначале
На графике, который показан на рисунке 4 наблюдаемые значения, должны 
представлять приблизительно горизонтальную полосу одинаковой ширины на всем 
ее протяжении.
Коэффициент корреляции равен нулю между регрессионными остатками и пе-
ременными. Преобразование переменных или ввод новых, а также переход к нели-
нейной модели является основанием к применению, если возникает сомнение в адек-
ватности модели, как например, если присутствует нелинейный тренд в регрессион-
ных остатках.
Линейная модель регрессии предполагает, что переменные не взаимодей-
ствуют друг с другом, и изменение одного из них не оказывает никакого влияния на 
значения других.


19 
Рис. 4. График наблюдаемых значений зависимой переменной полученных
по регрессионному уравнению 


Достарыңызбен бөлісу:
1   ...   4   5   6   7   8   9   10   11   ...   64




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет