Предсказание дефолта облигаций, используя проспект эмиссии


Методы построения моделей и оценки их качества



бет3/7
Дата12.07.2016
өлшемі1.5 Mb.
#194396
түріОбзор
1   2   3   4   5   6   7

Методы построения моделей и оценки их качества.



Логит и логит с регуляризацией.
Для построения скоринговой модели в данной работе будет использоваться логит-анализ14. Логистическая регрессия применяется для оценки вероятности возникновения какого-либо события, принимая в расчет множество переменных. Для построения логистической регрессии вводится зависимая переменная, которая обычно принимает два значения: 0 и 1, а также набор независимых переменных, по значениям которых будет оцениваться вероятность того, что зависимая переменная примет одно из двух своих значений.

В основе логистической регрессии лежит так называемая логистическая функция (сигмоид), которая всегда принимает значения от 0 до 1 и имеет следующий вид:



 (Уравнение 1).

где , θ и x – вектор-столбцы значений коэффициентов регрессии (θ1, … ,θm) и независимых переменных (x1, …, xm).

Для подбора коэффициентов регрессии (θ1, … ,θm) вводится следующая функция штрафа, которую необходимо минимизировать:

где




Принимая во внимание, что y всегда равняется либо 0, либо 1



Таким образом, функция штрафа принимает следующий вид:



Кроме обычной логистической регрессии также применяется логистическая регрессия с регуляризацией. Данный метод применяется для уменьшения эффекта переобучения и заключается в том, что вектор параметров θ рассматривается как случайный вектор с некоторой заданной плотностью распределения. В случае логистической регрессии с регуляризацией функция штрафов принимает следующий вид:



где λ – параметр регуляризации.

Наша цель – по-прежнему минимизация данной функции штрафа относительно вектора параметров θ. С увеличением значений параметров регрессии, значение функции штрафов также будет увеличиваться.
Метод скользящего контроля.



Для тестирования моделей в данной работе используется метод скользящего контроля15. Метод скользящего контроля заключается в следующем. Исходная выборка делится на две подвыборки: обучающую и контрольную. По обучающей подвыборке происходит построение модели, после чего средняя ошибка модели оценивается с помощью контрольной подвыборки. Иными словами, по обучающей подвыборке строится модель, а затем с помощью данных из контрольной подвыборки проверяется, насколько верно данная модель способна предсказывать результат на новых данных, не использованных для ее построения. Существует несколько разновидностей скользящего контроля. Вследствие малого размера выборки во избежание ее дальнейшего уменьшения в данной работе используется контроль по отдельным объектам (leave-one-out CV). Данная разновидность метода скользящего контроля в качестве контрольной подвыборки использует одно наблюдение. То есть, если выборка состоит из N наблюдений, данный метод предполагает построение модели по N – 1 наблюдению и тестирование модели на оставшейся переменной. Такое перестроение модели повторяется N раз.

Оценка качества построенной модели.
Для оценки качества построенной модели в данной работе используется метод кривой ошибок или ROC-кривой16 (receiver operating characteristic, операционная характеристика приемника). Это график, позволяющий оценить качество бинарной классификации. В данном конкретном случае этот график будет отображать долю верно определенных дефолтных облигаций в зависимости от доли неверно определенных дефолтных облигаций при последовательном рассмотрении каждого элемента выборки.

Для построения кривой ошибок сделаем предположение, что определение облигации как дефолтной – это положительный исход. Мы можем составить таблицу сопряженности, отображающую соотношение определенных моделью и фактических исходов.



Таблица 2. Таблица сопряженности. Источник: Н. Паклин, «Логистическая регрессия и ROC-анализ – математический аппарат»




Фактически

Модель

Дефолт

Не дефолт

Дефолт

TP

FP

Не дефолт

FN

TN




  • TP (True Positives) – верно классифицированные дефолтные облигации;

  • TN (True Negatives) – верно классифицированные недефолтные облигации;

  • FN (False Negatives) – дефолтные облигации, классифицированные как недефолтные (ошибка I рода);

  • FP (False Positives) – недефолтные облигации, классифицированные как дефолтные (ошибка II рода).

Для построения ROC-кривой используются не абсолютные показатели, а относительные:



  • Доля истинно положительных исходов (True Positives Rate):



  • Доля ложноположительных исходов (False Positives Rate):


Также вводится еще два определения: чувствительность (sensitivity), которая равняется доле истинно положительных исходов:

А также специфичность (specifity) – доля истинно отрицательных исходов, определенных моделью:




Кривая ошибок строится следующим образом:

  • При последовательном добавлении каждого следующего параметра в выборке считаются значения чувствительности Se и специфичности Sp.

  • Строится график зависимости: по оси Y откладывается чувствительность Se, по оси X – (100 – Sp), или, что то же самое FPR.

Для непосредственной оценки качества модели используется показатель площади под кривой ошибок (Area Under Curve, AUC). Теоретически этот показатель может изменяться от 0 до 1. Но, так как величина показателя равная 0.5 соответствует модели, в которой тот или иной исход предсказывается просто случайным выбором, обычно говорят об изменении показателя площади под кривой в диапазоне от 0.5 до 1. Чем ближе показатель к 1, тем лучше построенная модель. Обычно при оценке качества полученной модели используется следующая шкала значений площади под кривой ошибок:

Таблица 3. Шкала значений AUC для оценки качества модели. Источник: Н. Паклин, «Логистическая регрессия и ROC-анализ – математический аппарат»

Интервал AUC

Качество модели

0.9 – 1.0

Отличное

0.8 – 0.9

Очень хорошее

0.7 – 0.8

Хорошее

0.6 – 0.7

Среднее

0.5 – 0.6

Неудовлетворительное




Достарыңызбен бөлісу:
1   2   3   4   5   6   7




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет