Точность системы в пределах класса – это доля документов действительно принадлежащих данному классу относительно всех документов которые система отнесла к этому классу.
Полнота системы – это доля найденных классификатором документов принадлежащих классу относительно всех документов этого класса в тестовой выборке.
Эти значения легко рассчитать на основании таблицы контингентности, которая составляется для каждого класса отдельно.
В таблице содержится информация сколько раз система приняла верное и сколько раз неверное решение по документам заданного класса. А именно:
Тогда, точность и полнота определяются следующим образом:
-мера
Понятно, что, чем выше точность и полнота, тем лучше. Но в реальной жизни максимальная точность и полнота не достижимы одновременно и приходится искать некий баланс. Поэтому, хотелось бы иметь некую метрику которая объединяла бы в себе информацию о точности и полноте нашего алгоритма. В этом случае нам будет проще принимать решение о том какую реализацию запускать в production (у кого больше тот и круче). Именно такой метрикой является -мера.
F-мера представляет собой гармоническое среднее между точностью и полнотой. Она стремится к нулю, если точность или полнота стремится к нулю.
Преобразование данных. Метод главных компонент, метод независимых компонент. Факторный анализ, процедура вращения, матричные разложения. Задача уменьшения размерности в данных. Метод главных компонент.
Метод Главных Компонент (англ. Principal Components Analysis, PCA) — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации.
Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных или к сингулярному разложению матрицы данных (сингулярное разложение – декомпозиция вещественной матрицы с целью ее приведения к каноническому виду).
Пусть имеется некоторая выборка
Цель — представить выборку в пространстве меньшей размерности , причем в новом пространстве «схожие» объекты должны образовывать компактные области.
Причины сокращения размерности:
уменьшение вычислительных затрат при обработке данных
борьба с переобучением
сжатие данных для более эффективного хранения информации
визуализация данных
извлечение признаков
интерпретация данных
Идея метода главных компонент — проекция данных на гиперплоскость с наименьшей ошибкой проектирования. Эквивалентная формулировка: поиск проекции на гиперплоскость с сохранением большей части дисперсии в данных.
Достарыңызбен бөлісу: |