Линейная алгебра и мат. Статистика



бет14/49
Дата09.01.2023
өлшемі294.26 Kb.
#468247
1   ...   10   11   12   13   14   15   16   17   ...   49
Вопросы Big Data

Точность системы в пределах класса – это доля документов действительно принадлежащих данному классу относительно всех документов которые система отнесла к этому классу.

  • Полнота системы – это доля найденных классификатором документов принадлежащих классу относительно всех документов этого класса в тестовой выборке.

    Эти значения легко рассчитать на основании таблицы контингентности, которая составляется для каждого класса отдельно.

    В таблице содержится информация сколько раз система приняла верное и сколько раз неверное решение по документам заданного класса. А именно:

    Тогда, точность и полнота определяются следующим образом:


    -мера
    Понятно, что, чем выше точность и полнота, тем лучше. Но в реальной жизни максимальная точность и полнота не достижимы одновременно и приходится искать некий баланс. Поэтому, хотелось бы иметь некую метрику которая объединяла бы в себе информацию о точности и полноте нашего алгоритма. В этом случае нам будет проще принимать решение о том какую реализацию запускать в production (у кого больше тот и круче). Именно такой метрикой является -мера.
    F-мера представляет собой гармоническое среднее между точностью и полнотой. Она стремится к нулю, если точность или полнота стремится к нулю.


    1. Преобразование данных. Метод главных компонент, метод независимых компонент. Факторный анализ, процедура вращения, матричные разложения. Задача уменьшения размерности в данных. Метод главных компонент.

    Метод Главных Компонент (англ. Principal Components Analysis, PCA) — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации.
    Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных или к сингулярному разложению матрицы данных (сингулярное разложение – декомпозиция вещественной матрицы с целью ее приведения к каноническому виду).

    Пусть имеется некоторая выборка


    Цель — представить выборку в пространстве меньшей размерности , причем в новом пространстве «схожие» объекты должны образовывать компактные области.
    Причины сокращения размерности:

    • уменьшение вычислительных затрат при обработке данных

    • борьба с переобучением

    • сжатие данных для более эффективного хранения информации

    • визуализация данных

    • извлечение признаков

    • интерпретация данных

    Идея метода главных компонент — проекция данных на гиперплоскость с наименьшей ошибкой проектирования. Эквивалентная формулировка: поиск проекции на гиперплоскость с сохранением большей части дисперсии в данных.


    Достарыңызбен бөлісу:
  • 1   ...   10   11   12   13   14   15   16   17   ...   49




    ©dereksiz.org 2024
    әкімшілігінің қараңыз

        Басты бет