Содержание
Подбор формул по графику. Линия тренда
Подбор формул со многими неизвестными
Расчет стоимости недвижимости
Оценка эффективности рекламы
Подбор формул по графику. Линия тренда
Для всех рассмотренных выше задач удавалось построить уравнение или систему уравнений. Но во многих случаях при решении практических задач имеются лишь экспериментальные (результаты измерений, статистические, справочные, опытные) данные. По ним с определенной мерой близости пытаются восстановить эмпирическую формулу (уравнение), которая может быть использована для поиска решения, моделирования, оценки решений, прогнозов.
Процесс подбора эмпирической формулы P(x) для опытной зависимости F(x) называется аппроксимацией (сглаживанием). Для зависимостей с одним неизвестным в Excel используются графики, а для зависимостей со многими неизвестными – пары функций из группы Статистические ЛИНЕЙН и ТЕНДЕНЦИЯ, ЛГРФПРИБЛ и РОСТ.
В настоящем разделе рассматривается аппроксимация экспериментальных данных с помощью графиков Excel: на основе данных стоится график, к нему подбирается линия тренда, т.е. аппроксимирующая функция, которая с максимальной степенью близости приближается к опытной зависимости. Excel предоставляет 5 видов аппроксимирующих функций:
-
Линейная – y=cx+b. Это простейшая функция, отражающая рост и убывание данных с постоянной скоростью.
-
Полиномиальная – y=c0+c1x+c2x2+…+c6x6. Функция описывает попеременно возрастающие и убывающие данные. Полином 2-ой степени может иметь один экстремум (min или max), 3-ей степени – до 2-х экстремумов, 4-ой степени – до 3-х и т.д.
-
Логарифмическая – y=clnx+b. Эта функция описывает быстро возрастающие (убывающие) данные, которые затем стабилизируются.
-
Степенная – y=cxb, (х>0 и y>0). Функция отражает данные с постоянно увеличивающейся (убывающей) скоростью роста.
-
Экспоненциальная – y=cebx, (e – основание натурального логарифма). Функция описывает быстро растущие (убывающие) данные, которые затем стабилизируются.
Степень близости подбираемой функции оценивается коэффициентом детерминации R2. Если нет других теоретических соображений, то выбирают функцию с коэффициентом R2, стремящимся к 1. Отметим, что подбор формул с использованием линии тренда позволяет установить как вид эмпирической формулы, так и определить численные значения неизвестных параметров.
Для всех 5 видов функций используется аппроксимация данных по методу наименьших квадратов. Подробнее о формулах расчета линии тренда и коэффициента детерминации смотрите в справке по F1, введя поиск слов «линия тренда».
В качестве примера рассмотрим зависимость продаж от рекламы, заданную следующими статистическими данными по некоторой фирме:
Реклама (тыс. руб)
|
1,5
|
2
|
2,5
|
3
|
3,5
|
4
|
4,5
|
5
|
5,5
|
6
|
Продажи (тыс. шт)
|
3
|
13
|
25
|
35
|
40
|
45
|
48
|
50
|
51
|
|
Необходимо построить функцию, наилучшим образом отражающую эту зависимость. Кроме того, необходимо оценить продажи для рекламных вложений в 6 тыс. руб.
Приступим к решению: в первую очередь введите эти данные в Excel и постройте график, как на рис. 2.48. Как видно, график построен на основании диапазона B2:J2. Далее, щелкнув правой кнопкой мыши по графику, добавьте линию тренда, как показано на рис. 2.48.
В открывшемся окне настройки (рис. 2.49), в закладке Тип выберите для аппроксимации логарифмическую линию тренда (по виду графика). В закладке Параметры установите флажки, отображающие на графике уравнение и коэффициент детерминации.
После нажатия ОК Вы получите результат, как на рис. 2.50. Коэффициент детерминации R2=0.9846, что является неплохой степенью близости. Для подтверждения правильности выбранной функции (поскольку других теоретических соображений нет) спрогнозируйте развитие продаж на 10 периодов вперед. Для этого щелкните правой кнопкой по линии тренда – измените формат – после этого в поле Прогноз: вперед на: (рис. 2.49) установите значение 10.
Рис. 2.48
Рис. 2.49
Рис. 2.50
После установки прогноза Вы увидите изменение кривой графика на 10 периодов наблюдения вперед, как на рис. 2.51. Он с большой долей вероятности отражает дальнейшее увеличение продаж с увеличением рекламных вложений.
Рис. 2.51
Теперь вернитесь к состоянию рис. 2.50, нажав кнопку Отменить на Панели инструментов. Попробуйте изменить формат линии тренда – установите полиномиальную линию тренда полиномом 2-ой степени – получите рис. 2.52.
Рис. 2.52
Как видно, полученная формула аппроксимирует исходную зависимость (на отрезке B2:J2) с большей степенью близости, т.к. R2=0.9973. В то же время, если сделать прогноз на 10 периодов вперед, то он будет не совсем верно отражать реальность: продажи не могут уменьшаться с увеличением рекламных вложений. Убедитесь в этом: сделайте прогноз на 10 периодов наблюдения вперед и получите график.
Опять вернитесь к состоянию рис. 2.50, нажав кнопку Отменить. Для вычисления продаж при рекламе в 6 тыс. руб. запишите в ячейку К2 формулу =23,796*LN(K1)+0,5961: должно получиться 43,2 тыс. штук.
В Excel имеется функция ПРЕДСКАЗ, которая вычисляет будущее значение Y по существующим парам значений X и Y значениям с использованием линейной регрессии. Функция Y по возможности должна быть линейной, т.е. описываться уравнением типа c+bx. Функция предсказания для нашего примера запишется так: =ПРЕДСКАЗ(K1;B2:J2;B1:J1). Запишите – должно получится значение 64.4.
Обратите внимание, что на рис. 2.50 ось Х подписана номерами периодов наблюдения, а на рис. 2.52 - значениями в точках наблюдения. Для нанесения значений на ось Х щелкните правой кнопкой мыши по графику и в выпавшем меню выберите пункт Исходные данные:
В открывшемся одноименном окне, в закладке Ряд, в поле Подписи оси Х, укажите диапазон ячеек, где записаны значения Х (здесь $B$1:$K$1).
Задачи для самостоятельного выполнения:
-
Постройте функцию, наилучшим образом отражающую зависимость и спрогнозируйте значения для следующего периода наблюдения со значением 5, основываясь на следующих данных:
Цена (руб)
|
1
|
1,5
|
2
|
2,5
|
3
|
3,5
|
4
|
4,5
|
5
|
Спрос (шт)
|
1300
|
700
|
500
|
200
|
100
|
70
|
50
|
40
|
|
-
Концентрация ядовитого вещества в водоеме изменялась во времени согласно таблице:
Время после выброса (часов)
|
1
|
3
|
5
|
8
|
Концентрация (мг/л)
|
8
|
2.8
|
1
|
0.3
|
Определите вид зависимости концентрации от времени и расчетную концентрацию в момент выброса.
Подбор формул со многими неизвестными
Использование линии тренда графиков Excel – наиболее наглядный и информативный способ восстановления зависимости и исследования связи между двумя переменными. Для зависимостей со многими неизвестными подбор формул выполняют с помощью специальных функций из группы Статистические - ЛИНЕЙН и ЛГРФПРИБЛ. Кроме того, функции ТЕНДЕНЦИЯ и РОСТ позволяют вычислить значения аппроксимирующей функции в диапазоне наблюдения. Еще один инструмент для подбора формул со многими неизвестными Регрессия, входящий в Пакет анализа (СервисАнализ данных…), будет рассмотрен в следующем разделе.
В настоящем разделе рассматривается аппроксимация экспериментальных данных с помощью функций ЛИНЕЙН, ТЕНДЕНЦИЯ, ЛГРФПРИБЛ и РОСТ. Функции ЛИНЕЙН и ТЕНДЕНЦИЯ применяют для восстановления линейных зависимостей вида y=b+a1x1+a2x2+…+anxn, а функции ЛГРФПРИБЛ и РОСТ - для нелинейных (показательных) зависимостей вида y=ba1X1a2X2…anXn.
Функции ЛИНЕЙН и ЛГРФПРИБЛ возвращают массив с т.н. регрессионной статистикой, в котором содержатся вычисленные значения параметров (b,a1,a2,…an), коэффициент детерминации R2 и другие данные, характеризующие аппроксимирующую функцию. Формат функций ЛИНЕЙН, ЛГРФПРИБЛ и их применение поясним на примере.
Расчет стоимости недвижимости
Агентство недвижимости оценивает однокомнатные квартиры по трем переменным: х1 – общая площадь, х2 – площадь кухни, х3 – этаж квартиры, предполагая, что между каждой переменной х1, х2, х3 и зависимой переменной y (стоимость) существует линейная зависимость. Подобрать формулу для вычисления стоимости однокомнатных квартир и вычислить стоимость квартиры с данными: х1=42кв.м, х2=11кв.м, х3=5эт. Собранные рекламные данные занесены в приведенную ниже таблицу.
Последовательность действий для решения задачи следующая:
-
Заведите приведенную таблицу в Excel, в ячейки A1:D14.
-
Выделите диапазон ячеек B17:E21 (рис. 2.54) для сохранения результатов вычислений функции ЛИНЕЙН – массива регрессионной статистики.
-
Вызовите мастер функций, выберите статистическую функцию ЛИНЕЙН и заполните параметры функции как на рис. 2.53. Параметр Изв_знач_y содержит диапазон D2:D14, т.е. известные значения y. Параметр Изв_знач_х содержит диапазон A2:C14, т.е. известные значения х. Параметр Стат=1, поскольку мы хотим получить дополнительную статистику.
Рис. 2.53
-
После нажатия ОК встаньте на строку формул и нажмите Ctrl+Shift+Enter. В результате должен получиться массив значений, показанный на рис. 2.54. Интересующие нас коэффициенты выделены на рисунке (подробнее см. справку F1). Коэффициент детерминации R2=0.9725 вполне удовлетворителен. Таким образом, искомая формула имеет вид:
Y = 1,36*х1 + 0,1*х2 – 0,21*х3 – 19,27
Рис. 2.54
-
После подбора формулы осталось вычислить стоимость при х1=42, х2=11, х3=5. В любую ячейку запишите выражение =1,36*42+0,1*11–0,21*5–19,27. В результате получится y=37.9 тыс. $.
Использование функции ТЕНДЕНЦИЯ покажем на этом же примере для расчета стоимостей различных вариантов квартир, как показано на рис. 2.55.
Рис. 2.55
Новые значения Х, для которых надо рассчитать стоимость, следует ввести в ячейки F2:H14. Диапазон I2:I14 используйте для записи рассчитанных значений y, Вызовите мастер функций и функцию ТЕНДЕНЦИЯ. Параметры функции заполните как на рис. 2.56. Как видно параметр Нов_знач_х содержит диапазон F2:H14, т.е. новые значения х. После нажатия ОК встаньте на строку формул и нажмите Ctrl+Shift+Enter – результат, заполненный диапазон I2:I14 на рис. 2.55.
Рис. 2.56
Оценка эффективности рекламы
Следующий пример. Подобрать формулу для вычисления процента увеличения оборота при различных затратах на рекламу. Экспериментально известны проценты увеличения оборота при затратах в 5, 10, 15, 20 тыс.$ в 3-х масс-медиа - на телевидении, радио и в прессе:
|
5 тыс. $
|
10 тыс. $
|
15 тыс. $
|
20 тыс. $
|
1. TV
|
28%
|
43%
|
61%
|
95%
|
2. Радио
|
15%
|
24%
|
34%
|
50%
|
3. Пресса
|
6%
|
9%
|
13%
|
20%
|
Кроме этого, надо вычислить процент увеличения оборота в прессе при затратах 2 тыс.$ и на телевидении при затратах в 22 тыс.$. Дополнительно вычислите проценты для всех масс-медиа при затратах 2, 17 и 25 тыс.$.
Для решения задачи в первую очередь следует правильно разместить данные – рис. 2.57.
Рис. 2.57
Затем вычислите массив с регрессионной статистикой функцией ЛИНЕЙН: выделите диапазон ячеек F2:H6 и проделайте известные из предыдущего примера действия. В итоге должен получиться массив:
Как видно, коэффициент детерминации R2=0.8757 не удовлетворителен. Поэтому выполните подбор формулы с помощью функции для нелинейных зависимостей ЛГРФПРИБЛ: выделите диапазон ячеек F2:H6 и проделайте известные из предыдущего примера действия. В итоге должен получиться массив:
В этом случае коэффициент детерминации R2=0.989 вполне удовлетворителен и можно записать искомую аппроксимирующую формулу показательного типа (т.к. использована функция ЛГРФПРИБЛ):
Y = 0,44 * 0,46х1 * 1,08х2
Теперь вычислите проценты увеличения оборота из условия задачи: введите формулы и не забудьте установить процентный формат отображения значений в ячейках. Результаты приведены в таблице:
Пресса, 2 тыс.$
|
5,0%
|
=0,44*0,46^3*1,08^2
|
TV, 22 тыс.$
|
110,0%
|
=0,44*0,46^1*1,08^22
|
В заключении, вычислите проценты для всех масс-медиа при затратах 2, 17 и 25 тыс.$. Подготовьте данные, колонки J и K, как на рис. 2.58.
Для вычисления значений Y используем функцию РОСТ, поскольку уже известно, что зависимость нелинейная, показательная. Выделите диапазон ячеек L2:L10 и введите функцию РОСТ; заполнение параметров функции показано на рис. 2.59.
Рис. 2.58
Рис. 2.59
После нажатия ОК и Ctrl+Shift+Enter на строке формул, колонка L будет заполнена как на рис. 2.58. Сравните результаты с результатами вычисления по подобранной формуле.
Задачи для самостоятельного выполнения:
-
Источник радиоактивного излучения помещен в жидкость. Датчик расположен на расстоянии (х1) 20, 50 и 100 см от источника. Измерения интенсивности излучения (y, мРн) проводились через 1, 5 и 10 суток (х2) после установки источника. Необходимо подобрать аппроксимирующее уравнение. Результаты измерений приведены в таблице:
х1 / х2
|
1
|
5
|
10
|
20
|
61.2
|
43.6
|
28.3
|
50
|
33.6
|
24.0
|
15.6
|
100
|
12.3
|
8.8
|
5.7
|
-
В бассейне проводится ежедневная частичная смена воды. Необходимо подобрать формулу для вычисления уровня воды в бассейне, которая зависит от двух переменных: х1 – длительность впуска воды, х2 – длительность выпуска воды. Кроме этого, необходимо вычислить значения уровня воды для х1[90;140] с шагом 10 и х2[10;30] с шагом 5. Исходные данные - результаты наблюдений за неделю приведены в таблице:
х1
|
х2
|
y
|
120
|
20
|
3.2
|
100
|
25
|
2.8
|
130
|
20
|
3.3
|
100
|
15
|
3.3
|
110
|
23
|
3.0
|
105
|
26
|
2.8
|
112
|
13
|
3.3
|
Достарыңызбен бөлісу: |