единицам представляют собой 10%-ю простую случайную выборку с вероятностью 0

единицам представляют собой 10%-ю простую случайную выборку, с вероятностью 0,9973 определите доверительный интервал, в котором будет находиться средняя величина факторного признака для генеральной совокупности, используя распределения Гаусса и Стьюдента. Сделайте вывод о репрезентативности выборки.
Проанализируйте зависимость результативного признака от факторного. Анализ выполните в следующей последовательности:
с помощью групповой таблицы и эмпирической линии регрессии установите факт наличия корреляционной связи;
проверьте правило сложения дисперсий. Сформулируйте вывод о степени влияния факторного признака на величину результативного с помощью эмпирического корреляционного отношения;
оцените степень взаимной согласованности между факторным и результативным признаками с помощью линейного коэффициента корреляции. Проверьте его значимость и возможность использования линейной функции в качестве формы уравнения;
рассчитайте параметры уравнения парной зависимости, оцените качество модели (точность и адекватность), возможность построения интервального прогноза и его практического использования. Дайте оценку результатов исследования.

ИСХОДНЫЕ ДАННЫЕ
Исходные данные приведены в табл. 1
Таблица 1
Номера банков Среднее значение стоимости активов банков за квартал (Xi), млн.руб. Прибыль банков за квартал (Yi), млн. руб.
A 1 2
1 556,11 14,97
2 563,14 14,76
3 565,80 15,14
4 582,61 17,38
5 619,76 17,68
6 620,54 17,53
7 633,70 16,51
8 641,74 16,17
9 642,68 16,45
10 678,53 19,62
11 698,63 18,46
12 728,07 19,00
13 734,61 19,11
14 750,66 18,97
15 750,94 19,30
16 772,20 20,66
17 787,39 19,47
18 797,24 20,82
19 798,65 19,60
20 804,88 20,90
21 806,01 20,72
22 818,57 21,15
23 822,66 20,33
24 854,53 21,00
25 876,22 21,53
26 880,54 23,85
27 893,24 23,18
28 899,33 23,47
29 907,74 23,28
30 914,23 23,27
31 929,09 22,80
32 930,39 22,87
33 945,98 23,08
34 947,77 23,86
35 963,97 23,36
36 968,44 24,58
37 981,55 25,32
38 993,19 25,93
39 1020,44 25,19
Продолжение табл. 1
A 1 2
40 1023,02 25,24
41 1028,08 25,66
42 1078,44 26,05
43 1117,38 27,24
44 1123,09 26,03
45 1127,33 27,92
46 1215,00 30,91
47 1297,35 31,73
48 1331,71 32,38

1.ПРОВЕРКА ПЕРВИЧНОЙ ИНФОРМАЦИИ НА ОДНОРОДНОСТЬ, НАЛИЧИЕ АНОМАЛЬНЫХ НАБЛЮДЕНИЙ И НОРМАЛЬНОСТЬ РАСПРЕДЕЛЕНИЯ
Совокупность считается однородной, если коэффициент ее вариации меньше 33%.
,(1)
где — среднее значение;(2)
— среднее квадратическое отклонение;(3)
n – объем совокупности.
Среднее значение вычисляется с помощью функции СРЗНАЧ. Ячейка В60 табл. 2 содержит формулу = СРЗНАЧ (В10:В57), по которой рассчитывается среднее значение активов банков (млн.р.)

Продолжение табл. 2

Среднее квадратическое отклонение рассчитывается в предположении, что данные представляют всю генеральную совокупность. В ячейку В61 записана формула СТАНДОТКЛОНП (В10:В57), млн.р.
В ячейку В63 записана формула (1), т.е. = В61/В60*100. Коэффициент вариации равен 21,90%.
Если исходные данные являются эмпирическими, то их необходимо проверить на наличие аномальных наблюдений (резко выделяющихся единиц совокупности):
(4)
или ,(5)
.
Если условия (4) или (5) не выполняются, то соответствующие единицы совокупности исключаются из дальнейшего рассмотрения, а значения пересчитываются.
Минимальное и максимальное значения совокупности находятся в ячейках В72 и В73.
Из приведенных данных следует, что условие (4) выполняется.
Гипотеза о нормальном распределении активов банков принимается, если выполняются оба соотношения:
,(6)
где — относительный показатель ассиметрии;(7)
— показатель ассиметрии;(8)
— средняя квадратическая ошибка асимметрии; (9)
— относительный показатель эксцесса;(10)
— показатель эксцесса;(11)
— средняя квадратическая ошибка эксцесса.(12)
Для вычисления показателя асимметрии в ячейку В64 записана формула (8) = СУММПРОИЗВ (СТЕПЕНЬ(В10:В57-$В$60;3)) /($В$61^3*$A$57). Формула для вычисления эксцесса аналогична предыдущей и отличается показателем степени и наличием вычитаемого числа равного 3. Она реализована в ячейке В66= СУММПРОИЗВ (СТЕПЕНЬ (В10:В57-$В$60;4)) /($В$61^4*48)-3. Учитывая, что оба относительных показателя ( и ) меньше 1,5, гипотезу о нормальном распределении активов банков следует принять.
В EXCEL для вычисления показателей асимметрии и эксцесса существуют функции СКОС и ЭКСЦЕСС. В них реализованы приближенные формулы для вычисления перечисленных показателей выборочных совокупностей. Использовать их нецелесообразно по следующим причинам:
Ранее было принято допущение, что исходная совокупность является генеральной.
Приближение не является достаточно точным. В ячейках В74 и В75 помещены результаты вычислений по указанным функциям. Значение показателя эксцесса по точной формуле (11) превосходит приближенное значение в 5 раз.
Анализ результатов расчета позволяет сделать следующие выводы:
Совокупность активов банков однородна (), следовательно, средняя величина является обобщающей характеристикой активов банков и отражает типичный уровень в расчете на один банк в конкретных условиях места и времени.
Аномальные наблюдения отсутствуют.
Распределение активов банков плосковершинно и имеет правостороннюю асимметрию. Отклонения эмпирических частот от теоретических носят случайный характер, следовательно эмпирическое распределение активов банков не противоречит нормальному.
2.ВАРИАЦИОННЫЙ РЯД РАСПРЕДЕЛЕНИЯ АКТИВОВ БАНКОВ И СИСТЕМА ПОКАЗАТЕЛЕЙ ВЫЧИСЛЯЕМАЯ НА ЕГО ОСНОВЕ
2.1. Определение количества групп
Количество групп (интервалов) вариационного ряда вычислим по формуле Стерджесса:
.(13)
Из практики известно, что выражение (13) дает удовлетворительные результаты при n>100. Кроме того, чтобы рассчитать среднее значение прибыли в j-ой группе банков, их количество (частота) должно быть не менее двух. Учитывая изложенное выполним расчет для 7, 6 и 5 интервалов. В ячейку В78 запишем формулу = ОКРВВЕРХ (В77, 1), а в В79 = ОКРВНИЗ (В77,1). Содержимое ячейки В80 определяется выражением = В79-1. Ширина интервала рассчитывается по формуле:
,(14)
где — размах вариации(15)
Для определения количества банков, попадающих в j-ую группу воспользуемся режимом «Гистограмма». В диалоговом окне данного режима (рис. 1) задаются следующие параметры:
Рисунок 1

Входной интервал-вводится ссылка на ячейки, содержащие анализируемые данные.
Интервал карманов (необязательный параметр) – вводится ссылка на ячейки, содержащие набор граничных значений, определяющих интервалы (карманы). Эти значения должны быть введены в возрастающем порядке. В Excel вычисляется число попаданий данных (частоты) в сформированные интервалы. Границы интервалов являются строгими нижними и нестрогими верхними: . Поэтому целесообразно задавать только верхние границы интервалов. Если диапазон карманов не был введен, то набор интервалов, равномерно распределенных между минимальным и максимальным значениями данных, будет создан автоматически.
Метки — флажок устанавливается в активное состояние, если первая строка (столбец) во входном диапазоне содержит заголовки. Если заголовки отсутствуют, флажок следует дезактивировать. В этом случае автоматически будут созданы стандартные названия для данных входного диапазона.
Выходной интервал/ Новый рабочий лист/ Новая рабочая книга. Переключатель в положении Выходной интервал активизирует поле, в которое необходимо ввести ссылку на левую верхнюю ячейку выходного диапазона. Размер выходного диапазона будет определен автоматически, и на экране появится сообщение в случае возможного наложения выходного диапазона на исходные данные.
В положении Новый рабочий лист открывается новый лист, в который начиная с ячейки А1 вставляются результаты анализа. Если необходимо задать имя открываемого листа, введите его в поле напротив соответствующего положения переключателя. В положении Новая рабочая книга открывается новая книга, на первом месте которой, начиная с ячейки А1 вставляются результаты анализа.
Парето (отсортированная диаграмма) – устанавливается в активное состояние, чтобы представить данные в порядке убывания частоты. Если флажок снят, то данные в выходном диапазоне будут приведены в порядке следования интервалов.
Интегральный процент – устанавливается в активное состояние для расчета выраженных в процентах накопленных частот и включения в диаграмму графика кумуляты.
Вывод графика – устанавливается в активное состояние для автоматического создания встроенной диаграммы на листе, содержащем выходной диапазон.
Воспользуемся тем обстоятельством, что интервалы карманов задавать необязательно и построим соответствующую диаграмму (рис. 2).
Рисунок 2

Как следует из табл. 3 и диаграммы в первой группе частота равна 1. Следовательно данный вариант является неприемлемым. Изложенное справедливо и для диаграмм, приведенных на рис. 3, 4.

Рисунок 3

Рисунок 4

Следовательно, за основу необходимо принять вариант, содержащий 5 групп банков (табл. 6 рис. 6). Диалоговое окно режима «Гистограмма» для построения диаграммы с 5-ю интервалами приведено на рис. 5.

Рисунок 5

Рисунок 6

Для выполнения дальнейших расчетов, полученные результаты (интервалы и частоты) перепишем в табл. 7.

2.2. Показатели центра распределения
Средняя арифметическая взвешенная:
,(16)
где — значения j-ой середины интервалов;
— частости j-го интервала.
В связи с тем, что в Excel отсутствует формула для вычисления средней арифметической взвешенной в ячейку В84 запишем выражение = СУММПРОИЗВ (V3:V7).
Мода и медиана относятся к структурным средним. Их значения находятся из выражений:
(17)
(18)
где — нижние границы модального и медианного интервалов;
— ширина модального и медианного интервалов;
— частость модального интервала;
— частость интервала, предшествующему модальному;
— частость интервала следующего за модальным;
— половина суммы накопленных частостей (равна 0,5);
— накопленная частость до медианного интервала;
— частость медианного интервала.
Формулы (15,16 и17) записаны в ячейках B84,В85 и В86 соответственно.
В первом пункте задания сделан вывод о правосторонней асимметрии, а по сгруппированным данным получается, что асимметрия левосторонняя, т.к. .
Противоречие объясняется некоторым произволом в выборе количества групп. Для каждой из 4-х представленных на рис. 5,6, 7, 9 диаграммах будут свои значения , отличающиеся друг от друга. Если существует возможность вычислить значения по не сгруппированным данным, то ее необходимо использовать.

Показатели вариации

Размах вариации (формула 15, ячейка В76).
Среднее линейное отклонение (ячейка В87):
.(19)
Дисперсия (ячейка В88):
.(20)
Среднее квадратическое отклонение (ячейка В89):
.(21)
Коэффициент осцилляции (ячейка В90):
.(22)
Линейный коэффициент вариации (ячейка В91):
.(23)
Коэффициент вариации (ячейка В92):
.(24)
Относительный показатель квартильной вариации (ячейка В93):
,(25)
где
;
;
— среднее квартильное отклонение;
— соответственно первая и третья квартили распределения;
— нижние границы интервалов, в которых находятся первая и третья квартили;
— ширины интервалов первой и третьей квартили;
и — сумма накопленных частостей в интервалах предшествующих интервалам, в которых находятся первая и третья квартили;
— частости интервалов, в которых находятся первая и третья квартиль.
В практике из показателей вариации получили широкое применение дисперсия, среднее квадратическое отклонение и коэффициент вариации.

Показатели формы распределения
Показатель асимметрии для сгруппированных данных находится из выражения
,(31)
а показатель эксцесса:
(32)
Их относительные значения вычислены по формулам (7) и (10) и реализованы в ячейках В99 и В100.
Формулы (31 и 32) записаны в ячейки В97 и В98.
Следует обратить внимание на то, что значение показателя асимметрии по несгруппированным данным превосходит соответствующее значение по сгруппированным данным.
Проверка соответствия эмпирического распределения активов банков нормальному распределению с помощью критериев согласия Пирсона, Романовского и Колмогорова
Критерий Пирсона
(33)
где — эмпирические и теоретические частоты.
Теоретические частоты вычисляются с помощью функции = 48*$B$83*НОРМРАСП(V3:V7; $В$84;$В$89;0).
Формула (33) реализована в ячейке В101 =СУММПРОИЗВ (СТЕПЕНЬ (W3:W7-AF3:AF7; 2)/(AF3:AF7)).
В ячейке В102 помещена формула , по которой вычисляется количество степеней свободы.
Ячейка В103 содержит формулу = ХИ2РАСП(В101;В102) – вычисляет значение вероятности . Искомая вероятность , следовательно эмпирическое распределение не противоречит нормальному.
Другой подход к решению задачи основан на проверке попадания -критерия в критическую область, т.е. проверяется выполнение условия
.(34)
Для вычисления задается уровень значимости и количество степеней свободы. Формула = ХИ2ОБР(0,05; 2) рассчитывает значение 5,99, задающее правостороннюю критическую область (5,99; +∞). Так как условие (34) выполняется, то отклонения теоретических частот от эмпирических являются случайными и распределение активов банков не противоречит нормальному.
Диаграмма эмпирических и теоретических частот приведена на рис. 9.

Рисунок 9

Критерий Романовского
(35)
Расчетное значение критерия равно 0,96, следовательно, расхождения теоретических и эмпирических частот являются случайными и несущественными.
Критерий Колмогорова ()
Основан на определении максимального (по модулю) расхождения между накопленными частостями эмпирического и теоретического распределений (d):
(36)
Значения приведены в ячейках AI3: AI7. Следовательно, d=0,136. В ячейке В106 записана формула (36). По известному значению определяется вероятность (П.2 табл. 1), если она близка к 1, то расхождение между случайны.
2.6. Показатели дифференциации
Коэффициент фондовой дифференциации
,(26)
где — средние значения для 10% банков с наибольшими и для 10% с наименьшими значениями активов.
Формула (26) реализована в ячейке В94. Средние значения активов «богатых» банков превышают средние значения активов «бедных» в 2,11 раза.
Коэффициент децильной дифференциации
,(27)
где — максимальное значение активов у 10% банков с наименьшими активами;
— минимальное значение активов у 10% банков с наибольшими активами;
; (28)
;(29)
— нижние границы интервалов, в которых находятся первая и девятая децили;
— ширины интервалов первой и девятой децили;
— сумма накопленных частостей в интервалах, предшествующих интервалам, в которых находятся первая и девятая децили;
— частости интервалов, в которых находятся первая и девятая децили.
Выражения (27-29) реализованы в ячейке В95. Следует отметить что оба показателя являются ненормированными. Вследствие этого одно и тоже значение каждого из них можно толковать по-разному. Для устранения указанной неопределенности условимся вычислять значения и по формулам:

Оценку степени дифференциации можно осуществить по шкале Чеддока.
Степени дифференциации Значение коэффициентов

Слабая 0,1 – 0,3
Умеренная 0,3 – 0,5
Заметная 0,5 – 0,7
Высокая 0,7 – 0,9
Весьма высокая 0,9 – 0,99
Учитывая, что расчетное значение , степень дифференциации банков по стоимости активов является заметной.

2.7. Показатели концентрации
Кривая Лоренца
В статистике для изучения степени неравномерности распределения определенного суммарного показателя между единицами отдельных групп вариационного ряда используется кривая Лоренца (или кривая концентрации). Для ее построения распределение единиц совокупности (числа банков) и распределение суммарного показателя (суммы прибыли в банках) должны быть представлены в долях или процентах, а затем для обоих распределений рассчитываются накопленные (кумулятивные) итоги. В данном примере суммы прибыли в j-ой группе банков приведены в ячейках Z2 : Z7, которые рассчитаны с помощью функции СУММ. Их соответствующие частости помещены в ячейки АА2 : АА7. Кумулятивные итоги в частостях размещены в ячейках Y2 : Y7 и АВ2 : АВ7, а в процентах – AD2 : AD7, AE2 : AE7. Кривая Лоренца приведена на рис.7. Она построена с помощью мастера диаграмм, тип «точечная». Диалоговое окно приведено на рис. 8.
Рисунок 7
Рисунок 8

Коэффициент Джини
Рассчитывается на основе кривой Лоренца
,(30)
где , .
Формула (30) реализована в ячейке В96. Учитывая, что коэффициент Джинни равен 0,10, концентрация активов банков практически отсутствует.

ВЫВОДЫ
В качестве характеристики центра распределения необходимо использовать среднюю арифметическую, т.к. совокупность является однородной (коэффициент вариации равен 12,8%, что менее 33%).
Степень дифференциации активов банков слабая.
Концентрация активов банков практически отсутствует.
Распределение активов банков плосковершинно и имеет правостороннюю асимметрию. Отклонения эмпирических частот от теоретических носят случайный характер, следовательно, эмпирическое распределение активов банков не противоречит нормальному.

3.ОПРЕДЕЛЕНИЕ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА ДЛЯ СРЕДНЕЙ ВЕЛИЧИНЫ АКТИВОВ БАНКОВ В ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ
Величина доверительного интервала (предельная ошибка выборки) находится из выражения
,(37)
где t – коэффициент доверия;
— средняя ошибка выборки.
Средняя ошибка бесповторной выборки:
,(38)
где — дисперсия генеральной совокупности;
— объем выборочной совокупности;
N – объем генеральной совокупности.
Дисперсия генеральной совокупности связана с выборочной дисперсией следующим отношением:
,(39)
Следовательно, среднюю ошибку выборки можно представить выражением:
(40)
В такой записи формулы средней ошибки для «большой» и «малой» выборок совпадают.
Коэффициент доверия в распределении Гаусса является только функцией доверительной вероятности, а в распределении Стьюдента, кроме того, еще и функцией объема выборки. Следовательно, для одной и той же доверительной вероятности можно получить два значения предельной ошибки.

Указанные значения приведены в ячейках D61 и D62 соответственно. В них реализованы следующие формулы: = НОРМСТОБР ((0,9973+1)/2)*D60;
= СТЬЮДРАСПОБР (1-0,9973; 47)*D60.
Выборка считается репрезентативной, если величина ее относительной ошибки составляет не более 5%, т.е.
(41)
Учитывая, что , выборку нельзя признать представительной. Вместе с тем и вывод следует противоположный. В связи с этим, возникает естественный вопрос: какой же из результатов следует считать правильным? В различных источниках существуют разные рекомендации какую выборку считать малой: в одних менее 20 [4], в других менее 30 [5], в третьих менее 40 [10] и т.д. Для ответа на данный вопрос построим график функции
, приведенной на рис. 13.

Рисунок 10

Указанное преобразование возможно в силу того, что величина средней ошибки является одинаковой для и .Коэффициент доверия Гаусса на указанном рисунке изменяется от 1 до 3 с шагом 0,5. Соответствующие ему вероятности имеют следующие значения: 0,6827; 0,8664; 0,9545; 0,9876; 0,9973. Как следует из графика, погрешность в определении предельной ошибки при t=2, n=190 составляет около 1%, что соизмеримо с величиной относительной ошибки предельной выборки.
Известно, что распределение Стьюдента при увеличении объема выборки стремится к нормальному, а доверительный интервал, вычисленный с его применением является более надежным. Поэтому с точки зрения статистика (исполнителя) целесообразно использовать распределение Стьюдента в малых и больших выборках.
Учитывая изложенное, генеральная средняя активов банков с доверительной вероятностью 0,9973 лежит в пределах (ячейки D63, D 64).
В практике наиболее часто используется доверительная вероятность равная 0,95 [10], а величина относительной ошибки предельной выборки задается на уровне 5%.
Для рассматриваемого примера покажем зависимость объема бесповторной выборки от величины относительной ошибки, начиная с 0,01 до 0,05 с шагом 0,01, и коэффициентов доверия Гаусса от 1 до 3 с шагом 0,5.
Объем выборки в случае использования нормального распределения можно вычислить по формуле:
,
где или ,
где фигурные скобки означают округление вверх до ближайшего целого.
Формула объема выборки с использованием распределения Стьюдента аналогична приведенной выше, но вместе с тем решение можно получить только применением итерационных методов, так как . Поэтому решения, полученные с применением , можно использовать в качестве нулевого приближения для вычисления объемов бесповторной выборки с коэффициентами доверия Стьюдента.
На рис. 11, 12 показана зависимость объема бесповторной выборки от перечисленных ранее факторов. Анализ рисунков позволяет сделать вывод о том, что выбор величины коэффициентов доверия (вероятностей) и относительной ошибки должен быть достаточно обоснованным, т.к. это приводит к резкому увеличению объема выборки и, как следствие, к возрастанию материальных и временных затрат.

Рисунок 11

Рисунок 12

При известных значениях объемов выборок для различных сочетаний и , представляется возможным рассчитать соответствующие им величины предельных ошибок, используя распределения Стьюдента, т.е. оценить погрешность в вычислениях предельных ошибок, обусловленным применением распределения Гаусса. Соответствующий график представлен на рис. 13.

Рисунок 13

Как следует из графика – с увеличением значения относительной ошибки выборки погрешность ее вычисления резко возрастает и превосходит величину относительной ошибки почти в 2 раза. Изломы на графике объясняются дискретностью значений выборки

АНАЛИЗ ЗАВИСИМОСТИ ПРИБЫЛИ БАНКОВ ОТ СТОИМОСТИ ИХ АКТИВОВ

Построение групповой таблицы

Для построения групповой таблицы вычислим среднее значение результативного признака по каждой группе (ячейки АУ3:АУ7). Сравнив их значения, можно предположить о наличии прямой корреляционной зависимости между признаками, что иллюстрируется рис. 14.
Рисунок 14

Проверка правила сложения дисперсий и оценка степени влияния факторного признака на величину результативного
Правило сложения дисперсий заключается в равенстве общей дисперсии сумме средней из внутригрупповых и межгрупповой дисперсий, т.е.:
,(42)
где общая дисперсия;(43)
внутригрупповые дисперсии;(44)
средняя из внутригрупповых дисперсий;(45)
межгрупповая дисперсия;(46)
внутригрупповые средние;(47)
общая средняя.(48)
Значение общей средней приведено в ячейке D65, а в ячейках D66 и D67 – среднее квадратическое отклонение и дисперсия зависимой переменной. Групповые средние приведены в ячейках АУ3:АУ7. Внутригрупповые дисперсии вычисляются с использованием функции ДИСПР, например, в ячейке АК3 записана формула = ДИСПР (С10:С15). Средняя из внутригрупповых дисперсий отображена в ячейке D68, в которой записана формула:
= СУММПРОИЗВ (АК3:АК7;Х3:Х7).
Для вычисления межгрупповой дисперсии в ячейку D69 записана формула = СУММПРОИЗВ (СТЕПЕНЬ(AJ3:АJ7-$D$65;2);X3:X7).
Как следует из данных табл. 2 правило сложения дисперсий выполняется, т.к. 17,52=1,17+16,35.
Для того чтобы выяснить влияет ли контролируемый фактор на результативный признак, а при наличии такого влияния оценить его степень можно применить однофакторный дисперсионный анализ. Его логика рассуждений сводится к следующему:
Пусть — математическое ожидание результативного признака, соответственно в группах . Если при изменении уровня фактора групповые математические ожидания не изменяются, то результативный признак не зависит от фактора А, в противном случае такая зависимость имеется.
В связи с тем, что числовые значения математических ожиданий неизвестны, то возникает задача проверки гипотезы

Проверить данную гипотезу можно при соблюдении следующих требований при каждом значении уровня фактора:
наблюдения независимы и проводятся в одинаковых условиях;
результативный признак имеет нормальный закон распределения с постоянной для различных уровней генеральной дисперсией.
Для ответа на второй вопрос вычислим значения относительных показателей асимметрии и эксцесса (ячейки В71, В72). Учитывая, что каждый из них меньше 1,5 эмпирическое распределение прибыли банков не противоречит нормальному. Проверим выполнение гипотезы:
(49)
с помощью критерия Бартлетта:
(50)
где ;(51)
l=n-m; ;(52)
;(53)
;(54)
k=m-1;(55)
— дисперсия в j-ой группе.
При выполнении гипотезы о равенстве дисперсий, величина w имеет распределение близкое к с к=m- степенями свободы.
При соблюдении условия
гипотеза (49) подтверждается.(56)
Здесь — правосторонняя критическая точка при заданном уровне значимости , определяющая критический интервал ().
Проверка гипотезы о равенстве математических ожиданий основывается на сравнении оценок и . В математической статистике доказывается, что если гипотеза о равенстве математических ожиданий подтверждается, то величина
(57)
имеет F – распределения с числом свободы k=m-1 и =n-m, т.е.

При использовании F – критерия строится правосторонняя область (), т.к. обычно . Если расчетное значение F – критерия попадает в указанный интервал, то гипотеза о равенстве групповых математических ожиданий отвергается, т.е. считаем, что фактор А влияет на результативный признак Y и можно измерить степень этого влияния с помощью выборочного коэффициента детерминации.
Рассчитаем значение перечисленных показателей. В ячейке D72 записана формула =n-m, т.е. вычисляется значение ;
Ячейка D73 содержит формулу =СУММПРОИЗВ(СТЕПЕНЬ(W3:W7-1;(-1))) – вычисляется значение ;
Ячейка D74: =1/D72 – вычисляется значение ;
Ячейка D75: =СУММПРОИЗВ(W3:W7-1;AK3:AK7)*D74 – вычисляется значение ;
Ячейка D76: =1+(D73-D74)/(3*4) – вычисляется значение q;
Ячейка D77: =СУММПРОИЗВ(W3:W7-1;LN($D$75/AK3:AK7))/D76 – вычисляется значение критерия Бартлетта;
Ячейка D78: =ХИ20БР(0,05;4) – определяется значение правосторонней критической точки .
В связи с тем, что =4,61 не попадает в критическую область (9,49;), то гипотеза принимается и можно приступить к проверке гипотезы . Для этого сформируем массив значений результативного признака по группам (табл. 8).

Обратимся к режиму работы «Однофакторный дисперсионный анализ». Значения параметров, установленные в одноименном диалоговом окне, показаны на рис. 15.

Рисунок 15

Показатели, рассчитанные в ходе проверки гипотезы приведены в табл. 9 и 10.

Как видно из табл. 10 расчетное значение F – критерия , а критическая область образуется правосторонним интервалом (2,59:). Так как попадает в критическую область, то гипотеза о равенстве групповых математических ожиданий отвергается, т.е. считаем, что прибыль банков зависит от их группы.
Рассмотрим более подробно алгоритм расчета основных показателей, представленных в табл. 10.
В ячейке Е35 (показатель SS между группами) рассчитывается взвешенная сумма квадратов отклонений групповых средних от общей выборочной средней:
.
В ячейке Е36 (показатель SS внутри групп) вычисляется остаточная сумма квадратов отклонений наблюдаемых значений уровня от своей выборочной средней:
.
В ячейке Е18 (показатель SS итого) общая сумма квадратов отклонений наблюдаемых значений от общей выборочной средней: или
В ячейках F35, F36 и F37 (показатель df) определяются степени свободы:
;
;
.
В ячейках AY15:AY16 (показатель MS) вычисляются несмещенные оценки и

В ячейке H35 (показатель F) вычисляется расчетное значение критерия :
.
В ячейке I35 (показатель Р – значение) определяется Р – значение, соответствующее расчетному значению критерия , с помощью формулы
=FРАСП(AZ15;AX15;AX16)
В ячейке J15 (показатель F критическое) рассчитывается значение правосторонней критической точки с помощью формулы:
=FРАСПОБР(0,05;АХ15;АХ16).
Разделив левую и правую части выражения (42) на общую дисперсию получим следующее равенство:
.(58)
Т.е. доли средней из внутригрупповых и межгрупповой дисперсий в сумме равны единице. Второе слагаемое именуется эмпирическим коэффициентом детерминации
.(59)
Он характеризует долю объясненной дисперсии в общей. Следовательно 95% (ячейка D70) вариации прибыли банков объясняются величиной их активов. Для оценки тесноты зависимости используется эмпирическое корреляционное отношение
.(60)
Учитывая, что (ячейка D71) теснота зависимости (по шкале Чеддока) весьма высокая.
При недостаточном количестве данных в выделенных группах к рассчитанной величине корреляционного отношения водится поправка на группировку:
,(61)
откуда (ячейки D81 и D82).
Таким образом можно сделать вывод, что эмпирический коэффициент детерминации является значимым и его можно применять для оценки влияния суммы активов банков на величину их прибыли.

4.3. Оценка степени взаимной согласованности между суммой активов банков и величиной их прибыли с помощью линейного коэффициента корреляции. Проверка его значимости и возможности использования линейной функции в качестве формы уравнения
Линейный коэффициент корреляции в EXCEL можно вычислить используя режим «Корреляция» только для несгруппированных данных. Поэтому в ячейке D83 записана формула =(СУММПРОИЗВ(V3:V7:AJ3:AJ7;X3:X7)-B84*D65)/(B89*D66) или в принятых обозначениях . (61)
Значение коэффициента детерминации () приведено в ячейке D84. Для сравнения в ячейке D86 и D87 приведены значения перечисленных показателей для несгруппированных данных, вычисленные с использованием функции ПИРСОН (В10: В57; С10:С57), диалоговое окно которого приведено на рис. 16.

Рисунок 16

Из приведенных результатов следует, что степень взаимной согласованности между суммой активов банков и величиной их прибыли весьма высокая.
В связи с тем, что линейный коэффициент корреляции определен по выборочным данным, то его значение может существенно отличаться от аналогичного показателя в генеральной совокупности. Поэтому необходимо определить значимость выборочного линейного коэффициента корреляции. При наличии значимости определяются границы доверительного интервала линейного коэффициента корреляции и его можно использовать для оценки степени тесноты связи.
Оценку значимости линейного коэффициента корреляции выполним на основе t – критерия Стьюдента
,(62)
где — стандартная ошибка линейного коэффициента корреляции (ячейка D96)(63)
При этом проверяется гипотеза о равенстве нулю коэффициента корреляции (:r=0). Если гипотеза подтверждается, то t – статистика имеет распределение Стьюдента с выходными параметрами и k ( — уровень значимости; k=n-2 – число степеней свободы).
Так как рассчитанное значение , гипотеза :r=0 отвергается, что свидетельствует о значимости линейного коэффициента корреляции, а следовательно, и о статистической существенности зависимости между суммой активов банков и величиной их прибыли.
При недостаточном объеме выборки для построения доверительного интервала коэффициент корреляции преобразуют в величину , имеющую приблизительно нормальное распределение и рассчитываемую по формуле
(64)
Данное выражение имеет название «z – преобразование Фишера».
Интервальная оценка для z определяется из выражения
(65)
где — табулированые значения для стандартного нормального распределения, зависимые от . На основе обратного преобразования Фишера определяется интервальная оценка линейного коэффициента корреляции.
Приведем реализацию изложенного алгоритма.
ячейке D91 содержится формула =ФИШЕР(D83) – вычисляется значение ;
в ячейках D92 и D93 содержатся формулы
=D91-НОРМСТОБР((0,95+1)/2)*КОРЕНЬ(1/45) и
=D91+ НОРМСТОБР((0,95+1)/2)*КОРЕНЬ(1/45) – рассчитываются интервальные оценки z;
ячейки D94 и D95 содержатся формулы =ФИШЕРОБР(D92) и ФИШЕРОБР(D93).
Таким образом, с вероятностью 0,95 линейный коэффициент корреляции заключен в интервале от 0,93 до 0,98 со стандартной ошибкой 0,04.
Проверка возможности использования линейной функции в качестве формы уравнения заключается в определении разности квадратов , если она меньше 0,1, то считается возможным использовать линейное уравнение корреляционной зависимости. В данном случае эта разность составляет 0,009 (ячейка D85).

4.4. Построение уравнения парной регрессии
При линейной связи параметры уравнения парной регрессии:
(66)
находится из системы уравнений:
,(67)
которая получается применением метода наименьших квадратов. Из первого уравнения системы следует, что:
.(68)
Подставив полученное выражение во второе уравнение, получим:
.(69)
Коэффициент корреляции определяется по формуле:
(70)
Учитывая (69) и (70)
(71)
или (72)
Зная значения r, и можно вычислить по выражениям (72) и (68) параметры и линейного уравнения регрессии, а также значение среднего коэффициента эластичности:

4.4.1. Статистический анализ модели
Оценка параметров парной регрессии выполняется исходя из следующих предпосылок [8]. Допустим, что в генеральной совокупности связь между x и y линейна. Наличие случайных отклонений, вызванных воздействием на переменную y множества других, неучтенных в уравнении факторов и ошибок измерения, приведет к тому, что связь наблюдаемых величин и приобретает вид:
(73)
Здесь — случайные ошибки (отклонения, возмущения). Если были бы известны точные значения отклонений , то можно было бы рассчитать значения параметров и . Так как они неизвестны, то по наблюдениям и можно получить только оценки параметров и , которые сами являются случайными величинами в связи с тем, что соответствуют случайной выборке. Пусть — оценка параметра , — оценка параметра . Тогда оцененное уравнение регрессии будет иметь вид:
(74)
Для того, чтобы оценки и обладали адекватностью ряд остатков должен удовлетворять следующим требованиям:
математическое ожидание равно нулю (критерий нулевого среднего);
величина является случайной переменной (критерий серий);
значения независимы между собой (критерий Дарбина-Уотсона);
дисперсия постоянна: для всех i, j (тест Гольдфельда-Квандта);
Остатки распределены по нормальному закону (свойство используется для проверки статистической значимости и построения доверительных интервалов при прогнозировании)
Известно, что если данные условия выполняются, то оценки, сделанные с помощью метода наименьших квадратов, обладают следующими свойствами:
оценки являются несмещенными, т.е. математическое ожидание оценки каждого параметра равно его истинному значению:

Это вытекает из того, что и свидетельствует об отсутствии систематической ошибки в определении положения линии регрессии;
оценки состоятельны, т.к. дисперсии оценок параметров при возрастании числа наблюдений стремятся к нулю: ; , т.е. надежность оценки при увеличении выборки растет;
оценки эффективны, т.е. они имеют наименьшую дисперсию по сравнению с любыми другими оценками данного параметра.
Если предположения 3 и 4 нарушены, т.е. дисперсия возмущений непостоянна или значения связаны друг с другом, то свойства несмещенности и состоятельности сохраняется, но свойства эффективности – нет.
Отметим, что аппроксимировать уравнением парной регрессии у на х, имеет смысл только в том случае, если существует достаточно тесная статистическая зависимость между случайными величинами и линейный коэффициент корреляции является значимым, что и имеет место в рассматриваемом примере.

4.4.2. Оценка качества построенной модели
Близость точек исходных данных и линий регрессии на графике корреляционного поля (рис. 17) позволяет судить о качестве модели, но более строгий подход, кроме визуальной оценки, предполагает использование и других критериев.

Рисунок 17

Выбор функции для моделирования взаимосвязи между факторами осуществляется на основе формального и неформального подходов.
Формальный подход позволяет определить соответствие модели исходному объекту (адекватность) и степень близости ее к фактическим данным (точность).
Неформальный подход заключается в логическом исследовании соответствия математической функции, принятой в качестве модели, исследуемой зависимости.
При выборе модели можно сначала на основе содержательного анализа исключить заведомо неподходящие функции, а затем выбрать лучшую из оставшихся моделей и по ней осуществлять моделирование.
Можно подойти к выбору модели иначе: сначала оценить параметры всех моделей и выбрать лучшую из них по формальным признакам, а затем решать вопрос о ее соответствии исследуемой зависимости в содержательном плане.
Формально качество модели определяется ее адекватностью и точностью. Эти свойства исследуются на основе анализа ряда остатков (отклонений расчетных значений от фактических):
(75)
При этом адекватность является более важной составляющей качества, но сначала рассмотрим характеристики точности и нормальности ряда остатков, так как некоторые из них используются при расчете различных критериев адекватности.
4.4.2.1. Характеристики точности
Под точностью понимается величина случайных ошибок. Сравнительный анализ точности имеет смысл только для адекватных моделей: среди них лучшей признается модель с меньшими значениями характеристик точности, к которым относятся:
— максимальная ошибка соответствует максимальному отклонению расчетных значений от фактических;
— средняя абсолютная ошибка
(76)
показывает, насколько в среднем отклоняются фактические значения от модели;
— остаточная дисперсия
;(77)
— средняя квадратическая ошибка
.(78)
Средняя квадратическая ошибка является наиболее часто используемой характеристикой точности (что объясняется ее связью с остаточной дисперсией, которая играет центральную роль в регрессионном анализе). Значение средней квадратической ошибки всегда несколько больше значения средней абсолютной ошибки, но они имеют схожий смысл – характеризуют среднюю удаленность расчетных значений модели от фактических исходных данных. Обычно точность модели признается удовлетворительной если выполняется условие:
.(79)
К характеристикам точности можно отнести также множественный коэффициент детерминации
,(80)
характеризующий долю дисперсии зависимой переменной, объясненной с помощью регрессии, и множественный коэффициент корреляции (индекс корреляции):
.(81)
В случае парной линейной регрессии значение множественного коэффициента корреляции совпадает с линейным коэффициентом корреляции.
Проверка нормальности ряда остатков может быть выполнена приближенно по условиям (6) (ячейки D106 и D107). В связи с тем, что каждый из относительных показателей формы распределения меньше 1,5 эмпирическое распределение ряда остатков не противоречит нормальному.

4.4.2.2. Проверка адекватности модели
Проверка адекватности модели заключается в определении ее значимости и наличии или отсутствии систематической ошибки.

4.4.2.2.1. Проверка значимости модели
Сначала проверяется значимость параметров уравнения. Если, например, параметр является незначимым, то необходимо с помощью метода наименьших квадратов получить соответствующее уравнение из которого определяется значение параметра .
Проверка значимости осуществляется на основе t – критерия Стьюдента, т.е. проверяется гипотеза о том, что параметр, измеряющий связь, равен нулю.
Средняя ошибка параметра равна:
,(82)
а для параметра :
(83)
где n-2 – число степеней свободы для парной регрессии, определяемое количеством параметров в уравнении регрессии.
Расчетные значения t- критерия вычисляются по формуле:
(84)
Параметр считается значимым, если
Параметр лежит в пределах ,
а параметр — .
Значимость уравнения регрессии в целом определяется с помощью F – критерия Фишера:
(85)
где — число параметров в уравнении регрессии.
Расчетное значение F сопоставляется с табличным для числа степеней свободы при заданном уровне значимости (например, ).
Если , уравнение считается значимым.

4.4.2.2.2. Проверка наличия или отсутствия систематической ошибки
Проверка свойства нулевого среднего.
Рассчитывается среднее значение ряда остатков
.(86)
Если оно близко к нулю, то считается, что модель не содержит систематической ошибки и адекватна по критерию нулевого среднего, иначе – модель неадекватна по данному критерию. Если средняя ошибка не точно равна нулю, то для определения степени ее близости к нулю используется t – критерий Стьюдента.
Проверка случайности ряда остатков.
Осуществляется по методу серий. Серией называется последовательность расположенных подряд значений ряда остатков, для которых разность имеет один и тот же знак, где — медиана ряда остатков.
Если модель хорошо отражает исследуемую зависимость, то она часто пересекает линию графика исходных данных и тогда серий много, а их длина невелика. Иначе – серий мало и некоторые из них включают большое число членов.
Иногда медиана ряда остатков априорно принимается равной нулю, исходя из предположения симметричности распределения ошибок около нулевого среднего, тогда в качестве серий рассматриваются расположенные подряд ошибки с одинаковыми знаками. Далее подсчитывается число серий и длина максимальной из них . Полученные значения сравниваются с критическими
(87)
(88)
(квадратные скобки означают округление вниз до ближайшего целого).
Если выполняется система неравенств:
,(89)
то модель признается адекватной по критерию случайности, если хотя бы одно из неравенств нарушено, то модель признается неадекватной по данному критерию.
Проверка независимости последовательных остатков.
Является важнейшим критерием адекватности модели и осуществляется с помощью коэффициента Дарбина-Уотсона:
(90)
Для рядов с тесной взаимосвязью между последовательными значениями остатков значение близко к нулю, что свидетельствует о том, что закономерная составляющая не полностью отражена в модели и частично закономерность присуща ряду остатков, т.е. модель неадекватна исходному процессу.
Если последовательные остатки независимы, то близко к 2. Это свидетельствует о хорошем качестве модели и чистой фильтрации закономерной составляющей.
При отрицательной автокорреляции остатков (строго периодичном чередовании их знаков) близко к 4.
Для проверки существенности положительной автокорреляции остатков значение сравнивается с и :
если , то гипотеза о независимости остатков отвергается и модель признается неадекватной по критерию независимости остатков;
если , то гипотеза о независимости остатков принимается и модель признается адекватной по данному критерию;
если , то значение критерия лежит в области неопределенности.
Если , то возникает предположение об отрицательной автокорреляции остатков, и тогда с критическими значениями сравниваются не , а и делаются аналогичные выводы.
Проверка постоянства дисперсии остатков.
Если на графике остатков они укладываются в симметричную относительно нулевой линии полосу шириной (модуль стандартных остатков меньше 3) и не имеют как положительной так и отрицательной тенденций, то дисперсии ошибок наблюдений можно считать постоянными.
Кроме визуальной оценки постоянства дисперсии существуют и более точные методы, например, тест Гольдфельда-Квандта. Суть теста заключается в следующем. Все наблюдений упорядочиваются по возрастанию значений переменной и производится оценка параметров регрессий для первых и последних наблюдений с помощью метода наименьших квадратов. Для наибольшей мощности теста рекомендуется выбирать значение порядка Вычисляется расчётное значение статистики Фишера

где — суммы квадратов остатков для первых и последних наблюдений соответственно. Значения вычисляются подпрограммой СТОШYX (известные_значения_Y; известные_значения_X). Далее задаётся уровень значимости и определяется с помощъю статистических таблиц или стандартной функции в пакете “Анализ данных”.
Если то делается вывод о постоянстве дисперсии.
По совокупности четырех критериев делается вывод о принципиальной возможности использования модели: если модель адекватна по критериям постоянства дисперсий и нулевого среднего и хотя бы по одному из двух других критериев, то она может быть принята для использования, хотя и не признается полностью адекватной.

4.4.2.2.3. Построение доверительных интервалов
Конечной целью моделирования является оценка или прогнозирование показателя Y в зависимости от значений X.
Прогноз подразделяется на точечный и интервальный и обычно осуществляется не более чем на одну треть размаха:
,(91)
где — точка прогноза.
В точечном прогнозе показателя Y для определяется лишь одно число, которое представляет условное среднее и (при выполнении предпосылок регрессионного анализа) наиболее вероятное значение с точки зрения закономерности, отраженной в модели. В таком прогнозе не учитываются отклонения от закономерностей в результате воздействия случайных и неучтенных факторов.
В интервальном прогнозе отклонения от закономерностей в результате случайных воздействий определяются границами доверительных интервалов.
Доверительным интервалом называется такой интервал, которому с

Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!:

один × пять =

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.

Adblock detector