Общая дисперсия измеряет. Дисперсия и стандартное отклонение

Дисперсия случайной величины является мерой разброса значений этой величины. Малая дисперсия означает, что значения сгруппированы близко друг к другу. Большая дисперсия свидетельствует о сильном разбросе значений. Понятие дисперсии случайной величины применяется в статистике. Например, если сравнить дисперсию значений двух величин (таких как результаты наблюдений за пациентами мужского и женского пола), можно проверить значимость некоторой переменной. Также дисперсия используется при построении статистических моделей, так как малая дисперсия может быть признаком того, что вы чрезмерно подгоняете значения.

Шаги

Вычисление дисперсии выборки

  1. Запишите значения выборки. В большинстве случаев статистикам доступны только выборки определенных генеральных совокупностей. Например, как правило, статистики не анализируют расходы на содержание совокупности всех автомобилей в России – они анализируют случайную выборку из нескольких тысяч автомобилей. Такая выборка поможет определить средние расходы на автомобиль, но, скорее всего, полученное значение будет далеко от реального.

    • Например, проанализируем количество булочек, проданных в кафе за 6 дней, взятых в случайном порядке. Выборка имеет следующий вид: 17, 15, 23, 7, 9, 13. Это выборка, а не совокупность, потому что у нас нет данных о проданных булочках за каждый день работы кафе.
    • Если вам дана совокупность, а не выборка значений, перейдите к следующему разделу.
  2. Запишите формулу для вычисления дисперсии выборки. Дисперсия является мерой разброса значений некоторой величины. Чем ближе значение дисперсии к нулю, тем ближе значения сгруппированы друг к другу. Работая с выборкой значений, используйте следующую формулу для вычисления дисперсии:

    • s 2 {\displaystyle s^{2}} = ∑[( x i {\displaystyle x_{i}} - x̅) 2 {\displaystyle ^{2}} ] / (n - 1)
    • s 2 {\displaystyle s^{2}} – это дисперсия. Дисперсия измеряется в квадратных единицах измерения.
    • x i {\displaystyle x_{i}} – каждое значение в выборке.
    • x i {\displaystyle x_{i}} нужно вычесть x̅, возвести в квадрат, а затем сложить полученные результаты.
    • x̅ – выборочное среднее (среднее значение выборки).
    • n – количество значений в выборке.
  3. Вычислите среднее значение выборки. Оно обозначается как x̅. Среднее значение выборки вычисляется как обычное среднее арифметическое: сложите все значения в выборке, а затем полученный результат разделите на количество значений в выборке.

    • В нашем примере сложите значения в выборке: 15 + 17 + 23 + 7 + 9 + 13 = 84
      Теперь результат разделите на количество значений в выборке (в нашем примере их 6): 84 ÷ 6 = 14.
      Выборочное среднее x̅ = 14.
    • Выборочное среднее – это центральное значение, вокруг которого распределены значения в выборке. Если значения в выборке группируются вокруг выборочного среднего, то дисперсия мала; в противном случае дисперсия велика.
  4. Вычтите выборочное среднее из каждого значения в выборке. Теперь вычислите разность x i {\displaystyle x_{i}} - x̅, где x i {\displaystyle x_{i}} – каждое значение в выборке. Каждый полученный результат свидетельствует о мере отклонения конкретного значения от выборочного среднего, то есть как далеко это значение находится от среднего значения выборки.

    • В нашем примере:
      x 1 {\displaystyle x_{1}} - x̅ = 17 - 14 = 3
      x 2 {\displaystyle x_{2}} - x̅ = 15 - 14 = 1
      x 3 {\displaystyle x_{3}} - x̅ = 23 - 14 = 9
      x 4 {\displaystyle x_{4}} - x̅ = 7 - 14 = -7
      x 5 {\displaystyle x_{5}} - x̅ = 9 - 14 = -5
      x 6 {\displaystyle x_{6}} - x̅ = 13 - 14 = -1
    • Правильность полученных результатов легко проверить, так как их сумма должна равняться нулю. Это связано с определением среднего значения, так как отрицательные значения (расстояния от среднего значения до меньших значений) полностью компенсируются положительными значениями (расстояниями от среднего значения до больших значений).
  5. Как отмечалось выше, сумма разностей x i {\displaystyle x_{i}} - x̅ должна быть равна нулю. Это означает, что средняя дисперсия всегда равна нулю, что не дает никакого представления о разбросе значений некоторой величины. Для решения этой проблемы возведите в квадрат каждую разность x i {\displaystyle x_{i}} - x̅. Это приведет к тому, что вы получите только положительные числа, которые при сложении никогда не дадут 0.

    • В нашем примере:
      ( x 1 {\displaystyle x_{1}} - x̅) 2 = 3 2 = 9 {\displaystyle ^{2}=3^{2}=9}
      (x 2 {\displaystyle (x_{2}} - x̅) 2 = 1 2 = 1 {\displaystyle ^{2}=1^{2}=1}
      9 2 = 81
      (-7) 2 = 49
      (-5) 2 = 25
      (-1) 2 = 1
    • Вы нашли квадрат разности - x̅) 2 {\displaystyle ^{2}} для каждого значения в выборке.
  6. Вычислите сумму квадратов разностей. То есть найдите ту часть формулы, которая записывается так: ∑[( x i {\displaystyle x_{i}} - x̅) 2 {\displaystyle ^{2}} ]. Здесь знак Σ означает сумму квадратов разностей для каждого значения x i {\displaystyle x_{i}} в выборке. Вы уже нашли квадраты разностей (x i {\displaystyle (x_{i}} - x̅) 2 {\displaystyle ^{2}} для каждого значения x i {\displaystyle x_{i}} в выборке; теперь просто сложите эти квадраты.

    • В нашем примере: 9 + 1 + 81 + 49 + 25 + 1 = 166 .
  7. Полученный результат разделите на n - 1, где n – количество значений в выборке. Некоторое время назад для вычисления дисперсии выборки статистики делили результат просто на n; в этом случае вы получите среднее значение квадрата дисперсии, которое идеально подходит для описания дисперсии данной выборки. Но помните, что любая выборка – это лишь небольшая часть генеральной совокупности значений. Если взять другую выборку и выполнить такие же вычисления, вы получите другой результат. Как выяснилось, деление на n - 1 (а не просто на n) дает более точную оценку дисперсии генеральной совокупности, в чем вы и заинтересованы. Деление на n – 1 стало общепринятым, поэтому оно включено в формулу для вычисления дисперсии выборки.

    • В нашем примере выборка включает 6 значений, то есть n = 6.
      Дисперсия выборки = s 2 = 166 6 − 1 = {\displaystyle s^{2}={\frac {166}{6-1}}=} 33,2
  8. Отличие дисперсии от стандартного отклонения. Заметьте, что в формуле присутствует показатель степени, поэтому дисперсия измеряется в квадратных единицах измерения анализируемой величины. Иногда такой величиной довольно сложно оперировать; в таких случаях пользуются стандартным отклонением, которое равно квадратному корню из дисперсии. Именно поэтому дисперсия выборки обозначается как s 2 {\displaystyle s^{2}} , а стандартное отклонение выборки – как s {\displaystyle s} .

    • В нашем примере стандартное отклонение выборки: s = √33,2 = 5,76.

    Вычисление дисперсии совокупности

    1. Проанализируйте некоторую совокупность значений. Совокупность включает в себя все значения рассматриваемой величины. Например, если вы изучаете возраст жителей Ленинградской области, то совокупность включает возраст всех жителей этой области. В случае работы с совокупностью рекомендуется создать таблицу и внести в нее значения совокупности. Рассмотрим следующий пример:

      • В некоторой комнате находятся 6 аквариумов. В каждом аквариуме обитает следующее количество рыб:
        x 1 = 5 {\displaystyle x_{1}=5}
        x 2 = 5 {\displaystyle x_{2}=5}
        x 3 = 8 {\displaystyle x_{3}=8}
        x 4 = 12 {\displaystyle x_{4}=12}
        x 5 = 15 {\displaystyle x_{5}=15}
        x 6 = 18 {\displaystyle x_{6}=18}
    2. Запишите формулу для вычисления дисперсии генеральной совокупности. Так как в совокупность входят все значения некоторой величины, то приведенная ниже формула позволяет получить точное значение дисперсии совокупности. Для того чтобы отличить дисперсию совокупности от дисперсии выборки (значение которой является лишь оценочным), статистики используют различные переменные:

      • σ 2 {\displaystyle ^{2}} = (∑( x i {\displaystyle x_{i}} - μ) 2 {\displaystyle ^{2}} ) / n
      • σ 2 {\displaystyle ^{2}} – дисперсия совокупности (читается как «сигма в квадрате»). Дисперсия измеряется в квадратных единицах измерения.
      • x i {\displaystyle x_{i}} – каждое значение в совокупности.
      • Σ – знак суммы. То есть из каждого значения x i {\displaystyle x_{i}} нужно вычесть μ, возвести в квадрат, а затем сложить полученные результаты.
      • μ – среднее значение совокупности.
      • n – количество значений в генеральной совокупности.
    3. Вычислите среднее значение совокупности. При работе с генеральной совокупностью ее среднее значение обозначается как μ (мю). Среднее значение совокупности вычисляется как обычное среднее арифметическое: сложите все значения в генеральной совокупности, а затем полученный результат разделите на количество значений в генеральной совокупности.

      • Имейте в виду, что средние величины не всегда вычисляются как среднее арифметическое.
      • В нашем примере среднее значение совокупности: μ = 5 + 5 + 8 + 12 + 15 + 18 6 {\displaystyle {\frac {5+5+8+12+15+18}{6}}} = 10,5
    4. Вычтите среднее значение совокупности из каждого значения в генеральной совокупности. Чем ближе значение разности к нулю, тем ближе конкретное значение к среднему значению совокупности. Найдите разность между каждым значением в совокупности и ее средним значением, и вы получите первое представление о распределении значений.

      • В нашем примере:
        x 1 {\displaystyle x_{1}} - μ = 5 - 10,5 = -5,5
        x 2 {\displaystyle x_{2}} - μ = 5 - 10,5 = -5,5
        x 3 {\displaystyle x_{3}} - μ = 8 - 10,5 = -2,5
        x 4 {\displaystyle x_{4}} - μ = 12 - 10,5 = 1,5
        x 5 {\displaystyle x_{5}} - μ = 15 - 10,5 = 4,5
        x 6 {\displaystyle x_{6}} - μ = 18 - 10,5 = 7,5
    5. Возведите в квадрат каждый полученный результат. Значения разностей будут как положительными, так и отрицательными; если нанести эти значения на числовую прямую, то они будут лежать справа и слева от среднего значения совокупности. Это не годится для вычисления дисперсии, так как положительные и отрицательные числа компенсируют друг друга. Поэтому возведите в квадрат каждую разность, чтобы получить исключительно положительные числа.

      • В нашем примере:
        ( x i {\displaystyle x_{i}} - μ) 2 {\displaystyle ^{2}} для каждого значения совокупности (от i = 1 до i = 6):
        (-5,5) 2 {\displaystyle ^{2}} = 30,25
        (-5,5) 2 {\displaystyle ^{2}} , где x n {\displaystyle x_{n}} – последнее значение в генеральной совокупности.
      • Для вычисления среднего значения полученных результатов нужно найти их сумму и разделить ее на n:(( x 1 {\displaystyle x_{1}} - μ) 2 {\displaystyle ^{2}} + ( x 2 {\displaystyle x_{2}} - μ) 2 {\displaystyle ^{2}} + ... + ( x n {\displaystyle x_{n}} - μ) 2 {\displaystyle ^{2}} ) / n
      • Теперь запишем приведенное объяснение с использованием переменных: (∑( x i {\displaystyle x_{i}} - μ) 2 {\displaystyle ^{2}} ) / n и получим формулу для вычисления дисперсии совокупности.

Дисперсия в статистике определяется как среднее квадратическое отклонение индивидуальных значений признака в квадрате от средней арифметической. Распространенный способ расчета квадратов отклонений вариантов от средней с их последующим усреднением.

В экономически-статистическом анализе вариацию признака принято оценивать чаще всего с помощью среднего квадратического отклонения, оно представляет собой корень квадратный из дисперсии.

(3)

Характеризует абсолютную колеблемость значений варьирующего признака выражается в тех же единицах измерения, что и варианты. В статистике часто возникает необходимость сравнения вариации различных признаков. Для таких сравнений используется относительный показатель вариации, коэффициент вариации.

Свойства дисперсии:

1)если из всех вариант вычесть какое-либо число, то дисперсия от этого не изменится;

2) если все значения вариант разделить на какое-либо число b, то дисперсия уменьшится в b^2 раз, т.е.

3) если исчислить средний квадрат отклонений от какого-либо числа с неравного средней арифметической, то он будет больше дисперсии . При этом на вполне определенную величину на квадрат разности между средней величиной поc.

Дисперсию можно определить как разницу между средним квадратом и средней в квадрате.

17. Групповая и межгрупповая вариации. Правило сложения дисперсии

Если статистическая совокупность разбита на группы или части по изучаемому признаку, то для такой совокупности могут быть исчислены следующие виды дисперсии: групповые (частные), средне групповые (частных), и межгрупповая.

Общая дисперсия – отражает вариацию признака за счет всех условий и причин, действующих в данной статистической совокупности.

Групповая дисперсия - равна среднему квадрату отклонений отдельных значений признака внутри группы от средней арифметической этой группы, называемой групповой средней. При этом групповая средняя не совпадает с общей средней для всей совокупности.

Групповая дисперсия отражает вариацию признака только за счет условий и причин, действующих внутри группы.

Средняя групповых дисперсий - определяется как среднее взвешенное арифметическое из дисперсий групповых, причем весами являются объемы групп.

Межгрупповая дисперсия - равна среднему квадрату отклонений групповых средних от общей средней.

Межгрупповая дисперсия характеризует вариацию результативного признака за счет группировочного признака.

Между рассмотренными видами дисперсий существует определенное соотношение: общая дисперсия равна сумме средней групповой и межгрупповой дисперсии.

Это соотношение называется правилом сложения дисперсии.

18. Динамический ряд и его составные элементы. Виды динамических рядов.

Ряд в статистике - это цифровые данные, показывающие, изменение явления во времени или в пространстве и дающие возможность производить статистическое сравнение явлений как в процессе их развития во времени, так и по различным формам и видам процессов. Благодаря этому можно обнаружить взаимную зависимость явлений.

Процесс развития движения социальных явлений во времени в статистике принято называть динамикой. Для отображения динамики строят ряды динамики (хронологические, временные), которые представляют собой ряды изменяющихся во времени значений статистического показателя (например, число осуждённых за 10 лет), расположенных в хронологическом порядке. Их составными элементами являются цифровые значения данного показателя и периоды или моменты времени, к которым они относятся.

Важнейшая характеристика рядов динамики - их размер (объём, величина) того или иного явления, достигнутых в определённых период или к определённому моменту. Соответственно, величина членов ряда динамики - его уровень. Различают начальный, средний и конечный уровни динамического ряда. Начальный уровень показывает величину первого, конечный - величину последнего члена ряда. Средний уровень представляет собой среднюю хронологическую вариационного рада и исчисляется в зависимости от того, является ли динамический ряд интервальным или моментным.

Ещё одна важная характеристика динамического ряда - время, прошедшее от начального до конечного наблюдения, или число таких наблюдений.

Существуют различные виды рядов динамики, их можно классифицировать по следующим признакам.

1) В зависимости от способа выражения уровней ряды динамики подразделяются на ряды абсолютных и производных показателей (относительных и средних величин).

2) В зависимости от того, как выражают уровни ряда состояние явления на определённые моменты времени (на начало месяца, квартала, года и т.п.) или его величину за определённые интервалы времени (например, за сутки, месяц, год и т.п.), различают соответственно моментные и интервальные ряды динамики. Моментные ряды в аналитической работе правоохранительных органов используются сравнительно редко.

В теории статистики выделяют рады динамики и по ряду других классификационных признаков: в зависимости от расстояния между уровнями - с равностоящими уровнями и неравностоящими уровнями во времени; в зависимости от наличия основной тенденции изучаемого процесса - стационарные и не стационарные. При анализе динамических рядов исходят из следующего уровни ряда представляют в виде составляющих:

Y t = TP + Е (t)

где ТР – детерминированная составляющая определяющая общую тенденцию изменения во времени или тренд.

Е (t) – случайная компонента, вызывающая колеблимость уровней.

Дисперсия случайной величины - мера разброса данной случайной величины , то есть её отклонения от математического ожидания. В статистике для обозначения дисперсии часто употребляется обозначение (сигма в квадрате). Квадратный корень из дисперсии , равный , называется стандартным отклонением или стандартным разбросом. Стандартное отклонение измеряется в тех же единицах, что и сама случайная величина, а дисперсия измеряется в квадратах этой единицы измерения.

Хотя для оценки всей выборки очень удобно использовать лишь одно значение (такое как среднее значение или моду и медиану), этот подход легко может привести к неправильным выводам. Причина такого положения лежит не в самой величине, а в том, что одна величина никак не отражает разброс значений данных.

Например, в выборке:

среднее значение равно 5.

Однако, в самой выборке нет ни одного элемента со значением 5. Возможно, Вам потребуется знать степень близости каждого элемента выборки к ее среднему значению. Или, другими словами, вам потребуется знать дисперсию значений. Зная степень изменения данных, Вы можете лучше интерпретировать среднее значение , медиану и моду . Степень изменения значений выборки определяется путем вычисления их дисперсии и стандартного отклонения.



Дисперсия и квадратный корень из дисперсии, называемый стандартным отклонением, характеризуют среднее отклонение от среднего значения выборки. Среди этих двух величин наибольшее значение имеет стандартное отклонение . Это значение можно представить как среднее расстояние, на котором находятся элементы от среднего элемента выборки.

Дисперсию трудно интерпретировать содержательно. Однако, квадратный корень из этого значения является стандартным отклонением и хорошо поддается интерпретации.

Стандартное отклонение вычисляется путем определения сначала дисперсии и затем вычисления квадратного корня из дисперсии.

Например, для массива данных, приведенных на рисунке, будут получены следующие значения:

Рисунок 1

Здесь среднее значение квадратов разностей равно 717,43. Для получения стандартного отклонения осталось лишь взять квадратный корень из этого числа.

Результат составит приблизительно 26,78.

Следует помнить, что стандартное отклонение интерпретируется как среднее расстояние, на котором находятся элементы от среднего значения выборки.

Стандартное отклонение показывает, насколько хорошо среднее значение описывает всю выборку.

Допустим, Вы являетесь руководителем производственного отдела по сборке ПК. В квартальном отчете говорится, что выпуск за последний квартал составил 2500 ПК. Плохо это или хорошо? Вы попросили (или уже в отчете есть эта графа) в отчете отобразить стандартное отклонение по этим данным. Цифра стандартного отклонения, например, равна 2000. Становится понятным для Вас, как руководителя отдела, что производственная линия требует лучшего управления (слишком большие отклонения по количеству собираемых ПК).

Вспомним: при большой величине стандартного отклонения данные широко разбросаны относительно среднего значения, а при маленькой – они группируются близко к среднему значению.

Четыре статистические функции ДИСП(), ДИСПР(), СТАНДОТКЛОН() и СТАНДОТКЛОНП() – предназначены для вычисления дисперсии и стандартного отклонения чисел в интервале ячеек. Перед тем как вычислять дисперсию и стандартное отклонение набора данных, нужно определить, представляют ли эти данные генеральную совокупность или выборку из генеральной совокупности. В случае выборки из генеральной совокупности следует использовать функции ДИСП() и СТАНДОТКЛОН(), а в случае генеральной совокупности – функции ДИСПР() и СТАНДОТЛОНП():

Генеральная совокупность Функция

ДИСПР()

СТАНДОТЛОНП()
Выборка

ДИСП()

СТАНДОТКЛОН()

Дисперсия (а так же стандартное отклонение), как мы отмечали, свидетельствуют о том, в какой степени входящие в набор данных величины разбросаны вокруг среднего арифметического.

Малое значение дисперсии или стандартного отклонения говорит о том, что все данные сосредоточены вокруг среднего арифметического, а большое значение этих величин – о том, что данные разбросаны в широком диапазоне значений.

Дисперсию достаточно трудно интерпретировать содержательно (что значит малое значение, большое значение?). Выполнение Задания 3 позволит визуально, на графике, показать смысл дисперсии для набора данных.

Задания

· Задание 1.

· 2.1. Дать понятия: дисперсия и стандартное отклонение; их символьное обозначение при статистической обработке данных.

· 2.2. Оформить рабочий лист в соответствии с рисунком 1 и произвести необходимые расчеты.

· 2.3. Привести основные формулы, используемые при расчетах

· 2.4. Пояснить все обозначения ( , , )

· 2.5. Пояснить практическое значение понятия дисперсия и стандартное отклонение.

Задание 2.

1.1. Дать понятия: генеральная совокупность и выборка; математическое ожидание и среднее арифметическое их символьное обозначение при статистической обработке данных.

1.2. В соответствии с рисунком 2 оформить рабочий лист и произвести расчеты.

1.3. Привести основные формулы, используемые при расчетах (для генеральной совокупности и выборке).

Рисунок 2

1.4. Объяснить, почему возможны получения таких значений средних арифметических в выборках как 46,43 и 48,78 (см. файл Приложение). Сделать выводы.

Задание 3.

Имеется две выборки с различным набором данных, но среднее для них будет одинаковым:

Рисунок 3

3.1. Оформить рабочий лист в соответствии с рисунком 3 и произвести необходимые расчеты.

3.2. Приведите основные формулы расчета.

3.3. Постройте графики в соответствии с рисунками 4, 5.

3.4. Поясните полученные зависимости.

3.5. Аналогичные вычисления проведите для данных двух выборок.

Исходная выборка 11119999

Значения второй выборки подбираете так, что бы среднее арифметическое для второй выборки было таким же, например,:

Подберите значения для второй выборки самостоятельно. Оформите вычисления и построения графиков подобно рисункам 3, 4, 5. Покажите основные формулы, которые использовали при вычислениях.

Сделайте соответствующие выводы.

Все задания оформить в виде отчета со всеми необходимыми рисунками, графиками, формулами и краткими пояснениями.

Примечание: построение графиков обязательно пояснить с рисунками и краткими пояснениями.

Для сгруппированных данных остаточная дисперсия - средняя из внутригрупповых дисперсий:

Где σ 2 j - внутригрупповая дисперсия j -й группы.

Для не сгруппированных данных остаточная дисперсия – мера точности аппроксимации, т.е. приближения линии регрессии к исходным данным:
где y(t) – прогноз по уравнению тренда; y t – исходный ряд динамики; n – количество точек; p – число коэффициентов уравнения регрессии (количество объясняющих переменных).
В этом примере она называется несмещенная оценка дисперсии .

Пример №1 . Распределение рабочих трех предприятий одного объединения по тарифным разрядам характеризуется следующими данными:

Тарифный разряд рабочего Численность рабочих на предприятии
предприятие 1 предприятие 2 предприятие 3
1 50 20 40
2 100 80 60
3 150 150 200
4 350 300 400
5 200 150 250
6 150 100 150

Определить:
1. дисперсию по каждому предприятию (внутригрупповые дисперсии);
2. среднюю из внутригрупповых дисперсий;
3. межгрупповую дисперсию ;
4. общую дисперсию.

Решение.
Прежде чем приступить к решению задачи необходимо выяснить, какой признак является результативным, а какой – факторным. В рассматриваемом примере результативным признаком является «Тарифный разряд», а факторным признаком – «Номер (название) предприятия».
Тогда имеем три группы (предприятия), для которых необходимо рассчитать групповую среднюю и внутригрупповые дисперсии :


Предприятие Групповая средняя, Внутригрупповая дисперсия,
1 4 1,8

Средняя из внутригрупповых дисперсий (остаточная дисперсия ) рассчитаем по формуле:


где можно рассчитать:
либо:


тогда:
Общая дисперсия будет равна: s 2 = 1,6 + 0 = 1,6.
Общую дисперсию также можно рассчитать и по одной из следующих двух формул:

При решении практических задач часто приходится иметь дело с признаком, принимающим только два альтернативных значения. В этом случае говорят не о весе того или иного значения признака, а о его доле в совокупности. Если долю единиц совокупности, обладающих изучаемым признаком, обозначить через «р », а не обладающих – через «q », то дисперсию можно рассчитать по формуле:
s 2 = p×q

Пример №2 . По данным о выработке шести рабочих бригады определить межгрупповую дисперсию и оценить влияние рабочей смены на их производительность труда, если общая дисперсия равна 12,2 .

№ рабочего бригады Выработка рабочего, шт.
в I смену во II смену
1 18 13
2 19 14
3 22 15
4 20 17
5 24 16
6 23 15

Решение . Исходные данные

X f 1 f 2 f 3 f 4 f 5 f 6 Итого
1 18 19 22 20 24 23 126
2 13 14 15 17 16 15 90
Итого 31 33 37 37 40 38

Тогда имеем 6 группы, для которых необходимо рассчитать групповую среднюю и внутригрупповые дисперсии.
1. Находим средние значения каждой группы .







2. Находим среднее квадратическое каждой группы .







Результаты расчета сведем в таблицу:
Номер группы Групповая средняя Внутригрупповая дисперсия
1 1.42 0.24
2 1.42 0.24
3 1.41 0.24
4 1.46 0.25
5 1.4 0.24
6 1.39 0.24

3. Внутригрупповая дисперсия характеризует изменение (вариацию) изучаемого (результативного) признака в пределах группы под действием на него всех факторов, кроме фактора, положенного в основание группировки:
Среднюю из внутригрупповых дисперсий рассчитаем по формуле:


4. Межгрупповая дисперсия характеризует изменение (вариацию) изучаемого (результативного) признака под действием на него фактора (факторного признака), положенного в основание группировки.
Межгрупповую дисперсию определим как:

где


Тогда

Общая дисперсия характеризует изменение (вариацию) изучаемого (результативного) признака под действием на него всех без исключения факторов (факторных признаков). По условию задачи она равна 12.2 .
Эмпирическое корреляционное отношение измеряет, какую часть общей колеблемости результативного признака вызывает изучаемый фактор. Это отношение факторной дисперсии к общей дисперсии:

Определяем эмпирическое корреляционное отношение:

Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 0.3 0.5 0.7 0.9 В нашем примере связь между признаком Y фактором X слабая
Коэффициент детерминации.

Определим коэффициент детерминации:

Таким образом, на 0.67% вариация обусловлена различиями между признаками, а на 99.37% – другими факторами.
Вывод : в данном случае выработка рабочих не зависит от работы в конкретную смену, т..е. влияние рабочей смены на их производительность труда не значительное и обусловлено другими факторами.

Пример №3 . На основе данных о средней заработной плате и квадратах отклонений от её величины по двум группам рабочих найти общую дисперсию, применив правило сложения дисперсий:

Решение:
Средняя из внутригрупповых дисперсий

Межгрупповую дисперсию определим как:


Общая дисперсия будет равна: 480 + 13824 = 14304

В случае, если совокупность разбита на группы по изучаемому признаку, то для данной совокупности могут быть исчислены следующие виды дисперсии: общая, групповые (внутригрупповые), средняя из групповых (средняя из внутригрупповых), межгрупповая.

Первоначально рассчитывает коэффициент детерминации, который показывает какую часть общей вариации изучаемого признака составляет вариация межгрупповая, т.е. обусловленная группировочным признаком:

Эмпирическое корреляционное отношение характеризует тесноту связи между признаками группировочным (факторным) и результативным.

Эмпирическое корреляционное отношение может принимать значения от 0 до 1.

Для оценки тесноты связи на основе показателя эмпирического корреляционного отношения можно воспользоваться соотношениями Чеддока:

Пример 4. Имеются следующие данные о выполнении работ проектно-изыскательскими организациями разной формы собственности:

Определить:

1) общую дисперсию;

2) групповые дисперсии;

3) среднюю из групповых дисперсий;

4) межгрупповую дисперсию;

5) общую дисперсию на основе правила сложения дисперсий;


6) коэффициент детерминации и эмпирическое корреляционное отношение.

Сделайте выводы.

Решение:

1. Определим средний объём выполнения работ предприятий двух форм собственности:

Рассчитаем общую дисперсию:

2. Определим групповые средние:

млн руб.;

млн руб.

Групповые дисперсии:

;

3. Рассчитаем среднюю из групповых дисперсий:

4. Определим межгрупповую дисперсию:

5. Рассчитаем общую дисперсию на основе правила сложения дисперсий:

6. Определим коэффициент детерминации:

.

Таким образом, объём работ, выполненных проектно-изыскательскими организациями на 22% зависит от формы собственности предприятий.

Эмпирическое корреляционное отношение рассчитываем по формуле

.

Величина рассчитанного показателя свидетельствует о том, что зависимость объема работ от формы собственности предприятия невелика.

Пример 5. В результате обследования технологической дисциплины производственных участков получены следующие данные:

Определите коэффициент детерминации