Формула за изчисляване на дисперсията на произволна променлива x. Математическо очакване на дискретна случайна променлива

За групирани данни остатъчна дисперсия- средна стойност на вътрешногруповите дисперсии:

Където σ 2 j е вътрешногруповата дисперсия на j -та група.

За негрупирани данни остатъчна дисперсияе мярка за точността на апроксимацията, т.е. приближаване на регресионната линия към оригиналните данни:
където y(t) е прогнозата според уравнението на тренда; y t – начален ред на динамиката; n е броят на точките; p е броят на коефициентите на регресионното уравнение (броя на обяснителните променливи).
В този пример се нарича безпристрастна оценка на дисперсията.

Пример №1. Разпределението на работниците на три предприятия от една асоциация по тарифни категории се характеризира със следните данни:

Категория работна заплатаБрой работници в предприятието
предприятие 1предприятие 2предприятие 3
1 50 20 40
2 100 80 60
3 150 150 200
4 350 300 400
5 200 150 250
6 150 100 150

Определете:
1. дисперсия за всяко предприятие (вътрегрупова дисперсия);
2. средна стойност на вътрешногруповите дисперсии;
3. междугрупова дисперсия;
4. обща дисперсия.

Решение.
Преди да пристъпите към решаване на проблема, е необходимо да разберете коя функция е ефективна и коя е факторна. В разглеждания пример действащият атрибут е "Тарифна категория", а атрибутът фактор е "Номер (име) на предприятието".
Тогава имаме три групи (предприятия), за които е необходимо да се изчислят средните и вътрешногрупови дисперсии:


Компаниясредна група,дисперсия в рамките на групата,
1 4 1,8

Средната стойност на вътрешногруповите дисперсии ( остатъчна дисперсия) се изчислява по формулата:


където можете да изчислите:
или:


тогава:
Общата дисперсия ще бъде равна на: s 2 = 1,6 + 0 = 1,6.
Общата дисперсия може също да бъде изчислена с помощта на една от следните две формули:

При решаването на практически задачи често се налага да се справяме със знак, който приема само две алтернативни стойности. В този случай те не говорят за тежестта на определена стойност на даден признак, а за неговия дял в съвкупността. Ако делът на единиците на населението, които имат изследваната черта, се обозначава с " Р", а не притежаващи - чрез" q”, тогава дисперсията може да се изчисли по формулата:
s 2 = p×q

Пример №2. По данни за развитието на шест работници от бригадата определете междугруповата дисперсия и оценете влиянието на работната смяна върху производителността на труда им, ако общата дисперсия е 12,2.

No на работната бригадаРаботна продукция, бр.
в първа смянавъв 2-ра смяна
1 18 13
2 19 14
3 22 15
4 20 17
5 24 16
6 23 15

Решение. Първоначални данни

хf1f2е 3f4f5f6Обща сума
1 18 19 22 20 24 23 126
2 13 14 15 17 16 15 90
Обща сума 31 33 37 37 40 38

Тогава имаме 6 групи, за които е необходимо да се изчисли средната стойност на групата и вътрешногруповите дисперсии.
1. Намерете средните стойности на всяка група.







2. Намерете средния квадрат на всяка група.







Обобщаваме резултатите от изчислението в таблица:
Номер на групатаСредно за групатаВътрешногрупова дисперсия
1 1.42 0.24
2 1.42 0.24
3 1.41 0.24
4 1.46 0.25
5 1.4 0.24
6 1.39 0.24

3. Вътрешногрупова дисперсияхарактеризира промяната (вариацията) на изследваната (резултантната) характеристика в рамките на групата под влияние на всички фактори, с изключение на фактора, лежащ в основата на групирането:
Изчисляваме средната стойност на вътрешногруповите дисперсии по формулата:


4. Междугрупова дисперсияхарактеризира изменението (вариацията) на изследваната (резултираща) черта под влияние на фактор (факторна черта), лежащ в основата на групирането.
Междугруповата дисперсия се дефинира като:

където


Тогава

Пълна дисперсияхарактеризира изменението (вариацията) на изследваната (резултатна) черта под влияние на всички фактори (факторни черти) без изключение. По условие на задачата е равно на 12.2.
Емпирична корелационна връзкаизмерва колко от общото колебание на резултантния атрибут е причинено от изследвания фактор. Това е съотношението на факторната дисперсия към обща дисперсия:

Определяме емпиричната корелационна връзка:

Връзките между характеристиките могат да бъдат слаби или силни (близки). Техните критерии се оценяват по скалата на Чадок:
0,1 0,3 0,5 0,7 0,9 В нашия пример връзката между фактор Y на характеристиката X е слаба
Коефициент на детерминация.

Нека дефинираме коефициента на детерминация:

Така 0,67% от вариацията се дължат на разлики между черти, а 99,37% се дължат на други фактори.
Заключение: в този случай продукцията на работниците не зависи от работата в определена смяна, т.е. влиянието на работната смяна върху производителността на труда им не е значително и се дължи на други фактори.

Пример №3. Въз основа на средно заплатии квадратни отклонения от неговата стойност за две групи работници, намерете общата дисперсия, като приложите правилото за добавяне на дисперсии:

решение:
Средна стойност на вариациите в рамките на групата

Междугруповата дисперсия се дефинира като:


Общата дисперсия ще бъде: 480 + 13824 = 14304

Основните обобщаващи показатели за вариация в статистиката са дисперсии и средна стойност стандартно отклонение.

Дисперсия го средноаритметично квадратни отклонения на стойността на всяка характеристика от общата средна стойност. Дисперсията обикновено се нарича среден квадрат на отклоненията и се обозначава  2 . В зависимост от първоначалните данни, дисперсията може да бъде изчислена от средната аритметична, проста или претеглена:

 непретеглена (проста) дисперсия;

 претеглена дисперсия.

Стандартно отклонение е обобщаваща характеристика на абсолютните размери вариации черта в съвкупността. Изразява се в същите единици като знака (в метри, тонове, проценти, хектари и т.н.).

Стандартното отклонение е корен квадратен от дисперсията и се обозначава с :

 непретеглено стандартно отклонение;

 претеглено стандартно отклонение.

Стандартното отклонение е мярка за надеждността на средната стойност. Колкото по-малко е стандартното отклонение, толкова по-добре средноаритметичната стойност отразява цялата представена съвкупност.

Изчисляването на стандартното отклонение се предхожда от изчисляването на дисперсията.

Процедурата за изчисляване на претеглената дисперсия е както следва:

1) определете средноаритметичната претеглена стойност:

2) изчислете отклоненията на опциите от средната стойност:

3) квадратура на отклонението на всяка опция от средната стойност:

4) умножете на квадрат отклоненията по тегла (честоти):

5) обобщете получените произведения:

6) получената сума се разделя на сумата от теглата:

Пример 2.1

Изчислете средноаритметичната претеглена стойност:

Стойностите на отклоненията от средната стойност и техните квадрати са представени в таблицата. Нека дефинираме дисперсията:

Стандартното отклонение ще бъде равно на:

Ако изходните данни са представени като интервал разпределителна серия , тогава първо трябва да определите дискретната стойност на характеристиката и след това да приложите описания метод.

Пример 2.2

Нека покажем изчисляването на дисперсията за интервалната серия върху данните за разпределението на посевната площ на колхозата по добив на пшеница.

Средноаритметичната стойност е:

Нека изчислим дисперсията:

6.3. Изчисляване на дисперсията по формулата за индивидуални данни

Техника на изчисление дисперсия сложни и за големи стойности на опциите и честотите могат да бъдат тромави. Изчисленията могат да бъдат опростени с помощта на свойствата на дисперсията.

Дисперсията има следните свойства.

1. Намаляването или увеличаването на теглата (честотите) на променлива характеристика с определен брой пъти не променя дисперсията.

2. Намаляване или увеличаване на стойността на всяка характеристика със същата постоянна стойност НОдисперсията не се променя.

3. Намаляване или увеличаване на стойността на всяка характеристика с определен брой пъти ксъответно намалява или увеличава дисперсията в к 2 пъти стандартно отклонение  в кведнъж.

4. Дисперсията на характеристика спрямо произволна стойност винаги е по-голяма от дисперсията спрямо средноаритметичната стойност от квадрата на разликата между средната и произволната стойност:

Ако НО 0, тогава стигаме до следното равенство:

т.е. дисперсията на даден признак е равна на разликата между средния квадрат на стойностите на характеристиката и квадрата на средната стойност.

Всяко свойство може да се използва самостоятелно или в комбинация с други при изчисляване на дисперсията.

Процедурата за изчисляване на дисперсията е проста:

1) определя средноаритметично :

2) квадрат средноаритметичното:

3) квадратура на отклонението на всеки вариант на серията:

х и 2 .

4) намерете сумата от квадратите на опциите:

5) разделете сумата от квадратите на опциите на техния брой, т.е. определете средния квадрат:

6) определете разликата между средния квадрат на характеристиката и квадрата на средната стойност:

Пример 3.1Имаме следните данни за производителността на работниците:

Нека направим следните изчисления:

Дисперсия в статистикатасе намира като индивидуални стойности на характеристиката в квадрата на . В зависимост от изходните данни се определя от простите и претеглени формули за дисперсия:

1. (за негрупирани данни) се изчислява по формулата:

2. Претеглена дисперсия (за серия от вариации):

където n е честотата (коефициент на повторяемост X)

Пример за намиране на дисперсията

Тази страница описва стандартен пример за намиране на дисперсията, можете да разгледате и други задачи за намирането му

Пример 1. Имаме следните данни за група от 20 ученици отдел за кореспонденция. Трябва да се изгради интервална серияразпределение на признака, изчисляване на средната стойност на характеристиката и изследване на нейната дисперсия

Нека изградим интервално групиране. Нека определим обхвата на интервала по формулата:

където X max е максималната стойност на групиращия елемент;
X min е минималната стойност на характеристиката за групиране;
n е броят на интервалите:

Приемаме n=5. Стъпката е: h = (192 - 159) / 5 = 6,6

Нека направим интервално групиране

За допълнителни изчисления ще изградим помощна таблица:

X'i е средата на интервала. (например средата на интервала 159 - 165,6 = 162,3)

Средният растеж на учениците се определя по формулата на средноаритметичната претеглена стойност:

Определяме дисперсията по формулата:

Формулата за дисперсията може да се преобразува, както следва:

От тази формула следва, че дисперсията е разликата между средната стойност на квадратите на опциите и квадрата и средната стойност.

Дисперсия в вариационна серия с равни интервали по метода на моментите може да се изчисли по следния начин с помощта на второто свойство на дисперсията (разделяйки всички опции на стойността на интервала). Определение на дисперсията, изчислено по метода на моментите, по следната формула е по-малко времеемко:

където i е стойността на интервала;
A - условна нула, която е удобно да се използва средата на интервала с най-висока честота;
m1 е квадратът на момента от първи ред;
m2 - момент от втори ред

(ако в статистическата съвкупност атрибутът се променя по такъв начин, че има само две взаимно изключващи се опции, тогава такава променливост се нарича алтернатива) може да се изчисли по формулата:

Замествайки в тази дисперсионна формула q = 1- p, получаваме:

Видове дисперсия

Пълна дисперсияизмерва вариацията на даден признак върху цялата популация като цяло под влиянието на всички фактори, които причиняват тази вариация. Той е равен на средния квадрат на отклоненията на отделните стойности на признака x от общата средна стойност x и може да се определи като проста дисперсия или претеглена дисперсия.

характеризира случайна вариация, т.е. част от вариацията, която се дължи на влиянието на неотчетени фактори и не зависи от знак-фактор, лежащ в основата на групирането. Такава дисперсия е равна на средния квадрат на отклоненията на индивидуалните стойности на даден признак в групата X от средноаритметичната стойност на групата и може да бъде изчислена като проста дисперсия или като претеглена дисперсия.

По този начин, мерки за вариация в рамките на групатавариация на черта в рамките на група и се определя по формулата:

където xi - средно за групата;
ni е броят на единиците в групата.

Например, вътрешногруповите дисперсии, които трябва да се определят в задачата за изследване на влиянието на квалификацията на работниците върху нивото на производителността на труда в цеха, показват вариации в продукцията във всяка група, причинени от всички възможни фактори (техническо състояниеоборудване, наличие на инструменти и материали, възраст на работниците, интензивност на труда и др.), с изключение на различията в квалификационната категория (в рамките на групата всички работници имат еднаква квалификация).

Средната стойност на вариациите в рамките на групата отразява случайната, т.е. тази част от вариацията, която е възникнала под влиянието на всички други фактори, с изключение на фактора за групиране. Изчислява се по формулата:

Характеризира системното изменение на резултантния признак, което се дължи на влиянието на черта-фактор, лежащ в основата на групирането. То е равно на средния квадрат на отклоненията на средните от групата от общата средна стойност. Междугруповата дисперсия се изчислява по формулата:

Правило за добавяне на дисперсия в статистиката

Според правило за добавяне на дисперсияобщата дисперсия е равна на сумата от средната стойност на вътрешногруповите и междугруповите дисперсии:

Значението на това правилое, че общата дисперсия, която възниква под влияние на всички фактори, е равна на сумата от дисперсиите, които възникват под влиянието на всички други фактори, и дисперсията, която възниква поради групиращия фактор.

Използвайки формулата за добавяне на дисперсии, е възможно да се определи третото неизвестно от две известни дисперсии, както и да се прецени силата на влиянието на атрибута за групиране.

Свойства на дисперсия

1. Ако всички стойности на атрибута бъдат намалени (увеличени) с една и съща константна стойност, тогава дисперсията няма да се промени от това.
2. Ако всички стойности на атрибута бъдат намалени (увеличени) със същия брой пъти n, тогава дисперсията съответно ще намалее (увеличи) с n^2 пъти.

Наред с изследването на вариацията на даден признак в цялата популация като цяло, често е необходимо да се проследят количествените промени в признака в групите, на които е разделена популацията, както и между групите. Това изследване на вариацията се постига чрез изчисляване и анализ различни видоведисперсия.
Разграничаване на обща, междугрупова и вътрешногрупова дисперсия.
Обща дисперсия σ 2измерва вариацията на дадена черта върху цялата популация под влиянието на всички фактори, причинили тази вариация, .

Междугруповата дисперсия (δ) характеризира системната вариация, т.е. разлики в величината на изследваната черта, възникващи под влиянието на признак-фактор, лежащ в основата на групирането. Изчислява се по формулата:
.

Вътрешногрупова дисперсия (σ)отразява случайна вариация, т.е. част от вариацията, която възниква под влиянието на неотчетени фактори и не зависи от чертата-фактор, лежащ в основата на групирането. Изчислява се по формулата:
.

Средна стойност на вариациите в рамките на групата: .

Има закон, свързващ 3 вида дисперсия. Общата дисперсия е равна на сумата от средната стойност на вътрешногруповите и междугруповите дисперсии: .
Това съотношение се нарича правило за добавяне на дисперсия.

В анализа широко се използва мярка, която е делът на дисперсията между групите в общата дисперсия. То носи името емпиричен коефициент на детерминация (η 2): .
Корен квадратен от емпиричния коефициент на детерминация се нарича емпирично съотношение на корелация (η):
.
Той характеризира влиянието на атрибута, лежащ в основата на групирането, върху вариацията на получения атрибут. Емпиричното съотношение на корелация варира от 0 до 1.
Ще покажем практическата му употреба в следващия пример (Таблица 1).

Пример №1. Таблица 1 - Производителност на труда на две групи работници от един от цеховете на НПО "Циклон"

Изчислете общите и груповите средни и дисперсии:




Изходните данни за изчисляване на средната стойност на вътрешногруповата и междугруповата дисперсия са представени в табл. 2.
таблица 2
Изчисление и δ 2 за две групи работници.


Работнически групи
Брой работници, чол. Средно, дет./см. Дисперсия

Преминал техническо обучение

5 95 42,0

Не е технически обучен

5 81 231,2

Всички работници

10 88 185,6
Нека изчислим резултатите. Средна стойност на вариациите в рамките на групата:
.
Междугрупова дисперсия

Обща дисперсия:
По този начин, емпиричното съотношение на корелация: .

Наред с вариацията на количествените признаци може да се наблюдава и вариация на качествените признаци. Това изследване на вариациите се постига чрез изчисляване на следните видове вариации:

Вътрешногруповата дисперсия на дела се определя по формулата

където n i– броят на единиците в отделни групи.
Делът на изследваната черта в цялата популация, който се определя по формулата:
Трите вида дисперсия са свързани помежду си, както следва:
.

Това съотношение на вариациите се нарича теорема за добавяне на дисперсия в дял на характеристиките.

Само тази характеристика обаче не е достатъчна за изучаване случайна величина. Представете си двама стрелци, които стрелят по мишена. Единият стреля точно и удря близо до центъра, а другият ... просто се забавлява и дори не се цели. Но това, което е смешно, е това средно аритметичнорезултатът ще бъде точно същият като първия стрелец! Тази ситуация се илюстрира условно със следните произволни променливи:

Математическото очакване на "снайперист" обаче е равно на , за "интересния човек": - също е нула!

Следователно е необходимо да се определи количествено докъде разпръснатикуршуми (стойности на произволна променлива) спрямо центъра на целта (очакване). добре и разпръскванепреведено от латински само като дисперсия .

Нека видим как се дефинира това. числова характеристикана един от примерите от 1-ва част на урока:

Там открихме разочароващо математическо очакване на тази игра и сега трябва да изчислим нейната дисперсия, която обозначенопрез .

Нека да разберем колко далеч са "разпръснати" печалбите/загубите спрямо средната стойност. Очевидно за това трябва да изчислим разликимежду стойности на произволна променливаи тя математическо очакване:

–5 – (–0,5) = –4,5
2,5 – (–0,5) = 3
10 – (–0,5) = 10,5

Сега изглежда е необходимо да се обобщят резултатите, но този начин не е добър - поради причината, че трептенията вляво ще се компенсират взаимно с трептенията вдясно. Така, например, "любителският" стрелец (пример по-горе)разликите ще бъдат , а при добавяне ще дадат нула, така че няма да получим никаква оценка за разсейването на неговата стрелба.

За да заобиколите това дразнене, помислете модулиразлики, но технически причиниподходът се е вкоренил, когато са на квадрат. По-удобно е решението да се подреди в таблица:

И тук започва да се изчислява средно претегленастойността на квадратните отклонения. Какво е? Тяхно е очаквана стойност, което е мярката за разсейване:

определениедисперсия. От определението веднага става ясно, че дисперсията не може да бъде отрицателна- вземете под внимание за практиката!

Нека си спомним как да намерим очакването. Умножете разликите на квадрат със съответните вероятности (Продължение на таблицата):
- образно казано, това е "сила на сцепление",
и обобщете резултатите:

Не мислите ли, че на фона на печалбите резултатът се оказа твърде голям? Точно така - ние бяхме на квадрат и за да се върнем към измерението на нашата игра, трябва да извлечем Корен квадратен. Тази стойност се нарича стандартно отклонение и се обозначава с гръцката буква "сигма":

Понякога това значение се нарича стандартно отклонение .

Какво е значението му? Ако се отклоним от математическото очакване наляво и надясно със стандартното отклонение:

– тогава най-вероятните стойности на произволната променлива ще бъдат „концентрирани“ в този интервал. Какво всъщност виждаме:

Въпреки това се случи така, че при анализа на разсейването почти винаги се оперира с концепцията за дисперсия. Нека да видим какво означава това във връзка с игрите. Ако в случая на стрелците говорим за "точността" на попадения спрямо центъра на целта, то тук дисперсията характеризира две неща:

Първо, очевидно е, че с увеличаването на ставките дисперсията също се увеличава. Така например, ако увеличим с 10 пъти, тогава математическото очакване ще се увеличи с 10 пъти, а дисперсията ще се увеличи със 100 пъти (след като е квадратна стойност). Но имайте предвид, че правилата на играта не са се променили! Само процентите се промениха, грубо казано, преди залагахме 10 рубли, сега 100.

Вторият, по-интересен момент е, че дисперсията характеризира стила на игра. Мислено фиксирайте ставките на играта на някакво определено ниво, и вижте какво има тук:

Играта с ниска вариация е предпазлива игра. Играчът е склонен да избира най-надеждните схеми, при които не губи/печели твърде много наведнъж. Например системата червено/черно в рулетка (вижте пример 4 от статията случайни променливи) .

Игра с висока вариация. Често я наричат дисперсияигра. Това е приключенски или агресивен стил на игра, при който играчът избира "адреналинови" схеми. Нека поне си спомним "Мартингейл", в който заложените суми са с порядък по-голям от „тихата“ игра от предишния параграф.

Ситуацията в покера е показателна: има т.нар стегнатиграчи, които са склонни да бъдат предпазливи и да се "разтърсват" за своите игра означава (банкрол). Не е изненадващо, че тяхната банка не се колебае много (ниска дисперсия). Обратно, ако играчът има голяма дисперсия, тогава това е агресорът. Той често поема рискове, прави големи залози и може както да разбие огромна банка, така и да се разпадне.

Същото се случва и във Форекс и така нататък - има много примери.

Освен това във всички случаи няма значение дали играта е за стотинка или за хиляди долари. Всяко ниво има своите играчи с ниска и висока вариация. Е, за средната печалба, както си спомняме, "отговорен" очаквана стойност.

Вероятно сте забелязали, че намирането на дисперсията е дълъг и старателен процес. Но математиката е щедра:

Формула за намиране на дисперсията

Тази формулапроизтича директно от определението за дисперсия и веднага го пускаме в обращение. Ще копирам табелата с нашата игра отгоре:

и намереното очакване.

Изчисляваме дисперсията по втория начин. Първо, нека намерим математическото очакване - квадрата на случайната променлива. от дефиниция на математическото очакване:

В такъв случай:

И така, според формулата:

Както се казва, почувствайте разликата. И на практика, разбира се, е по-добре да приложите формулата (освен ако условието не изисква друго).

Ние владеем техниката на решаване и проектиране:

Пример 6

Намерете неговото математическо очакване, дисперсия и стандартно отклонение.

Тази задача се среща навсякъде и като правило остава без смислен смисъл.
Можете да си представите няколко крушки с числа, които светят в лудница с определени вероятности :)

Решение: Удобно е да се обобщят основните изчисления в таблица. Първо, записваме първоначалните данни в горните два реда. След това изчисляваме продуктите, след това и накрая сумите в дясната колона:

Всъщност почти всичко е готово. В третия ред беше начертано готово математическо очакване: .

Дисперсията се изчислява по формулата:

И накрая, стандартното отклонение:
- лично аз обикновено закръгля до 2 знака след десетичната запетая.

Всички изчисления могат да се извършват на калкулатор, а още по-добре - в Excel:

Тук е трудно да сбъркаш :)

Отговор:

Желаещите могат да опростят живота си още повече и да се възползват от моя калкулатор (демонстрация), което не само ще реши моментално тази задача, но и изграждане тематични графики (Ела скоро). Програмата може изтегляне в библиотеката– ако сте изтеглили поне един учебен материалили вземете друг начин. Благодаря за подкрепата на проекта!

Няколко задачи за самостоятелно решение:

Пример 7

Изчислете дисперсията на случайната променлива от предишния пример по дефиниция.

И подобен пример:

Пример 8

Дискретна случайна променлива се дава от собствения си закон за разпределение:

Да, стойностите на произволната променлива могат да бъдат доста големи (пример от реална работа), и тук, ако е възможно, използвайте Excel. Както, между другото, в пример 7 - той е по-бърз, по-надежден и по-приятен.

Решения и отговори в долната част на страницата.

В заключение на 2-ра част на урока ще анализираме още една типична задача, може да се каже дори малък ребус:

Пример 9

Дискретна случайна променлива може да приеме само две стойности: и , и . Вероятността, математическото очакване и дисперсията са известни.

Решение: Да започнем с неизвестна вероятност. Тъй като една произволна променлива може да приеме само две стойности, тогава сумата от вероятностите за съответните събития:

и тъй като , тогава .

Остава да се намери..., лесно да се каже :) Но добре, започна се. По дефиниция на математическото очакване:
- заместете известните стойности:

- и нищо повече не може да се изтръгне от това уравнение, освен че можете да го пренапишете в обичайната посока:

или:

За по-нататъшните действия мисля, че можете да се досетите. Нека създадем и решим системата:

Десетични знаци- това, разбира се, е пълен позор; умножете двете уравнения по 10:

и разделете на 2:

Това е много по-добре. От 1-во уравнение изразяваме:
(това е по-лесният начин)- заместител във 2-ро уравнение:


Ние строим на квадрати направете опростявания:

Умножаваме по:

Като резултат, квадратно уравнение, намерете неговия дискриминант:
- перфектно!

и получаваме две решения:

1) ако , тогава ;

2) ако , тогава .

Първата двойка стойности удовлетворява условието. С висока вероятноствсичко е правилно, но все пак нека запишем закона за разпределението:

и извършете проверка, а именно намерете очакването: