Отклонение в примерите за математическа статистика. Дисперсия на дискретна случайна променлива. Стандартно отклонение

Въпреки това, тази характеристика сама по себе си все още не е достатъчна за изследване на произволна променлива. Представете си двама стрелци, които стрелят по мишена. Единият стреля точно и удря близо до центъра, а другият ... просто се забавлява и дори не се цели. Но това, което е смешно, е неговото средно аритметичнорезултатът ще бъде точно същият като първия стрелец! Тази ситуация обикновено се илюстрира със следните произволни променливи:

Математическото очакване на "снайперист" обаче е равно за "интересна личност": - то също е нула!

Следователно е необходимо да се определи количествено докъде разпръснатикуршуми (стойности на произволна променлива) спрямо центъра на целта (математическо очакване). добре и разпръскванеот латински се превежда само като дисперсия .

Нека да видим как се определя тази числена характеристика в един от примерите от 1-ва част на урока:

Там открихме разочароващо математическо очакване на тази игра и сега трябва да изчислим нейната дисперсия, която е обозначенопрез .

Нека да разберем колко далеч са "разпръснати" победите/загубите спрямо средното. Очевидно за това трябва да изчислите разликимежду стойности на произволна променливаи тя математическо очакване:

–5 – (–0,5) = –4,5
2,5 – (–0,5) = 3
10 – (–0,5) = 10,5

Сега, изглежда, е необходимо да се обобщят резултатите, но този път не е подходящ - поради причината, че флуктуациите вляво ще се отменят с колебанията вдясно. Така че, например, "любителски" стрелец (пример по-горе)разликата е , а при добавяне ще даде нула, така че няма да получим никаква оценка за разсейването на стрелбата му.

За да заобиколите тази неприятност, можете да помислите модулиразлики, но по технически причини подходът се е вкоренил, когато те са на квадрат. По-удобно е да съставите решението с таблица:

И тук започва да се изчислява средно претегленастойността на квадратите на отклоненията. Какво е? Тяхно е очаквана стойност, което е мярката за разсейване:

определениедисперсия. От определението веднага става ясно, че дисперсията не може да бъде отрицателна- вземете под внимание за практиката!

Нека си спомним как да намерим очакването. Умножаваме квадратите на разликите по съответните вероятности (Продължение на таблицата):
- образно казано, това е "теглителна сила",
и обобщете резултатите:

Не мислите ли, че на фона на печалбите резултатът се оказа твърде голям? Точно така – направихме квадрат и за да се върнем към измерението на нашата игра, трябва да извлечем квадратния корен. Това количество се нарича стандартно отклонение и се обозначава с гръцката буква "сигма":

Тази стойност понякога се нарича стандартно отклонение .

Какво е значението му? Ако се отклоним от математическото очакване наляво и надясно със стандартното отклонение:

- тогава най-вероятните стойности на произволната променлива ще бъдат "концентрирани" в този интервал. Какво всъщност наблюдаваме:

Обаче се случи така, че при анализиране на разсейването почти винаги се оперира с концепцията за дисперсия. Нека да видим какво означава това във връзка с игрите. Ако в случай на стрели говорим за "точността" на попадения спрямо центъра на целта, то тук дисперсията характеризира две неща:

Първо, очевидно е, че с увеличаването на ставките дисперсията също се увеличава. Така например, ако увеличим 10 пъти, тогава математическото очакване ще се увеличи 10 пъти, а дисперсията - 100 пъти (стига това да е квадратна величина)... Но имайте предвид, че самите правила на играта не са се променили! Само процентите се промениха, грубо казано, преди залагахме 10 рубли, сега е 100.

Вторият, по-интересен момент е, че вариацията характеризира стила на игра. Нека мислено коригираме ставките на играта на определено ниво, и вижте какво има тук:

Играта с ниска вариация е предпазлива игра. Играчът е склонен да избира най-надеждните схеми, при които не губи / печели твърде много наведнъж. Например червено/черната система в рулетка (вижте пример 4 от статията Случайни променливи) .

Игра с висока вариация. Често я наричат дисперсионенигра. Това е приключенски или агресивен стил на игра, при който играчът избира адреналинови схеми. Да си спомним поне Мартингейл, в който има заложени суми, които са с порядък по-висока от „тихата“ игра от предишния параграф.

Ситуацията в покера е показателна: има т.нар стегнатиграчи, които са склонни да бъдат предпазливи и да се „непокорят“ над своите игрални активи (по банкова сметка)... Не е изненадващо, че тяхната банка не се колебае много (ниска дисперсия). Напротив, ако играчът има голяма дисперсия, тогава това е агресорът. Той често поема рискове, прави големи залози и може както да разбие огромна банка, така и да отиде на парчета.

Същото се случва и във Форекс и така нататък - има много примери.

Освен това във всички случаи няма значение - дали играта е на стотинка или на хиляди долари. Всяко ниво има свои собствени играчи с ниска и висока дисперсия. Е, за средното изплащане, както си спомняме, е "отговорен" очаквана стойност.

Вероятно сте забелязали, че намирането на дисперсията е дълъг и старателен процес. Но математиката е щедра:

Формулата за намиране на дисперсията

Тази формула се извлича директно от дефиницията на дисперсията и веднага я пускаме в обращение. Ще копирам горната част на чинията с нашата игра:

и намереното очакване.

Нека изчислим дисперсията по втория начин. Първо намираме математическото очакване - квадрата на произволна променлива. от дефиниция на очакване:

В такъв случай:

И така, според формулата:

Почувствайте разликата, както се казва. И на практика, разбира се, е по-добре да приложите формулата (освен ако условието не изисква друго).

Ние владеем техниката на решение и дизайн:

Пример 6

Намерете неговото математическо очакване, дисперсия и стандартно отклонение.

Тази задача се среща навсякъде и като правило остава без смислен смисъл.
Можете да си представите няколко крушки с числа, които светят в лудница с определени вероятности :)

Решение: Основните изчисления са удобно обобщени в таблица. Първо, записваме оригиналните данни в горните два реда. След това изчисляваме продуктите, след това и накрая сумите в дясната колона:

Всъщност почти всичко е готово. Третият ред съдържа готово математическо очакване: .

Изчисляваме дисперсията по формулата:

И накрая, стандартното отклонение:
- лично аз обикновено закръгля до 2 знака след десетичната запетая.

Всички изчисления могат да се правят на калкулатор или още по-добре - в Excel:

тук е трудно да се сбърка :)

Отговор:

Желаещите могат допълнително да опростят живота си и да използват моя калкулатор (демонстрация), което не само незабавно ще реши този проблем, но и ще изгради тематични диаграми (ще пристигнем скоро)... Програмата може изтегляне в библиотеката- ако сте качили поне един образователен материал или получите друг начин... Благодаря за подкрепата на проекта!

Няколко задачи за самостоятелно решение:

Пример 7

Изчислете дисперсията на произволна променлива от предишния пример по дефиниция.

И подобен пример:

Пример 8

Дискретна случайна променлива се определя от собствения си закон за разпределение:

Да, стойностите на произволна променлива могат да бъдат доста големи (пример от реална работа), и тук, ако е възможно, използвайте Excel. Както, между другото, в пример 7 - това е по-бързо, по-надеждно и по-приятно.

Решения и отговори в долната част на страницата.

В заключение на 2-ра част на урока ще анализираме още един типичен проблем, може да се каже дори малък ребус:

Пример 9

Дискретна случайна променлива може да приеме само две стойности: и освен това. Вероятността, математическото очакване и дисперсията са известни.

Решение: Да започнем с неизвестна вероятност. Тъй като произволната променлива може да приеме само две стойности, сумата от вероятностите за съответните събития:

и от тогава.

Остава да се намери... лесно е да се каже :) Но, добре, тръгваме. По дефиниция на математическото очакване:
- заместваме известните стойности:

- и нищо повече не може да се изтръгне от това уравнение, освен че можете да го пренапишете в обичайната посока:

или:

Мисля, че можете да се досетите за по-нататъшните действия. Нека съставим и решим системата:

Десетичните дроби, разбира се, са пълен позор; умножете двете уравнения по 10:

и разделете на 2:

Това е много по-добре. От 1-во уравнение изразяваме:
(това е по-лесен начин)- заместваме във 2-ро уравнение:


Ние издигаме на квадрати направете опростявания:

Умножете по:

Резултатът е квадратно уравнение, намираме неговия дискриминант:
- перфектно!

и получаваме две решения:

1) ако , тогава ;

2) ако , тогава .

Първата двойка стойности удовлетворява условието. С голяма вероятност всичко е правилно, но въпреки това пишем закона за разпределението:

и ще проверим, а именно, ще намерим очакването:

Често в статистиката, когато се анализира дадено явление или процес, е необходимо да се вземе предвид не само информация за средните нива на изследваните показатели, но и разпределение или вариация в стойностите на отделните единици , което е важна характеристика на целевата популация.

Цените на акциите, обемите на търсенето и предлагането, лихвените проценти в различно време и на различни места са обект на най-големи вариации.

Основните показатели, характеризиращи вариацията , са диапазонът, дисперсията, стандартното отклонение и коефициентът на вариация.

Вариант на плъзгане е разликата между максималните и минималните стойности на атрибута: R = Xmax - Xmin... Недостатъкът на този индикатор е, че той оценява само границите на вариация на чертата и не отразява нейните колебания в тези граници.

Дисперсия е лишен от този недостатък. Изчислява се като средния квадрат на отклоненията на характерните стойности от тяхната средна стойност:

Опростен начин за изчисляване на дисперсията се извършва с помощта на следните формули (прости и претеглени):

Примери за използване на тези формули са представени в задачи 1 и 2.

Широко използван индикатор в практиката е стандартно отклонение :

Стандартното отклонение се дефинира като корен квадратен от дисперсията и има същото измерение като изследваната черта.

Разгледаните показатели позволяват да се получи абсолютната стойност на вариацията, т.е. оценете го в единиците на изследвания атрибут. За разлика от тях, коефициентът на вариация измерва колебанията в относително изражение – спрямо средното ниво, което в много случаи е за предпочитане.

Формула за изчисляване на коефициента на вариация.

Примери за решаване на задачи по темата "Индикатори за вариация в статистиката"

Проблем 1 ... При изследване на влиянието на рекламата върху размера на средния месечен депозит в банките в региона бяха изследвани 2 банки. Бяха получени следните резултати:

Определете:
1) за всяка банка: а) средният размер на депозита за месеца; б) дисперсия на приноса;
2) средният месечен депозит за две банки заедно;
3) Разпределение на депозита за 2 банки, в зависимост от рекламата;
4) Разпределение на депозита за 2 банки, в зависимост от всички фактори, с изключение на рекламата;
5) Обща дисперсия, използвайки правилото за добавяне;
6) Коефициент на детерминация;
7) Съотношение на корелация.

Решение

1) Нека съставим изчислителна таблица за банка с реклама ... За да определим средния размер на депозита за един месец, ще намерим средните точки на интервалите. В този случай стойността на отворения интервал (първия) условно се приравнява на стойността на интервала, съседен на него (втория).

Ние намираме средния размер на приноса по формулата на средноаритметичната претеглена стойност:

29 000/50 = 580 рубли.

Откриваме дисперсията на приноса по формулата:

23 400/50 = 468

Ще извършим подобни действия за банка без реклама :

2) Да намерим заедно средния размер на депозита за две банки. Xav = (580 × 50 + 542,8 × 50) / 100 = 561,4 рубли.

3) Дисперсията на приноса, за две банки, в зависимост от рекламата, намираме по формулата: σ 2 = pq (формулата за дисперсията на алтернативния признак). Тук p = 0,5 е делът на факторите, които зависят от рекламата; q = 1-0,5, след това σ 2 = 0,5 * 0,5 = 0,25.

4) Тъй като делът на останалите фактори е 0,5, дисперсията на приноса за двете банки, която зависи от всички фактори с изключение на рекламата, също е 0,25.

5) Определете общата дисперсия, като използвате правилото за добавяне.

= (468*50+636,16*50)/100=552,08

= [(580-561,4)250+(542,8-561,4)250] / 100= 34 596/ 100=345,96

σ 2 = σ 2 факт + σ 2 почивка = 552,08 + 345,96 = 898,04

6) Коефициентът на детерминация η 2 = σ 2 факт / σ 2 = 345,96 / 898,04 = 0,39 = 39% - размерът на приноса зависи от рекламата с 39%.

7) Емпирично съотношение на корелация η = √η 2 = √0,39 = 0,62 - връзката е доста близка.

Задача 2 ... Има групиране на предприятия според размера на продаваемите продукти:

Определете: 1) дисперсията на стойността на продаваемите продукти; 2) стандартно отклонение; 3) коефициент на вариация.

Решение

1) По условие се представя интервална серия на разпределение. Тя трябва да бъде изразена дискретно, тоест да се намери средата на интервала (x "). В групи от затворени интервали ще намерим средата чрез проста средна аритметична стойност. В групи с горна граница, като разликата между тази горна граница и половината от размера на интервала след нея (200- (400 -200): 2 = 100).

В групи с долна граница - сумата от тази долна граница и половината от размера на предишния интервал (800+ (800-600): 2 = 900).

Изчисляваме средната стойност на продаваемите продукти, използвайки формулата:

Xav = k × ((Σ ((x "-a): k) × f): Σf) + a. Тук a = 500 е размерът на варианта при най-високата честота, k = 600-400 = 200 е размер на интервала при най-високата честота. Поставете резултата в таблицата:

И така, средната стойност на продаваемата продукция за разглеждания период обикновено е равна на Xav = (-5: 37) × 200 + 500 = 472,97 хиляди рубли.

2) Намираме дисперсията по следната формула:

σ 2 = (33/37) * 2002- (472,97-500) 2 = 35 675,67-730,62 = 34 945,05

3) стандартно отклонение: σ = ± √σ 2 = ± √34 945,05 ≈ ± 186,94 хиляди рубли.

4) коефициент на вариация: V = (σ / Xav) * 100 = (186,94 / 472,97) * 100 = 39,52%

За групирани данни остатъчна дисперсия- средна стойност на вътрешногруповите дисперсии:

Където σ 2 j е вътрешногруповата дисперсия на j -та група.

За негрупирани данни остатъчна дисперсияЕ мярка за точността на сближаване, т.е. приближаване на регресионната линия към оригиналните данни:
където y (t) е прогнозата според уравнението на тренда; y t е началната серия от динамика; n е броят на точките; p е броят на коефициентите на регресионното уравнение (броя на обяснителните променливи).
В този пример се нарича безпристрастна оценка на дисперсията.

Пример №1. Разпределението на работниците на три предприятия от една асоциация по тарифни категории се характеризира със следните данни:

Ставка на работната заплатаБроят на работниците в предприятието
предприятие 1предприятие 2предприятие 3
1 50 20 40
2 100 80 60
3 150 150 200
4 350 300 400
5 200 150 250
6 150 100 150

Определете:
1.отклонение за всяко предприятие (вътрегрупова дисперсия);
2. средната стойност на вътрешногруповите дисперсии;
3. междугрупова дисперсия;
4. обща дисперсия.

Решение.
Преди да продължите с решаването на проблема, е необходимо да разберете коя характеристика е ефективна и коя е факторна. В разглеждания пример действащият атрибут е "Тарифна категория", а атрибутът фактор е "Номер (име) на предприятието".
Тогава имаме три групи (предприятия), за които е необходимо да се изчислят средните и вътрешногрупови дисперсии:


Търговско дружествоСредна група,Вътрешногрупова дисперсия,
1 4 1,8

Средна стойност на вътрешногруповите дисперсии ( остатъчна дисперсия) ще се изчислява по формулата:


къде можеш да изчислиш:
или:


тогава:
Общата дисперсия ще бъде равна на: s 2 = 1,6 + 0 = 1,6.
Общата дисперсия може също да бъде изчислена с помощта на една от следните две формули:

При решаването на практически проблеми често се налага да се справяте с функция, която има само две алтернативни значения. В този случай те не говорят за тежестта на определена стойност на атрибута, а за неговия дял в съвкупността. Ако делът на единиците в популацията, притежаващи изследваната черта, се обозначава с „ Р", И не притежава - чрез" q", Тогава дисперсията може да се изчисли по формулата:
s 2 = p × q

Пример №2. Въз основа на данните за продукцията на шест работници в екип определете междугруповата дисперсия и оценете влиянието на работната смяна върху производителността на труда им, ако общата дисперсия е 12,2.

Номер на работната бригадаРаботническо производство, бр.
в 1-ва смянапо време на втората смяна
1 18 13
2 19 14
3 22 15
4 20 17
5 24 16
6 23 15

Решение... Първоначални данни

хе 1е 2е 3е 4е 5е 6Обща сума
1 18 19 22 20 24 23 126
2 13 14 15 17 16 15 90
Обща сума 31 33 37 37 40 38

Тогава имаме 6 групи, за които е необходимо да се изчисли средната стойност на групата и вътрешногруповите дисперсии.
1. Намерете средните стойности на всяка група.







2. Намерете средния квадрат на всяка група.







Резултатите от изчисленията са обобщени в таблицата:
Номер на групатаСредно за групатаВътрешногрупова дисперсия
1 1.42 0.24
2 1.42 0.24
3 1.41 0.24
4 1.46 0.25
5 1.4 0.24
6 1.39 0.24

3. Вътрешногрупова дисперсияхарактеризира промяната (вариацията) на изследваната (ефективна) черта в рамките на групата под влияние на всички фактори върху нея, с изключение на фактора, лежащ в основата на групирането:
Средната стойност на вътрешногруповите дисперсии се изчислява по формулата:


4. Междугрупова дисперсияхарактеризира изменението (вариацията) на изследваната (ефективна) черта под влияние на фактора (факторната черта) върху нея, която е в основата на групирането.
Междугруповата дисперсия се дефинира като:

където


Тогава

Пълна дисперсияхарактеризира промяната (вариацията) на изследвания (ефективния) признак под влияние на всички фактори (факторни атрибути) без изключение. По условие на задачата е равно на 12.2.
Емпирична корелационна връзкаизмерва колко от общата вариабилност на ефективния признак е причинена от изследвания фактор. Това е съотношението на факторната дисперсия към общата дисперсия:

Определете емпиричното съотношение на корелация:

Връзките между знаците могат да бъдат слаби и силни (близки). Техните критерии се оценяват по скалата на Чадок:
0,1 0,3 0,5 0,7 0,9 В нашия пример връзката между черта Y и фактор X е слаба
Коефициент на детерминация.

Нека дефинираме коефициента на детерминация:

Така 0,67% от вариацията се дължи на разлики между черти, а 99,37% - на други фактори.
Изход: в този случай производството на работници не зависи от работата в определена смяна, т.е. влиянието на работната смяна върху производителността на труда им не е значително и се дължи на други фактори.

Пример №3. Въз основа на данните за средната работна заплата и квадратите на отклоненията от нейната стойност за две групи работници, намерете общата дисперсия, като приложите правилото за добавяне на дисперсии:

Решение:
Средна стойност на вариациите в рамките на групата

Междугруповата дисперсия се дефинира като:


Общата дисперсия ще бъде: 480 + 13824 = 14304

Математическото очакване (средната стойност) на произволна променлива X, дадено на дискретно вероятностно пространство, е числото m = M [X] = ∑x i p i, ако редът се сближава абсолютно.

Цел на услугата... Използване на услугата онлайн се изчисляват математическото очакване, дисперсията и стандартното отклонение(виж примера). Освен това се начертава графика на функцията на разпределение F (X).

Свойства на математическото очакване на случайна величина

  1. Математическото очакване на константна стойност е равно на самата нея: M [C] = C, C е константа;
  2. M = C M [X]
  3. Математическото очакване на сумата от случайни променливи е равно на сумата от техните математически очаквания: M = M [X] + M [Y]
  4. Математическото очакване на произведението на независими случайни променливи е равно на произведението на техните математически очаквания: M = M [X] M [Y], ако X и Y са независими.

Дисперсионни свойства

  1. Дисперсията на константата е нула: D (c) = 0.
  2. Постоянният коефициент може да бъде изваден от знака на дисперсията, като се възведе в квадрат: D (k * X) = k 2 D (X).
  3. Ако случайните променливи X и Y са независими, тогава дисперсията на сумата е равна на сумата от дисперсии: D (X + Y) = D (X) + D (Y).
  4. Ако случайните променливи X и Y са зависими: D (X + Y) = DX + DY + 2 (X-M [X]) (Y-M [Y])
  5. Формулата за изчисление е валидна за дисперсията:
    D (X) = M (X 2) - (M (X)) 2

Пример. Известни са математическите очаквания и дисперсии на две независими случайни променливи X и Y: M (x) = 8, M (Y) = 7, D (X) = 9, D (Y) = 6. Намерете математическото очакване и дисперсията на случайната променлива Z = 9X-8Y + 7.
Решение. Въз основа на свойствата на математическото очакване: M (Z) = M (9X-8Y + 7) = 9 * M (X) - 8 * M (Y) + M (7) = 9 * 8 - 8 * 7 + 7 = 23 ...
Въз основа на свойствата на дисперсията: D (Z) = D (9X-8Y + 7) = D (9X) - D (8Y) + D (7) = 9 ^ 2D (X) - 8 ^ 2D (Y) + 0 = 81 * 9 - 64 * 6 = 345

Алгоритъм за изчисляване на очакваната стойност

Свойства на дискретни случайни променливи: всички техни стойности могат да бъдат преномерирани с естествени числа; задайте ненулева вероятност на всяка стойност.
  1. Умножаваме двойките: x i по p i на свой ред.
  2. Добавете произведението на всяка двойка x i p i.
    Например, за n = 4: m = ∑x i p i = x 1 p 1 + x 2 p 2 + x 3 p 3 + x 4 p 4
Функция на разпределение на дискретна случайна променливастъпаловидно се увеличава рязко в тези точки, вероятностите за които са положителни.

Пример №1.

x i 1 3 4 7 9
п и 0.1 0.2 0.1 0.3 0.3

Намираме математическото очакване по формулата m = ∑x i p i.
Математическо очакване M [X].
M [x] = 1 * 0,1 + 3 * 0,2 + 4 * 0,1 + 7 * 0,3 + 9 * 0,3 = 5,9
Откриваме дисперсията по формулата d = ∑x 2 i p i - M [x] 2.
Дисперсия D [X].
D [X] = 1 2 * 0,1 + 3 2 * 0,2 + 4 2 * 0,1 + 7 2 * 0,3 + 9 2 * 0,3 - 5,9 2 = 7,69
Стандартно отклонение σ (x).
σ = sqrt (D [X]) = sqrt (7,69) = 2,78

Пример №2. Дискретна случайна променлива има следната серия на разпределение:

NS -10 -5 0 5 10
Р а 0,32 2а 0,41 0,03
Намерете стойността a, математическото очакване и стандартното отклонение на тази случайна променлива.

Решение. Намираме стойността a от съотношението: Σp i = 1
Σp i = a + 0,32 + 2 a + 0,41 + 0,03 = 0,76 + 3 a = 1
0,76 + 3 a = 1 или 0,24 = 3 a, откъдето a = 0,08

Пример №3. Определете закона за разпределение на дискретна случайна променлива, ако нейната дисперсия е известна, и x 1 х 1 = 6; х 2 = 9; х 3 = х; х 4 = 15
р1 = 0,3; р2 = 0,3; р3 = 0,1; р 4 = 0,3
d (x) = 12,96

Решение.
Тук трябва да съставите формула за намиране на дисперсията d (x):
d (x) = x 1 2 p 1 + x 2 2 p 2 + x 3 2 p 3 + x 4 2 p 4 -m (x) 2
където очакването m (x) = x 1 p 1 + x 2 p 2 + x 3 p 3 + x 4 p 4
За нашите данни
m (x) = 6 * 0,3 + 9 * 0,3 + x 3 * 0,1 + 15 * 0,3 = 9 + 0,1x 3
12,96 = 6 2 0,3 + 9 2 0,3 + x 3 2 0,1 + 15 2 0,3- (9 + 0,1x 3) 2
или -9/100 (x 2 -20x + 96) = 0
Съответно е необходимо да се намерят корените на уравнението и те ще бъдат два.
х 3 = 8, х 3 = 12
Избираме този, който удовлетворява условието x 1 х 3 = 12

Закон за разпределението на дискретна случайна величина
х 1 = 6; х 2 = 9; х 3 = 12; х 4 = 15
р1 = 0,3; р2 = 0,3; р3 = 0,1; р 4 = 0,3