Определете 1 дисперсия. Абсолютни показатели за вариация

Дисперсия в статистикатасе намира като индивидуални стойности на характеристиката на квадрат от. В зависимост от изходните данни се определя по формулите на прости и претеглени дисперсии:

1. (за негрупирани данни) се изчислява по формулата:

2. Претеглена дисперсия (за сериите от вариации):

където n е честотата (повторяемост на фактор X)

Пример за намиране на дисперсията

Тази страница описва стандартен пример за намиране на дисперсията, можете да разгледате и други задачи за намирането му.

Пример 1. Следните данни са налични за група от 20 студенти по кореспонденция. Необходимо е да се изгради интервална серия от разпределението на признака, да се изчисли средната стойност на признака и да се проучи неговата дисперсия

Нека изградим интервално групиране. Нека дефинираме обхвата на интервала по формулата:

където X max е максималната стойност на атрибута за групиране;
X min е минималната стойност на атрибута за групиране;
n е броят на интервалите:

Приемаме n = 5. Стъпката е: h = (192 - 159) / 5 = 6,6

Нека съставим интервално групиране

За допълнителни изчисления ще изградим помощна таблица:

X'i е средата на интервала. (например средата на интервала 159 - 165,6 = 162,3)

Средният ръст на учениците се определя по формулата на средноаритметичната претеглена стойност:

Нека дефинираме дисперсията по формулата:

Формулата на дисперсията може да се трансформира по следния начин:

От тази формула следва, че дисперсията е разликата между средната стойност на квадратите на опциите и квадрата и средната стойност.

Дисперсия в поредицата от вариациис равни интервали по метода на моментите може да се изчисли по следния начин, като се използва второто свойство на дисперсията (разделяне на всички опции на стойността на интервала). Определяне на дисперсията, изчислено по метода на моментите, като се използва следната формула е по-малко трудоемка:

където i е размерът на интервала;
A - условна нула, която е удобно да се използва средата на интервала с най-висока честота;
m1 е квадратът на момента от първи ред;
m2 - момент от втори ред

(ако в статистическа популация атрибутът се променя така, че има само две взаимно изключващи се опции, тогава такава променливост се нарича алтернатива) може да се изчисли по формулата:

Замествайки дисперсията q = 1 - p в тази формула, получаваме:

Видове дисперсия

Пълна дисперсияизмерва вариацията на даден признак в популацията като цяло под влиянието на всички фактори, причиняващи тази вариация. Той е равен на средния квадрат на отклоненията на отделните стойности на атрибута x от общата средна стойност на x и може да се дефинира като проста дисперсия или претеглена дисперсия.

характеризира случайна вариация, т.е. част от вариацията, която се дължи на влиянието на неотчетени фактори и не зависи от атрибута-фактор, лежащ в основата на групирането. Тази дисперсия е равна на средния квадрат на отклоненията на индивидуалните стойности на признака в група X от средноаритметичната стойност на групата и може да бъде изчислена като проста дисперсия или като претеглена дисперсия.

Поради това, мерки за вътрешногрупова дисперсиявариация на характеристика в рамките на група и се определя по формулата:

където xi е средната стойност за групата;
ni е броят на единиците в групата.

Например, вътрешногруповите отклонения, които трябва да се определят при задачата за изследване на влиянието на квалификацията на работниците върху нивото на производителността на труда в един цех, показват вариации в продукцията във всяка група, причинени от всички възможни фактори (техническо състояние на оборудването, осигуряване на инструменти и материали, възраст на работниците, интензивност на труда и др.), с изключение на различията в квалификационната категория (в рамките на групата всички работници имат еднаква квалификация).

Средната стойност на вариациите в рамките на групата отразява случайната, т.е. тази част от вариацията, която е възникнала под влиянието на всички други фактори, с изключение на фактора за групиране. Изчислява се по формулата:

Характеризира системното изменение на ефективния признак, което се дължи на влиянието на признак-фактор, лежащ в основата на групирането. Тя е равна на средния квадрат на отклоненията на средните от групата от общата средна стойност. Междугруповата дисперсия се изчислява по формулата:

Правилото за добавяне на дисперсия в статистиката

Според правило за добавяне на дисперсияобщата дисперсия е равна на сумата от средната стойност на вътрешногруповите и междугруповите дисперсии:

Значението на това правилосе състои във факта, че общата дисперсия, която възниква под влиянието на всички фактори, е равна на сумата от дисперсиите, които възникват под влиянието на всички други фактори, и дисперсията, която възниква поради групиращия фактор.

Използвайки формулата за добавяне на дисперсии, е възможно да се определи третото неизвестно от две известни дисперсии, както и да се прецени силата на влиянието на атрибута за групиране.

Дисперсионни свойства

1. Ако всички стойности на атрибута бъдат намалени (увеличени) с една и съща константна стойност, тогава дисперсията няма да се промени от това.
2. Ако всички стойности на атрибута бъдат намалени (увеличени) със същия брой пъти n, тогава дисперсията съответно ще намалее (увеличи) с n ^ 2 пъти.

Дисперсияслучайна величинае мярката за разпространението на даденото случайна величина, тоест тя отклоненияот математическото очакване. В статистиката нотацията (сигма на квадрат) често се използва за обозначаване на дисперсията. Извиква се корен квадратен от дисперсията, равна на стандартно отклонениеили стандартен спред. Стандартното отклонение се измерва в същите единици като самата случайна променлива, а дисперсията се измерва в квадратите на тази единица.

Въпреки че е много удобно да се използва само една стойност (като средна стойност или режим и медиана) за оценка на цялата извадка, този подход може лесно да доведе до неточности. Причината за това положение не се крие в самото количество, а във факта, че една величина по никакъв начин не отразява разпространението на стойностите на данните.

Например в извадката:

средното е 5.

Самата извадка обаче няма нито един елемент със стойност 5. Може да се наложи да знаете степента, до която всеки елемент в извадката е близък до средната си стойност. Или, с други думи, трябва да знаете вариацията на стойностите. Знаейки степента, до която данните са се променили, можете да интерпретирате по-добре означава, Медианаи мода... Скоростта на промяна в стойностите на извадката се определя чрез изчисляване на тяхната дисперсия и стандартно отклонение.



Дисперсията и квадратният корен от дисперсията, наречени стандартно отклонение, характеризират средното отклонение от средната стойност на извадката. Сред тези две количества най-важното е стандартно отклонение... Тази стойност може да се разглежда като средното разстояние на елементите от средния елемент в извадката.

Разликата е трудна за смислено тълкуване. Въпреки това, квадратният корен от тази стойност е стандартното отклонение и се тълкува добре.

Стандартното отклонение се изчислява, като първо се определя дисперсията и след това се изчислява корен квадратен от дисперсията.

Например, за масива от данни, показан на фигурата, ще бъдат получени следните стойности:

Снимка 1

Тук средната стойност на квадратите на разликите е 717,43. За да получите стандартното отклонение, всичко, което остава, е да вземете корен квадратен от това число.

Резултатът е приблизително 26,78.

Трябва да се помни, че стандартното отклонение се интерпретира като средно разстояние на елементите от средната стойност на извадката.

Стандартното отклонение измерва колко добре средната стойност описва цялата извадка.

Да речем, че сте ръководител на производствения отдел за сглобяване на компютър. В тримесечния доклад се казва, че има 2500 компютъра през последното тримесечие. Това добре ли е или лошо? Вие поискахте (или отчетът вече съдържа тази колона) в отчета да се покаже стандартното отклонение за тези данни. Цифрата на стандартното отклонение например е 2000. За вас като ръководител на отдела става ясно, че производствената линия изисква по-добро управление (твърде големи отклонения в броя на сглобените компютри).

Припомнете си, че когато стандартното отклонение е голямо, данните са широко разпръснати около средната стойност, а когато стандартното отклонение е малко, те се групират близо до средната.

Четирите статистически функции VAR (), VAR (), STDEV () и STDEV () - са предназначени за изчисляване на дисперсията и стандартното отклонение на числата в интервал от клетки. Преди да изчислите дисперсията и стандартното отклонение на набор от данни, трябва да определите дали данните представляват популация или извадка от популация. В случай на извадка от общата съвкупност трябва да се използват функциите VARP () и STDEVP (), а в случай на обща съвкупност трябва да се използват функциите VARP () и STDEVP ():

Общо население Функция

VARP ()

СТАНДОЛОНП ()
Проба

DISP ()

STDEV ()

Дисперсията (както и стандартното отклонение), както отбелязахме, показва степента, до която стойностите, включени в набора от данни, са разпръснати около средноаритметичната стойност.

Малка стойност на дисперсията или стандартното отклонение показва, че всички данни са центрирани около средноаритметичната стойност, докато голяма стойност на тези стойности показва, че данните са разпръснати в широк диапазон от стойности.

Дисперсията е доста трудна за смислено интерпретиране (какво означава малка стойност, голяма стойност?). производителност Задачи 3ви позволява визуално да покажете на графика значението на дисперсията за набор от данни.

Задачи

· Упражнение 1.

· 2.1. Дайте понятия: дисперсия и стандартно отклонение; символичното им обозначение при статистическа обработка на данни.

· 2.2. Начертайте работен лист в съответствие с фигура 1 и направете необходимите изчисления.

· 2.3. Предоставете основните формули, използвани при изчисленията

· 2.4. Обяснете всички обозначения (,,)

· 2.5. Обяснете практическото значение на дисперсията и стандартното отклонение.

Задача 2.

1.1. Дайте понятия: генерална съвкупност и извадка; математическо очакване и средноаритметично на тяхното символно обозначение при статистическа обработка на данни.

1.2. В съответствие с фигура 2 направете работен лист и направете изчисления.

1.3. Предоставете основните формули, използвани в изчисленията (за общата съвкупност и извадката).

Снимка 2

1.4. Обяснете защо е възможно да се получат такива средноаритметични стойности в извадки като 46.43 и 48.78 (вижте файла Приложение). Направете изводи.

Задача 3.

Има две извадки с различни набори от данни, но средната стойност за тях ще бъде една и съща:

Фигура 3

3.1. Начертайте работен лист в съответствие с фигура 3 и направете необходимите изчисления.

3.2. Дайте основните формули за изчисление.

3.3. Изградете графики в съответствие с фигури 4, 5.

3.4. Обяснете получените зависимости.

3.5. Извършете подобни изчисления за тези две проби.

Оригинална проба 11119999

Изберете стойностите на втората извадка, така че средноаритметичната стойност за втората извадка да е същата, например:

Изберете сами стойностите за втората проба. Проектирайте изчисления и графики като фигури 3, 4, 5. Покажете основните формули, използвани при изчисленията.

Направете съответните изводи.

Всички задачи трябва да бъдат съставени под формата на доклад с всички необходими картинки, графики, формули и кратки обяснения.

Забележка: изграждането на графики трябва да бъде обяснено със снимки и кратки обяснения.

Сред многото показатели, които се използват в статистиката, е необходимо да се подчертае изчисляването на дисперсията. Трябва да се отбележи, че извършването на това изчисление ръчно е доста досадна задача. За щастие Excel предоставя функции за автоматизиране на процеса на изчисление. Нека да разберем алгоритъма за работа с тези инструменти.

Дисперсията е мярка за вариация, която е средният квадрат на отклонението от очакваната стойност. По този начин той изразява разпространението на числата около средната стойност. Изчисляването на дисперсията може да се извърши както за общата съвкупност, така и за извадката.

Метод 1: изчисление за общата съвкупност

За изчисляване на този индикатор в Excel за общата съвкупност се използва функцията DISP.G... Синтаксисът на този израз е както следва:

DISP.G (Число1; Номер2; ...)

Могат да бъдат приложени общо от 1 до 255 аргумента. Като аргументи могат да се използват както числови стойности, така и препратки към клетките, в които се съдържат.

Нека да видим как да изчислим тази стойност за диапазон с числови данни.


Метод 2: изчисляване по извадка

За разлика от изчисляването на стойността за генералната съвкупност, при изчисляването на извадката знаменателят не показва общия брой числа, а едно по-малко. Това се прави, за да се коригира грешката. Excel взема предвид този нюанс в специална функция, която е предназначена за този тип изчисления - DISP.V. Синтаксисът му е представен със следната формула:

DISP.B (Номер1; Номер2; ...)

Броят на аргументите, както в предишната функция, също може да варира от 1 до 255.


Както можете да видите, програмата Excel може значително да улесни изчисляването на дисперсията. Тази статистика може да бъде изчислена от приложението, както за общата съвкупност, така и за извадка. В този случай всички действия на потребителя всъщност се свеждат само до определяне на диапазона от числа, които трябва да бъдат обработени, а Excel сам върши основната работа. Това със сигурност ще спести значително време на потребителите.

Дисперсията е мярка за дисперсия, която описва сравнителното отклонение между стойностите на данните и средната стойност. Това е най-често използваната мярка за разсейване в статистиката, изчислена чрез сумиране, квадратирано, отклонението на всяка стойност на данните от средната стойност. Формулата за изчисляване на дисперсията е показана по-долу:

s 2 - дисперсия на извадката;

x cf е средната стойност на извадката;

нразмер на извадката (брой стойности на данните),

(x i - x avg) - отклонение от средната стойност за всяка стойност от набора от данни.

За по-добро разбиране на формулата, нека разгледаме пример. Не обичам да готвя, затова рядко правя това. Въпреки това, за да не умра от глад, от време на време трябва да ходя до печката, за да реализирам идеята да насищам тялото си с протеини, мазнини и въглехидрати. Наборът от данни по-долу показва колко пъти Ренат приготвя храна всеки месец:

Първата стъпка при изчисляване на дисперсията е да се определи средната стойност на извадката, която в нашия пример е 7,8 пъти месечно. Останалите изчисления могат да бъдат улеснени с помощта на следната таблица.

Последната фаза на изчисляване на дисперсията изглежда така:

За тези, които обичат да правят всички изчисления наведнъж, уравнението ще изглежда така:

Използване на метода за сурово броене (пример за готвене)

Има по-ефективен начин за изчисляване на дисперсията, известен като метод на необработено броене. Въпреки че на пръв поглед уравнението може да изглежда поразително, всъщност не е толкова страшно. Можете да проверите това и след това да решите кой метод ви харесва най-добре.

- сумата от всяка стойност на данните след квадратурата,

- квадратът на сбора от всички стойности на данните.

Не губете ума си точно сега. Нека сложим всичко това в таблица и тогава ще видите, че изчисленията тук са по-малко, отколкото в предишния пример.

Както можете да видите, резултатът е същият като при използването на предишния метод. Предимствата на този метод стават очевидни с нарастването на размера на извадката (n).

Изчисляване на дисперсията в Excel

Както вероятно вече се досещате, Excel има формула за изчисляване на дисперсията. Освен това, като се започне с Excel 2010, можете да намерите 4 разновидности на формулата за дисперсия:

1) DISP.B - Връща дисперсията за извадката. Булевите стойности и текстът се игнорират.

2) DISP.G - Връща дисперсията за цялата съвкупност. Булевите стойности и текстът се игнорират.

3) VARA - Връща дисперсията за извадката, като се вземат предвид логическите и текстовите стойности.

4) VARPA – Връща дисперсията за цялата съвкупност, като се вземат предвид булеви и текстови стойности.

Първо, нека да разгледаме разликата между извадката и общата съвкупност. Целта на описателните статистики е да обобщи или покаже данни по такъв начин, че бързо да получи голяма картина, така да се каже, общ преглед. Статистическите изводи позволяват да се направят изводи за популация въз основа на извадка от данни от тази популация. Агрегатът представлява всички възможни резултати или измерения, които ни интересуват. Извадката е подмножество от популация.

Например, ние се интересуваме от съвкупността от група студенти от един от руските университети и трябва да определим средния резултат на групата. Можем да изчислим средното представяне на учениците и тогава получената цифра ще бъде параметър, тъй като цялото население ще участва в нашите изчисления. Ако обаче искаме да изчислим средния резултат на всички ученици у нас, то тази група ще бъде нашата извадка.

Разликата във формулата за изчисляване на дисперсията между извадката и съвкупността се крие в знаменателя. Където за извадката ще бъде (n-1), а за генералната съвкупност само n.

Сега нека се заемем с функциите за изчисляване на дисперсията с окончания А,в описанието на което се казва, че изчислението взема предвид текст и логически стойности. В този случай, когато се изчислява дисперсията на определен масив от данни, където се срещат нечислови стойности, Excel ще интерпретира текста и фалшивите булеви стойности като равни на 0, а истинските булеви стойности като равни на 1.

Така че, ако имате масив от данни, няма да е трудно да изчислите неговата дисперсия, като използвате една от горните функции на Excel.

.

Обратно, ако е неотрицателно a.e. функция, такава, че , тогава има абсолютно непрекъсната вероятностна мярка за такава, която е неговата плътност.

    Промяна на мярката в интеграла на Лебег:

,

където е всяка функция на Борел, която е интегрируема по отношение на вероятностна мярка.

Дисперсия, видове и свойства на дисперсия Понятието за дисперсия

Дисперсия в статистикатасе намира като стандартното отклонение на индивидуалните стойности на атрибута, изведени на квадрат от средната аритметична стойност. В зависимост от изходните данни се определя по формулите на прости и претеглени дисперсии:

1. Проста вариация(за негрупирани данни) се изчислява по формулата:

2. Претеглена дисперсия (за сериите от вариации):

където n е честотата (повторяемост на фактор X)

Пример за намиране на дисперсията

Тази страница описва стандартен пример за намиране на дисперсията, можете да разгледате и други задачи за намирането му.

Пример 1. Определяне на групата, средната стойност на групата, междугрупата и общата дисперсия

Пример 2. Намиране на дисперсия и коефициент на вариация в таблица за групиране

Пример 3. Намиране на дисперсията в дискретна серия

Пример 4. Има следните данни за група от 20 студенти от задочния отдел. Необходимо е да се изгради интервална серия от разпределението на признака, да се изчисли средната стойност на признака и да се проучи неговата дисперсия

Нека изградим интервално групиране. Нека дефинираме обхвата на интервала по формулата:

където X max е максималната стойност на атрибута за групиране; X min е минималната стойност на атрибута за групиране; n е броят на интервалите:

Приемаме n = 5. Стъпката е: h = (192 - 159) / 5 = 6,6

Нека съставим интервално групиране

За допълнителни изчисления ще изградим помощна таблица:

X "i - средата на интервала. (Например средата на интервала 159 - 165.6 = 162.3)

Средният ръст на учениците се определя по формулата на средноаритметичната претеглена стойност:

Нека дефинираме дисперсията по формулата:

Формулата може да се трансформира по следния начин:

От тази формула следва, че дисперсията е разликата между средната стойност на квадратите на опциите и квадрата и средната стойност.

Дисперсия в поредицата от вариациис равни интервали по метода на моментите може да се изчисли по следния начин, като се използва второто свойство на дисперсията (разделяне на всички опции на стойността на интервала). Определяне на дисперсията, изчислено по метода на моментите, като се използва следната формула е по-малко трудоемка:

където i е размерът на интервала; A - условна нула, която е удобно да се използва средата на интервала с най-висока честота; m1 е квадратът на момента от първи ред; m2 - момент от втори ред

Вариант на алтернативна характеристика (ако в статистическа популация атрибутът се променя така, че има само две взаимно изключващи се опции, тогава такава променливост се нарича алтернатива) може да се изчисли по формулата:

Замествайки дисперсията q = 1 - p в тази формула, получаваме:

Видове дисперсия

Пълна дисперсияизмерва вариацията на даден признак в популацията като цяло под влиянието на всички фактори, причиняващи тази вариация. Той е равен на средния квадрат на отклоненията на отделните стойности на атрибута x от общата средна стойност на x и може да се дефинира като проста дисперсия или претеглена дисперсия.

Вътрешногрупова дисперсия характеризира случайна вариация, т.е. част от вариацията, която се дължи на влиянието на неотчетени фактори и не зависи от атрибута-фактор, лежащ в основата на групирането. Тази дисперсия е равна на средния квадрат на отклоненията на индивидуалните стойности на признака в група X от средноаритметичната стойност на групата и може да бъде изчислена като проста дисперсия или като претеглена дисперсия.

Поради това, мерки за вътрешногрупова дисперсиявариация на характеристика в рамките на група и се определя по формулата:

където xi е средната стойност за групата; ni е броят на единиците в групата.

Например, вътрешногруповите отклонения, които трябва да се определят при задачата за изследване на влиянието на квалификацията на работниците върху нивото на производителността на труда в един цех, показват вариации в продукцията във всяка група, причинени от всички възможни фактори (техническо състояние на оборудването, осигуряване на инструменти и материали, възраст на работниците, интензивност на труда и др.), с изключение на различията в квалификационната категория (в рамките на групата всички работници имат еднаква квалификация).

Средната стойност на вариациите в рамките на групата отразява случайна вариация, тоест тази част от вариацията, която е възникнала под влиянието на всички други фактори, с изключение на фактора за групиране. Изчислява се по формулата:

Междугрупова дисперсияхарактеризира системното изменение на ефективния признак, което се дължи на влиянието на черта-фактор, лежащ в основата на групирането. Тя е равна на средния квадрат на отклоненията на средните от групата от общата средна стойност. Междугруповата дисперсия се изчислява по формулата: