Статистическо обобщение и групиране. Статистически разпределителни серии. Примери за решаване на проблеми. Групиране на данни и начертаване на дистрибуционна поредица

Резултатите от групирането на събраните статистически данни обикновено се представят като серии за разпределение. Разпределителната серия е подредено разпределение на популационните единици в групи според изследваната черта.

Разпределителните серии се разделят на атрибутивни и вариационни в зависимост от характеристиката, лежаща в основата на групирането. Ако характеристиката е качествена, тогава поредицата за разпределение се нарича атрибутивна. Пример за атрибутивна поредица е разпределението на предприятията и организациите по форми на собственост (вж. Таблица 3.1).

Ако атрибутът, върху който е изградена серията за разпределение, е количествен, тогава серията се нарича вариационна.

Вариантната поредица на разпределението винаги се състои от две части: вариант и съответните честоти (или честоти). Вариант е стойността, която даден елемент може да вземе в популационни единици, честотата е броят на единиците за наблюдение, които имат дадена стойност на характеристиката. Сумата от честотите винаги е равна на обема на населението. Понякога вместо честоти се изчисляват честоти - това са честоти, изразени или във фракции от една (тогава сумата на всички честоти е 1), или като процент от общия обем (сумата на честотите ще бъде равна на 100%) .

Вариационните редове са дискретни и интервални. За дискретни серии (Таблица 3.7) опциите се изразяват с конкретни числа, най-често цели числа.

Таблица 3.8. Разпределение на служителите по работно време в застрахователна компания
Време на работа във фирмата, цели години (опции) Брой служители
Човешки (честота) в% към общо (честота)
до една година 15 11,6
1 17 13,2
2 19 14,7
3 26 20,2
4 10 7,8
5 18 13,9
6 24 18,6
Обща сума 129 100,0

В интервални серии (виж Таблица 3.2) стойностите на индикатора се задават като интервали. Интервалите имат две граници: долна и горна. Интервалите могат да бъдат отворени или затворени. Отворените нямат една от границите, така че в таблицата. 3.2 първият интервал няма долна граница, а последният няма горна граница. При конструирането на интервална серия, в зависимост от естеството на разсейването на стойностите на атрибутите, се използват както равни интервали от интервали, така и неравномерни интервали (Таблица 3.2 показва серия от вариации с равни интервали).

Ако характеристиката приема ограничен брой стойности, обикновено не повече от 10, се изграждат дискретни серии за разпределение. Ако опцията е по-голяма, тогава дискретната серия губи своята яснота; в този случай е препоръчително да се използва интервалната форма на вариационната серия. При непрекъснато изменение на характеристиката, когато нейните стойности в определени граници се различават една от друга с произволно малко количество, също се изгражда интервална серия за разпределение.

3.3.1. Изграждане на дискретни вариационни серии

Нека разгледаме метода за конструиране на дискретни вариационни редове, като използваме пример.

Пример 3.2. Има следните данни за количествения състав на 60 семейства:

За да се получи представа за разпределението на семействата по броя на членовете им, трябва да се създаде вариационна поредица. Тъй като характеристиката приема ограничен брой целочислени стойности, ние изграждаме дискретна вариационна поредица. За да направите това, първо се препоръчва да запишете всички стойности на чертата (броя на членовете в семейството) във възходящ ред (т.е. да класирате статистическите данни):

След това е необходимо да се преброи броят на семействата със същия състав. Броят на членовете на семейството (стойността на променливата характеристика) са опции (ще ги обозначим с x), броят на семействата с един и същ състав е честотите (ще ги обозначим с f). Резултатите от групирането са представени под формата на следните дискретни вариационни серии на разпределение:

Таблица 3.11.
Брой членове на семейството (x) Брой семейства (y)
1 8
2 14
3 20
4 9
5 5
6 4
Обща сума 60

3.3.2. Изграждане на интервали с вариационни редове

Нека покажем техника за конструиране на интервални вариационни серии на разпределение, като използваме следния пример.

Пример 3.3. В резултат на статистическо наблюдение са получени следните данни за средния лихвен процент от 50 търговски банки (%):

Таблица 3.12.
14,7 19,0 24,5 20,8 12,3 24,6 17,0 14,2 19,7 18,8
18,1 20,5 21,0 20,7 20,4 14,7 25,1 22,7 19,0 19,6
19,0 18,9 17,4 20,0 13,8 25,6 13,0 19,0 18,7 21,1
13,3 20,7 15,2 19,9 21,9 16,0 16,9 15,3 21,4 20,4
12,8 20,8 14,3 18,0 15,1 23,8 18,5 14,4 14,4 21,0

Както можете да видите, изключително неудобно е да видите такъв масив от данни; освен това не се виждат закономерности на промяната на индикатора. Нека да изградим интервална серия на разпределение.

  1. Нека дефинираме броя на интервалите.

    На практика броят на интервалите често се определя от самия изследовател въз основа на задачите на всяко конкретно наблюдение. В същото време може да се изчисли и математически, като се използва формулата на Стърджис

    n = 1 + 3.322 lgN,

    където n е броят на интервалите;

    N е обемът на популацията (броят на единиците за наблюдение).

    За нашия пример получаваме: n = 1 + 3.322lgN = 1 + 3.322lg50 = 6.6 "7.

  2. Нека определим размера на интервалите (i) по формулата

    където x max е максималната стойност на характеристиката;

    x min е минималната стойност на функцията.

    За нашия пример

    Интервалите на вариационните серии са ясни, ако техните граници имат "кръгли" стойности, следователно ще закръглим стойността на интервала 1.9 до 2, а минималната стойност на характеристиката 12.3 до 12.0.

  3. Нека дефинираме границите на интервалите.

    Интервалите обикновено се записват по такъв начин, че горната граница на един интервал е едновременно долната граница на следващия интервал. И така, за нашия пример получаваме: 12,0-14,0; 14,0-16,0; 16,0-18,0; 18,0-20,0; 20,0-22,0; 22,0-24,0; 24,0-26,0.

    Такъв запис означава, че характеристиката е непрекъсната. Ако вариантите на характеристика приемат строго определени стойности, например само цели, но броят им е твърде голям за конструиране на дискретна серия, тогава може да се създаде интервална серия, при която долната граница на интервала няма да съвпада с горната граница на следващия интервал (това ще означава, че характеристиката е дискретна). Например при разпределението на служителите в дадено предприятие по възраст можете да създадете следните интервални групи години: 18-25, 26-33, 34-41, 42-49, 50-57, 58-65, 66 и Повече ▼.

    Също така, в нашия пример бихме могли да направим първия и последния интервал отворени и т.н. запис: до 14,0; 24.0 и по-висока.

  4. Въз основа на първоначалните данни ще изградим поредица с диапазон. За да направите това, запишете във възходящ ред стойностите, които атрибутът приема. Резултатите са представени в таблицата: Таблица 3.13. Класирана поредица от лихвени проценти на търговските банки
    Банков процент% (опции)
    12,3 17,0 19,9 23,8
    12,8 17,4 20,0 24,5
    13,0 18,0 20,0 24,6
    13,3 18,1 20,4 25,1
    13,8 18,5 20,4 25,6
    14,2 18,7 20,5
    14,3 18,8 20,7
    14,4 18,9 20,7
    14,7 19,0 20,8
    14,7 19,0 21,0
    15,1 19,0 21,0
    15,2 19,0 21,1
    15,3 19,0 21,4
    16,0 19,6 21,9
    16,9 19,7 22,7
  5. Нека преброим честотите.

    При изчисляване на честотите може да възникне ситуация, когато стойността на характеристика пада на границата на интервал. В този случай можете да се ръководите от правилото: тази единица е присвоена на интервала, за който нейната стойност е горната граница. И така, стойността 16.0 в нашия пример ще се отнася до втория интервал.

Резултатите от групирането, получени в нашия пример, ще бъдат представени в таблицата.

Таблица 3.14. Разпределение на търговските банки по лихвен процент
Кратък процент,% Брой банки, единици (честота) Натрупани честоти
12,0-14,0 5 5
14,0-16,0 9 14
16,0-18,0 4 18
18,0-20,0 15 33
20,0-22,0 11 44
22,0-24,0 2 46
24,0-26,0 4 50
Обща сума 50 -

Последната колона на таблицата показва натрупаните честоти, които се получават чрез последователно сумиране на честотите, започвайки от първата (например за първия интервал - 5, за втория интервал 5 + 9 = 14, за третия интервал 5 + 9 + 4 = 18 и др.). Кумулативната честота, например 33, показва, че 33 банки имат лихвен процент по кредити, който не надвишава 20% (горната граница на съответния интервал).

В процеса на групиране на данни при конструиране на вариационни редици понякога се използват неравномерни интервали. Това се отнася за онези случаи, когато стойностите на дадена характеристика се подчиняват на правилото за аритметична или геометрична прогресия, или когато прилагането на формулата на Стърджис води до появата на „празни“ интервални групи, които не съдържат нито една единица за наблюдение. Тогава границите на интервалите се задават произволно от самия изследовател, въз основа на здравия разум и целите на изследването, или чрез формули. Така че, за данни, които се променят в аритметичната прогресия, размерът на интервалите се изчислява, както следва.

За дискретни характеристики се създава дискретна вариационна серия.

За да изградите дискретна вариационна серия, трябва да изпълните следните стъпки: 1) да подредите мерните единици за наблюдение във възходящ ред на изследваната стойност на характеристиката,

2) определете всички възможни стойности на атрибута x i, подредете ги във възходящ ред,

стойността на характеристиката, i .

характеристична стойност честота и означават е i . Сборът от всички честоти на поредицата е равен на броя на елементите в изследваната съвкупност.

Пример 1 .

Списък на оценките, получени от студентите на изпити: 3; четири; 3; пет; четири; 2; 2; четири; четири; 3; пет; 2; четири; пет; четири; 3; четири; 3; 3; четири; четири; 2; 2; пет; пет; четири; пет; 2; 3; четири; четири; 3; четири; пет; 2; пет; пет; четири; 3; 3; четири; 2; четири; четири; пет; четири; 3; пет; 3; пет; четири; четири; пет; четири; четири; пет; четири; пет; пет; пет.

Тук номерът х - Оценяванее дискретна случайна променлива и полученият списък с оценки естатистически (наблюдавани) данни .

    за да подредите мерните единици за наблюдение във възходящ ред на изследваната стойност на атрибута:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) определете всички възможни стойности на атрибута x i, подредете ги във възходящ ред:

В този пример всички оценки могат да бъдат разделени на четири групи със следните стойности: 2; 3; четири; пет.

Извиква се стойността на случайна променлива, съответстваща на отделна група от наблюдавани данни стойността на характеристиката, вариант (вариант) и означават х i .

Извиква се числото, което показва колко пъти съответната стойност на атрибута се появява в редица наблюдения характеристична стойност честота и означават е i .

За нашия пример

резултат 2 се получава - 8 пъти,

резултат 3 се случва - 12 пъти,

резултат 4 се получава - 23 пъти,

резултат 5 се случва - 17 пъти.

Общо 60 оценки.

4) запишете получените данни в таблица от два реда (колони) - x i и f i.

Въз основа на тези данни е възможно да се изгради дискретна вариационна серия

Дискретни вариационни серии - това е таблица, в която срещнатите стойности на изследваната черта са посочени като отделни стойности във възходящ ред и тяхната честота

  1. Изграждане на серия от вариации на интервали

В допълнение към дискретни вариационни редици, често има такъв начин за групиране на данни като интервална вариационна редица.

Интервалната серия се изгражда, ако:

    знакът има непрекъснат характер на промяна;

    Има много дискретни стойности (повече от 10)

    честотите на дискретни стойности са много малки (не надвишават 1-3 при относително голям брой единици за наблюдение);

    много дискретни стойности на характеристика със същите честоти.

Поредица с вариации на интервали е метод за групиране на данни под формата на таблица, която има две колони (стойности на атрибутите под формата на интервал от стойности и честотата на всеки интервал).

За разлика от дискретните редове, стойностите на характеристиката на интервалната серия са представени не от отделни стойности, а от интервала на стойностите ("от - до").

Извиква се числото, което показва колко единици за наблюдение са попаднали във всеки избран интервал характеристична стойност честота и означават е i . Сборът от всички честоти на поредицата е равен на броя на елементите (единици за наблюдение) в изследваната популация.

Ако единицата има стойност на характеристика, равна на стойността на горната граница на интервала, тогава тя трябва да бъде насочена към следващия интервал.

Например, дете с ръст 100 см ще попадне във втория интервал, а не в първия; и дете с ръст 130 см ще попадне в последния интервал, а не в третия.

Въз основа на тези данни е възможно да се изгради интервал на вариационна серия.

Всеки контейнер има долна граница (x n), горна граница (x h) и ширина на контейнера ( i).

Граница на интервала е характерна стойност, която се намира на границата на два интервала.

ръст на децата (см)

ръст на децата (см)

количество деца

над 130

Ако интервалът има горна и долна граница, тогава той се извиква затворен интервал... Ако интервалът има само долна или само горна граница, тогава е - отворен интервал.Само първият или най-новият интервал могат да бъдат отворени. В горния пример последният интервал е отворен.

Ширина на интервала (i) - разликата между горната и долната граница.

i = x n - x in

Приема се, че ширината на отворения кош е същата като ширината на съседния затворен кош.

ръст на децата (см)

количество деца

Ширина на интервала (i)

за изчисления 130 + 20 = 150

20 (тъй като ширината на съседния затворен интервал е 20)

Всички интервални серии са разделени на интервални серии на равни интервали и интервални серии на неравномерни интервали ... В интервални редове с равни интервали ширината на всички интервали е еднаква. В интервалните редове с неравномерни интервали ширината на интервалите е различна.

В този пример интервална поредица с неравномерни интервали.

Статистика по математика- раздел от математиката, посветен на математическите методи за обработка, систематизиране и използване на статистически данни за научни и практически заключения.

3.1. ОСНОВНИ КОНЦЕПЦИИ НА МАТЕМАТИЧНАТА СТАТИСТИКА

При биомедицински проблеми често е необходимо да се изследва разпространението на определена черта за много голям брой индивиди. За различните индивиди този знак има различно значение, следователно е случайна променлива. Например, всеки лекарствен продукт има различна ефикасност, когато се прилага при различни пациенти. Въпреки това, за да добиете представа за ефективността на това лекарство, няма нужда да го прилагате за всичкиболен. Възможно е да се проследят резултатите от употребата на лекарството при сравнително малка група пациенти и въз основа на получените данни да се идентифицират съществени характеристики (ефективност, противопоказания) на процеса на лечение.

Общо население- набор от хомогенни елементи, които ще бъдат изследвани, характеризиращи се с някаква характеристика. Тази функция е непрекъснатослучайна променлива с плътност на разпределение f (x).

Например, ако се интересуваме от разпространението на дадена болест в определен регион, тогава общата популация е цялото население на региона. Ако искаме да разберем чувствителността към това заболяване на мъжете и жените поотделно, тогава трябва да разгледаме две общи популации.

За да се изследват свойствата на общата популация, се избират някои от нейните елементи.

Проба- частта от общото население, избрана за изследване (лечение).

Ако това не води до объркване, тогава пробата се нарича набор от обекти,избран за изпит и агрегат

стойностиизследвана черта, получена по време на проучването. Тези стойности могат да бъдат представени по няколко начина.

Прости статистически серии -стойностите на изследваната характеристика, записани в реда, в който са получени.

Пример за проста статистическа серия, получена чрез измерване на скоростта на повърхностните вълни (m / s) в кожата на челото при 20 пациенти е дадена в табл. 3.1.

Таблица 3.1.Прости статистически редове

Простата статистическа поредица е основният и най-пълен начин за записване на резултатите от проучването. Той може да съдържа стотици елементи. Много е трудно да погледнете подобна комбинация с един поглед. Следователно големите проби обикновено се разделят на групи. За това зоната на промяна на характеристиката е разделена на няколко (N) интервалис еднаква ширина и изчислете относителните честоти (n / n) на характеристиката, удряща тези интервали. Ширината на всеки интервал е:

Границите на интервалите имат следното значение:

Ако някой елемент от пробата е границата между два съседни интервала, тогава той се нарича налявоинтервал. Данните, групирани по този начин, се извикват интервални статистически редове.

- това е таблица, която показва интервалите на стойностите на атрибутите и относителните честоти на атрибута, попадащи в тези интервали.

В нашия случай е възможно да се образува например такъв интервален статистически ред (N = 5, д= 4), табл. 3.2.

Таблица 3.2.Интервални статистически редове

Тук две стойности, равни на 28, се отнасят към интервала 28-32 (Таблица 3.1), а към интервала 32-36 - стойностите 32, 33, 34 и 35.

Интервалните статистически редове могат да се показват графично. За да направите това, интервалите на стойностите на атрибутите се нанасят по оста на абсцисата и на всеки от тях, както на основата, се изгражда правоъгълник с височина, равна на относителната честота. Получената стълбовидна диаграма се извиква хистограма.

Фиг. 3.1.стълбовидна диаграма

На хистограмата статистическите модели на разпределение на признака се виждат съвсем ясно.

При голям размер на извадката (няколко хиляди) и малка ширина на колоните, формата на хистограмата е близка до формата на графиката плътност на разпределениезнак.

Броят на стълбовете в хистограмата може да бъде избран по следната формула:

Изграждането на хистограма ръчно е дълъг процес. Поради това са разработени компютърни програми за тяхното автоматично изграждане.

3.2. ЧИСЕЛНИ ХАРАКТЕРИСТИКИ НА СТАТИСТИЧЕСКАТА СЕРИЯ

Много статистически процедури използват извадкови оценки за средното и дисперсията (или RMS) на популацията.

Примерно средно(X) е средната аритметична стойност на всички елементи на проста статистическа поредица:

За нашия пример х= 37,05 (m / s).

Примерното средно енай-добротообща средна оценкаМ.

Дисперсия на пробата s 2равна на сумата от квадратите на отклоненията на елементите от средната стойност на пробата, разделена на н- 1:

В нашия пример s 2 = 25,2 (m / s) 2.

Моля, обърнете внимание, че когато се изчислява дисперсията на извадката, знаменателят на формулата не е размерът на извадката n, а n-1. Това се дължи на факта, че при изчисляване на отклоненията във формула (3.3), вместо неизвестното математическо очакване се използва неговата оценка - примерна средна стойност.

Дисперсията на пробата е най-добротообща оценка на дисперсията (σ 2).

Примерно стандартно отклонение(s) е квадратният корен от дисперсията на пробата:

За нашия пример с= 5,02 (m / s).

Селективна корен квадратенотклонението е най-добрата оценка на общото стандартно отклонение (σ).

С неограничено увеличаване на размера на извадката, всички характеристики на извадката се стремят към съответните характеристики на общата популация.

За изчисляване на характеристиките на извадката се използват компютърни формули. В Excel тези изчисления изпълняват статистическите функции AVERAGE, VAR. СТДЕВ.

3.3. ИНТЕРВАЛНА ОЦЕНКА

Всички характеристики на пробата са случайни променливи.Това означава, че за друга проба със същия размер стойностите на характеристиките на пробата ще бъдат различни. По този начин, селективен

характеристиките са само оценкисъответстващи характеристики на общото население.

Недостатъците на оценката на извадката се компенсират от оценка на интервала,представляваща цифров интервал,вътре в която с дадена вероятност R dистинската стойност на оценявания параметър е намерена.

Нека бъде U r - някакъв параметър на генералната съвкупност (обща средна стойност, обща дисперсия и др.).

Интервална оценкапараметър U r се нарича интервал (U 1, U 2),отговарящи на условието:

P (U < Ur < U2) = Рд. (3.5)

Вероятност R dНаречен поверителна вероятност.

Вероятност за доверие Pд - вероятността истинската стойност на очакваното количество да е вътрепосочения интервал.

В този случай интервалът (U 1, U 2)Наречен доверителен интервалза параметъра, който се оценява.

Често вместо вероятността за доверие се използва свързаната стойност α = 1 - P d, която се нарича ниво на значимост.

Ниво на значимосте вероятността истинската стойност на оценения параметър да е отвъндоверителен интервал.

Понякога α и P q се изразяват като процент, например 5% вместо 0,05 и 95% вместо 0,95.

При оценка на интервала първо изберете подходящия ниво на увереност(обикновено 0,95 или 0,99) и след това намерете съответния диапазон от стойности на оценявания параметър.

Нека отбележим някои общи свойства на интервалните оценки.

1. Колкото по-ниско е нивото на значимост (толкова повече R e),колкото по-широк е интервалът. Така че, ако при ниво на значимост 0,05, интервалната оценка на общата средна стойност е 34,7< М< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < М< 40,25.

2. Колкото по-голям е размерът на извадката н,колкото по-тесен е оценката на интервала с избраното ниво на значимост. Нека например 5 е процентната оценка на общата средна стойност (β = 0,05), получена от извадка от 20 елемента, след това 34,7< М< 39,4.

Чрез увеличаване на размера на извадката до 80, ще получим по-точна оценка на същото ниво на значимост: 35,5< М< 38,6.

В общия случай изграждането на надеждни оценки на доверието изисква познаване на закона, според който оцененият случаен атрибут се разпределя в общата съвкупност. Помислете как се изгражда оценката на интервала общо средночерта, която се разпределя в общата популация от нормалноЗаконът.

3.4. ИНТЕРВАЛНА ОЦЕНКА НА ОБЩОТО СРЕДСТВО ЗА НОРМАЛЕН ЗАКОН ЗА РАЗПРЕДЕЛЕНИЕ

Изграждането на интервална оценка на общата средна стойност M за общото население с нормално разпределение се основава на следното свойство. За обем на пробата нповедение

се подчинява на разпределението на Студента с броя на степени на свобода ν = н- 1.

Тук хе средната стойност на пробата и с- селективно стандартно отклонение.

Използвайки таблиците за разпределение на Student или техния компютърен аналог, може да се намери такава гранична стойност, че с дадена вероятност за доверие неравенството да бъде изпълнено:

Това неравенство съответства на неравенството за M:

Където ε е полуширината на доверителния интервал.

По този начин, изграждането на доверителния интервал за M се извършва в следната последователност.

1. Изберете вероятността за доверие P d (обикновено 0,95 или 0,99) и за нея, според таблицата за разпределение на Student, се намира параметърът t

2. Изчислете полуширината на доверителния интервал ε:

3. Получете интервална оценка на общата средна стойност с избраното ниво на доверие:

Накратко е написано така:

Компютърни процедури са разработени за намиране на интервални оценки.

Нека да обясним как да използваме разпределителната таблица на Student. Тази таблица има два "входа": лявата колона, наречена броя на градусите на свобода ν = н- 1, а горният ред е нивото на значимост α. На пресечната точка на съответния ред и колона намерете коефициента на Student T.

Нека приложим този метод към нашата извадка. Фрагмент от таблицата за разпределение на студентите е представен по-долу.

Таблица 3.3. Фрагмент от разпределителната маса на Студента

Проста статистическа поредица за извадка от 20 души = 20, ν = 19) е представено в табл. 3.1. За тази серия изчисленията по формули (3.1-3.3) дават: х= 37,05; с= 5,02.

Нека да изберем α = 0,05 (P d = 0,95). В пресечната точка на линия "19" и колона "0,05" намираме T= 2,09.

Нека изчислим точността на оценката по формула (3.6): ε = 2.09? 5.02 / λ / 20 = 2.34.

Нека да построим интервална оценка: с вероятност от 95% неизвестната обща средна стойност удовлетворява неравенството:

37,05 - 2,34 < М< 37,05 + 2,34, или М= 37,05 ± 2,34 (m / s), P d = 0,95.

3.5. МЕТОДИ ЗА ПРОВЕРКА НА СТАТИСТИЧЕСКИТЕ ХИПОТЕЗИ

Статистически хипотези

Преди да формулирате какво представлява статистическата хипотеза, разгледайте следния пример.

За сравнение на два метода за лечение на определено заболяване са избрани две групи пациенти от 20 души, лечението на които е проведено по тези методи. За всеки пациент се записва брой процедури,след което е постигнат положителен ефект. Според тези данни за всяка група са намерени средства за извадка (X), отклонения на пробата (s 2)и извадка RMS (с).

Резултатите са представени в табл. 3.4.

Таблица 3.4

Броят на процедурите, необходими за получаване на положителен ефект, е произволна променлива, цялата информация за която в момента се съдържа в дадената извадка.

От маса. 3.4 показва, че средната стойност на извадката в първата група е по-малка, отколкото във втората. Означава ли това, че същото съотношение важи и за общите средни стойности: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает тестване на статистическа хипотеза.

Статистическа хипотеза- това е предположение за свойствата на популациите.

Ще разгледаме хипотези за свойствата двеобщи популации.

Ако популациите имат известен, същоторазпределение на очакваното количество, а предположенията се отнасят до количествата някакъв параметърот това разпределение, тогава се извикват хипотезите параметричен.Например извадки се вземат от популации с нормален законразпределение и същата дисперсия. Искаш да разбереш са същитеобщи средни стойности на тези популации.

Ако нищо не се знае за законите на разпределение на генералните популации, тогава се извикват хипотези за техните свойства непараметричен.Например, са същитезакони за разпределение на общите популации, от които се извличат проби.

Нула и алтернативни хипотези.

Проблемът за тестване на хипотези. Ниво на значимост

Нека се запознаем с терминологията, използвана при тестване на хипотези.

H 0 - нулева хипотеза (хипотеза на скептик) - това е хипотеза няма разликамежду сравнените проби. Скептикът смята, че разликите между извадковите оценки, получени от резултатите от изследванията, са случайни;

Н 1- алтернативна хипотеза (оптимистична хипотеза) е хипотеза за наличието на разлики между сравнените извадки. Оптимистът смята, че разликите между извадковите оценки са причинени от обективни причини и съответстват на разликите между общите популации.

Тестването на статистически хипотези е осъществимо само когато е възможно да се съставят някои величина(критерий), чийто закон за разпределение в случай на справедливост Н 0известни. Тогава за това количество може да се посочи доверителен интервал,в която с дадена вероятност R dполучава своята стойност. Този интервал се нарича критична зона.Ако стойността на критерия попадне в критичната област, тогава хипотезата се приема Н 0.В противен случай се приема хипотеза H 1.

В медицинските изследвания се използват P d = 0,95 или P d = 0,99. Тези стойности съответстват на нива на значимостα = 0,05 или α = 0,01.

При тестване на статистически хипотезиниво на значимост(α) е вероятността да се отхвърли нулевата хипотеза, когато тя е вярна.

Имайте предвид, че в основата си е насочена процедурата за тестване на хипотези откриване на разлики,а не да потвърди липсата им. Когато стойността на критерия надхвърля критичната зона, можем да кажем с чисто сърце на „скептиците“ - добре, какво друго искате?! Ако нямаше разлики, тогава с вероятност от 95% (или 99%), изчислената стойност би била в определените граници. Но не! ..

Е, ако стойността на критерия попадне в критичната област, тогава няма причина да се смята, че хипотезата H 0 е вярна. Това най-вероятно показва една от двете възможни причини.

1. Размерите на извадката не са достатъчно големи, за да се открият разликите. Вероятно продължителните експерименти ще донесат успех.

2. Има разлики. Но те са толкова малки, че нямат практическа стойност. В този случай продължаването на експериментите няма смисъл.

Нека да преминем към разглеждане на някои от статистическите хипотези, използвани в медицинските изследвания.

3.6. ПРОВЕРКА НА ХИПОТЕЗИТЕ ЗА РАВНОСТ НА ДИСПЕРСИЯТА, F-КРИТЕРИЙ FISCHER

В някои клинични проучвания положителният ефект не се доказва толкова много от величинана изследвания параметър, колко е стабилизация,намаляване на неговите колебания. В този случай възниква въпросът за сравнението на две общи отклонения въз основа на резултатите от извадковото проучване. Тази задача може да бъде решена с Критерий на Фишър.

Формулиране на проблема

нормален законразпределение. Размери на пробите -

n 1и n 2,но пробни отклоненияса равни s 1 и s 2 2 общи отклонения.

Подлежащи на проверка хипотези:

Н 0- общи отклонения са същите;

Н 1- общи отклонения са различни.

Показва се, ако пробите се извличат от общите популации с нормален законразпределение, тогава ако хипотезата е вярна Н 0съотношението на отклоненията на пробите се подчинява на разпределението на Fisher. Следователно, като критерий за проверка на валидността Н 0стойността се взема F,изчислява се по формулата:

Където s 1 и s 2 са примерни отклонения.

Това съотношение се подчинява на разпределението на Фишър с броя на степените на свобода на числителя ν 1 = n 1- 1 и броят на степените на свобода на знаменателя ν 2 = n 2 - 1. Границите на критичната област се намират според таблиците за разпределение на Фишер или с помощта на компютърната функция BRASPOBR.

За примера, представен в табл. 3.4, получаваме: ν 1 = ν 2 = 20 - 1 = 19; F= 2,16 / 4,05 = 0,53. При α = 0,05 границите на критичната област са равни, съответно: = 0,40, = 2,53.

Стойността на критерия е попаднала в критичния регион, следователно хипотезата е приета Н 0:общи отклонения на пробите са същите.

3.7. ОЗНАЧАВА ПРОВЕРКА ЗА ХИПОТЕЗА НА РАВНОВОДСТВО, Т-КРИТЕРИЙ ЗА СТУДЕНТ

Задача за сравнение среднавъзникват две общи популации, когато това е от практическо значение величинаизследваната черта. Например, при сравняване на условията на лечение с два различни метода или броя на усложненията, произтичащи от тяхното използване. В този случай можете да използвате t-теста на Student.

Формулиране на проблема

Бяха получени две проби (X 1) и (X 2), извлечени от общи популации с нормален законразпределение и същите отклонения.Размери на пробите - n 1 и n 2, примерни средстваса равни на X 1 и X 2, и пробни отклонения- s 1 2 и s 2 2съответно. Изисква се да се сравняват помежду си общи средни стойности.

Подлежащи на проверка хипотези:

Н 0- общи средни стойности са същите;

Н 1- общи средни стойности са различни.

Показано е, че в случай на валидност на хипотезата Н 0стойността на t, изчислена по формулата:

разпределени съгласно закона на Студент с броя на степени на свобода ν = ν 1 + + ν2 - 2.

Тук, където ν 1 = н 1 - 1 - броят на градусите на свобода за първата проба; ν 2 = н 2 - 1 е броят на градусите на свобода за втората проба.

Границите на критичния регион се намират от таблици на t-разпределение или с помощта на компютърната функция TIDERINST. Разпределението на Студента е симетрично около нула, следователно лявата и дясната граница на критичната област са еднакви по големина и противоположни по знак: -и

За примера, представен в табл. 3.4, получаваме:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, T= -2,51. С α = 0,05 = 2,02.

Стойността на критерия надхвърля лявата граница на критичния регион, така че приемаме хипотезата Н 1:общи средни стойности са различни.Освен това средната стойност на общото население първа пробаПО-МАЛКО.

Приложимост на t-теста на Student

Тестът на студента t е приложим само за проби от нормалноагрегати с същите общи отклонения.Ако поне едно от условията е нарушено, тогава приложимостта на критерия е под въпрос. Изискването за нормалност на общото население обикновено се игнорира, позовавайки се на централната гранична теорема.Всъщност разликата на средните стойности на извадката в числителя на (3.10) може да се счита за нормално разпределена при ν> 30. Но въпросът за равенството на дисперсиите не може да бъде проверен и позоваванията на факта, че тестът на Фишър не разкрива различия не могат да бъдат взети предвид. Независимо от това, t-тестът се използва широко за откриване на разлики в средните стойности на популациите, макар и без основателна причина.

Разгледано по-долу непараметричен тест,което се използва успешно за същите цели и което не изисква никакви нормалност,нито равенство на дисперсиите.

3.8. НЕПАРАМЕТРИЧНО СРАВНЕНИЕ НА ДВЕ ПРОБИ: КРИТЕРИЙЪТ МАН-УИТНИ

Непараметричните тестове са предназначени да открият разлики в законите на разпределение на две общи популации. Критерии, които са чувствителни към разликите като цяло среден,наречени критерии смяна.Критерии, които са чувствителни към разликите като цяло отклонения,наречени критерии мащаб.Критерият Ман-Уитни се отнася до критериите смянаи се използва за откриване на разлики в средствата на две общи популации, проби от които са представени в скала за ранг.Измерените характеристики се намират на тази скала във възходящ ред и след това се номерират с цели числа 1, 2 ... Тези числа се наричат чинове.Равни стойности се присвояват на същите рангове. Не е важен размерът на самата функция, а само поредно място,което тя нарежда сред останалите количества.

Таблица 3.5. първата група от Таблица 3.4 е представена в разширена форма (ред 1), подложена на класиране (поток 2) и след това редовете на същите стойности се заменят със средни аритметични стойности. Например на елементи 4 и 4 на първия ред бяха дадени редове 2 и 3, които след това бяха заменени със същата стойност 2.5.

Таблица 3.5

Формулиране на проблема

Независими проби (X 1)и (X 2)извлечени от популации с неизвестни закони за разпределение. Размери на пробите n 1и n 2съответно. Примерни стойности на елементите са представени в скала за ранг.Искате да проверите дали тези популации се различават помежду си?

Подлежащи на проверка хипотези:

Н 0- пробите принадлежат към една и съща генерална съвкупност; Н 1- пробите принадлежат към различни генерални популации.

За да се проверят такива хипотези, тестът / / -mann-Whitney.

Първо, комбинирана извадка (X) се прави от две проби, елементите на които се класират. След това се намира сумата от ранговете, съответстващи на елементите на първата извадка. Тази сума е критерият за проверка на хипотези.

U= Сума от ранговете на първата извадка. (3.11)

За независими проби с обеми по-големи от 20 стойността Uсе подчинява на нормално разпределение, математическите очаквания и стандартното отклонение на които са равни:

Следователно границите на критичната зона се намират в таблиците на нормалното разпределение.

За примера, представен в табл. 3.4, получаваме: ν 1 = ν 2 = 20 - 1 = 19, U= 339, μ = 410, σ = 37. За α = 0,05 получаваме: и лъвът = 338, и десният = 482.

Стойността на критерия надхвърля лявата граница на критичния регион, следователно се приема хипотезата H1: общите популации имат различни закони на разпределение. Освен това средната стойност на общото население първа пробаПО-МАЛКО.

Най-важният етап от изследването на социално-икономическите явления и процеси е систематизирането на първичните данни и получаването на тази основа на обобщени характеристики на целия обект с помощта на обобщаващи показатели, което се постига чрез обобщаване и групиране на първичен статистически материал.

Статистическо обобщение е комплекс от последователни операции за обобщаване на конкретни отделни факти, които образуват съвкупност, за идентифициране на типични черти и модели, присъщи на изследваното явление като цяло. Извършването на статистическо обобщение включва следните стъпки :

  • избор на атрибут за групиране;
  • определяне на реда на формиране на групи;
  • разработване на система от статистически показатели за характеризиране на групите и обекта като цяло;
  • разработване на оформления на статистически таблици за представяне на обобщени резултати.

Статистическо групиране се нарича разделяне на единици от изследваната популация на еднородни групи според определени съществени за тях характеристики. Групировките са най-важният статистически метод за сумиране на статистически данни, основа за правилното изчисляване на статистическите показатели.

Съществуват следните видове групировки: типологични, структурни, аналитични. Всички тези групировки са обединени от факта, че единиците на обекта са разделени на групи според някакъв критерий.

Атрибут за групиране се нарича атрибут, чрез който се извършва разделянето на популационните единици на отделни групи. Изводите от статистическо проучване зависят от правилния избор на атрибут за групиране. Като основа за групиране е необходимо да се използват съществени, теоретично обосновани характеристики (количествени или качествени).

Количествени признаци на групиране имат цифров израз (обем на търговията, възраст на човек, доходи на семейството и т.н.), и качествени признаци на групиране отразяват състоянието на съвкупната единица (пол, семейно положение, отраслова принадлежност на предприятието, неговата форма на собственост и др.).

След като бъде определена основата на групирането, трябва да се реши въпросът за броя на групите, на които трябва да се раздели изследваната популация. Броят на групите зависи от целите на изследването и вида на индикатора, лежащ в основата на групирането, обема на популацията, степента на вариация на характеристиката.

Например групирането на предприятия по вид собственост отчита общинската, федералната и собствеността на субектите на Федерацията. Ако групирането се извършва на количествена основа, тогава е необходимо да се обърне специално внимание на броя единици на изследвания обект и степента на променливост на атрибута за групиране.

Когато броят на групите е определен, трябва да се определят интервалите за групиране. Интервал - това са стойностите на променлива характеристика, които се намират в определени граници. Всеки интервал има своя стойност, горни и долни граници или поне една от тях.

Долната граница на интервала се нарича най-малката стойност на характеристиката в интервала и Горна граница - най-голямата стойност на характеристиката в интервала. Стойността на интервала е разликата между горната и долната граница.

Интервалите за групиране, в зависимост от техния размер, са: равни и неравни. Ако вариацията на признака се проявява в относително тесни граници и разпределението е еднакво, тогава се изгражда групиране на равни интервали. Стойността на равния интервал се определя по следната формула :

където Xmax, Xmin са максималните и минималните стойности на атрибута в съвкупността; n е броят на групите.

Най-простото групиране, при което всяка избрана група се характеризира с един индикатор, е серия за разпределение.

Статистически разпределителни серии - Това е подредено разпределение на единици от популацията в групи според определена характеристика. В зависимост от характеристиката, лежаща в основата на формирането на дистрибуционна серия, се разграничават атрибутивни и вариационни дистрибуционни серии.

Атрибутивни извикайте разпределителни серии, изградени според качествени характеристики, тоест характеристики, които нямат числов израз (разпределение по вид труд, по пол, по професия и т.н.). Атрибутивни серии на разпределение характеризират състава на популацията за една или друга съществена характеристика. Взети за няколко периода, тези данни позволяват да се изследва промяната в структурата.

Вариационни серии се наричат ​​разпределителни серии, изградени на количествена основа. Всяка вариационна серия се състои от два елемента: опции и честоти. Варианти отделните стойности на атрибута, които той приема в вариационната серия, се наричат, т.е. специфичната стойност на променливия атрибут.

Честоти извиква се броят на отделните варианти или всяка група от вариационната серия, тоест това са числа, които показват колко често се намират определени опции в разпределителната серия. Сумата от всички честоти определя размера на цялото население, неговия обем. Честоти наречени честоти, изразени във фракции от единица или като процент от общото. Съответно, сумата от честотите е 1 или 100%.

В зависимост от естеството на вариацията на признака се разграничават три форми на вариационната серия: класирани серии, дискретни серии и интервални серии.

Класирани вариационни серии - Това е разпределението на отделни единици от популацията във възходящ или низходящ ред на изследваната черта. Класирането ви позволява лесно да разделите количествените данни на групи, веднага да намерите най-малките и най-големите стойности на даден елемент, да маркирате стойностите, които най-често се повтарят.

Дискретни вариационни серии характеризира разпределението на единиците от популацията според дискретна характеристика, която приема само цели числа. Например категорията на заплатите, броят на децата в семейството, броят на служителите в предприятието и т.н.

Ако дадена характеристика има непрекъсната промяна, която в определени граници може да приеме всякакви стойности ("от - до"), тогава за тази характеристика трябва да изградите серия с вариации на интервали ... Например размерът на дохода, трудов стаж, разходите за дълготрайни активи на предприятието и т.н.

Примери за решаване на задачи по темата "Статистическо обобщение и групиране"

Задача 1 ... Има информация за броя на книгите, получени от студентите по абонамент за изминалата учебна година.

Изградете класирана и дискретна вариационна поредица на разпределение, обозначавайки елементите на поредицата.

Решение

Този комплект представлява много опции за броя книги, които студентите получават. Нека преброим броя на такива опции и ги подредим под формата на вариационни диапазони и вариационни дискретни серии на разпределение.

Проблем 2 ... Има данни за разходите за дълготрайни активи за 50 предприятия, хиляди рубли.

Изградете поредица от разпределения, като откроите 5 групи предприятия (на равни интервали).

Решение

За да разрешим проблема, ще изберем най-голямата и най-малката стойност на стойността на дълготрайните активи на предприятията. Това са 30,0 и 10,2 хиляди рубли.

Нека намерим размера на интервала: h = (30,0-10,2): 5 = 3,96 хиляди рубли.

Тогава първата група ще включва предприятия с дълготрайни активи от 10,2 хиляди рубли. до 10,2 + 3,96 = 14,16 хиляди рубли. Такива предприятия ще има 9. Втората група ще включва предприятия, чийто размер на дълготрайните активи ще бъде от 14,16 хиляди рубли. до 14,16 + 3,96 = 18,12 хиляди рубли. Такива предприятия ще има 16. По същия начин ще открием броя на предприятията, включени в третата, четвъртата и петата групи.

Получената серия от разпределения се поставя в таблицата.

Задача 3 ... За редица предприятия от леката промишленост бяха получени следните данни:

Групирайте предприятията според броя на работниците, образувайки 6 групи през равни интервали. Брой за всяка група:

1. брой предприятия
2. брой работници
3. обем на произвежданите продукти годишно
4. средната действителна продукция на един работник
5. обем на дълготрайните активи
6. средният размер на дълготрайните активи на едно предприятие
7. средната стойност на продуктите, произведени от едно предприятие

Попълнете резултатите от изчисленията в таблици. Направете изводи.

Решение

За решение ще изберем най-големите и най-малките стойности на средния брой работници в предприятието. Това са 43 и 256.

Намерете размера на интервала: h = (256-43): 6 = 35,5

Тогава първата група ще включва предприятия, средният брой на работещите в които е от 43 до 43 + 35,5 = 78,5 души. Такива предприятия ще има 5. Втората група ще включва предприятия, средният брой на работещите при които ще бъде от 78,5 до 78,5 + 35,5 = 114 души. Такива предприятия ще има 12. По същия начин ще открием броя на предприятията, включени в третата, четвъртата, петата и шестата група.

Поставяме получените разпределителни серии в таблица и изчисляваме необходимите показатели за всяка група:

Изход : Както се вижда от таблицата, втората група предприятия е най-многобройна. Включва 12 предприятия. Най-малките са петата и шестата групи (две предприятия). Това са най-големите предприятия (по отношение на броя на работниците).

Тъй като втората група е най-многобройна, обемът на произвежданата продукция годишно от предприятията от тази група и обемът на дълготрайните активи са значително по-високи от останалите. В същото време средната действителна продукция на един работник в предприятията от тази група не е най-висока. Тук предприятията от четвъртата група са начело. Тази група отчита и доста голямо количество дълготрайни активи.

В заключение отбелязваме, че средният размер на дълготрайните активи и средната стойност на продукцията на едно предприятие са пряко пропорционални на размера на предприятието (от броя на работниците).

Лабораторна работа No1

Чрез математическа статистика

Тема: Първична обработка на експериментални данни

3. Резултат в точки. един

5. Контролни въпроси .. 2

6. Методика за извършване на лабораторни упражнения .. 3

цел на работата

Придобиване на умения за първична обработка на емпирични данни чрез методи на математическа статистика.

Въз основа на съвкупността от експериментални данни изпълнете следните задачи:

Упражнение 1.Постройте интервална вариационна серия на разпределението.

Задача 2.Постройте хистограма на честотите на интервала на вариация на интервалите.

Задача 3.Начертайте емпирична функция на разпределение и изградете графика.

а) мода и медиана;

б) условни начални моменти;

в) средна проба;

г) дисперсия на извадката, коригирана дисперсия на общата популация, коригирано стандартно отклонение;

д) коефициент на вариация;

е) асиметрия;

ж) излишък;

Задача 5.Определете границите на истинските стойности на числовите характеристики на изследваната случайна величина с дадена надеждност.

Задача 6.Съществена интерпретация на резултатите от първичната обработка според състоянието на проблема.

Резултат в точки

Куестове 1-56 точки

Задание 62 точки

Защита на лабораторната работа(устно интервю по контролни въпроси и лабораторни упражнения) - 2 точки

Работата трябва да бъде представена в писмена форма на листове А4 и включва:

1) Заглавна страница (Приложение 1)

2) Първоначални данни.

3) Подаване на работа по посочения образец.

4) Резултати от изчисленията (извършени ръчно и / или с помощта на MS Excel) в посочения ред.

5) Заключения - смислена интерпретация на резултатите от първичната обработка според състоянието на проблема.

6) Устно интервю за работни и тестови въпроси.



5. Контролни въпроси


Техника на лабораторна работа

Задача 1. Постройте интервал на вариационна серия на разпределение

За да могат статистическите данни да бъдат представени под формата на вариационна поредица с еднакво разположени опции, е необходимо:

1. Намерете най-малките и най-големите стойности в оригиналната таблица с данни.

2. Определете диапазон на вариация :

3. Определете дължината на интервала h, ако пробата съдържа до 1000 данни, използвайте формулата: , където n е размерът на извадката - количеството данни в извадката; lgn се използва за изчисления).

Изчисленото съотношение се закръглява до удобна целочислена стойност .

4. Определете началото на първия интервал за четен брой интервали.Препоръчително е да вземете стойността; и за нечетен брой интервали.

5. Запишете интервалите за групиране и ги подредете във възходящ ред на границите

, ,………., ,

където е долната граница на първия интервал. Взема се удобно число, не повече, горната граница на последния интервал не трябва да бъде по-малка. Препоръчително е интервалите да съдържат началните стойности на случайната променлива и да се отделят от 5 до 20интервали.

6. Запишете първоначалните данни за интервалите на групирането, т.е. изчислява броя на стойностите на случайната променлива, попадащи в посочените интервали съгласно оригиналната таблица. Ако някои стойности съвпадат с границите на интервалите, тогава те се отнасят или само към предишния, или само към следващия интервал.

Забележка 1.Не е необходимо интервалите да са еднакви по дължина. В областите, където стойностите са по-плътни, е по-удобно да се правят по-малки, по-кратки интервали, а където по-рядко, по-големи.

Забележка 2.Ако за някои стойности се получат "нула" или малки стойности на честотите, тогава е необходимо да се прегрупират данните, като се увеличат интервалите (увеличаване на стъпката).