Изграждане на разпределителна серия. Статистическо обобщение и групиране. Статистически разпределителни серии. Примери за решаване на проблеми

2. Концепция за разпределителна серия. Дискретни и интервални редове на разпределение

Разпределителни редовесе наричат ​​групи от специален тип, при които за всяка характеристика, група характеристики или клас характеристики се знае броят на единиците в групата или делът на този брой в общия брой. Тези. разпределителна серия- подреден набор от стойности на атрибути, подредени във възходящ или низходящ ред със съответните тегла. Разпределителните серии могат да бъдат изградени или по количествено, или по атрибут.

Разпределителните серии, изградени на количествена основа, се наричат ​​вариационни серии. Те са дискретни и интервални... Поредица от разпределение може да бъде изградена върху непрекъснато променящ се признак (когато даден елемент може да приема всякакви стойности в рамките на всеки интервал) и върху дискретно променящ се признак (приема строго определени целочислени стойности).

ОтделенСерията от вариации на разпределението е набор от опции със съответните им честоти или подробности. Вариантите на дискретна серия са дискретни дискретно променящи се стойности на характеристика, обикновено това е резултат от преброяване.

Отделен

Обикновено се изграждат вариационни серии, ако стойностите на изследваната черта могат да се различават една от друга поне с някаква крайна стойност. В дискретни серии се определят точковите стойности на характеристиката. Пример : Разпределение на продавани мъжки костюми по магазини на месец по размер.

Интервал

Редица от вариации е подреден набор от интервали на вариация на стойностите на произволна променлива със съответните честоти или честоти на поява на стойности на количеството във всяка от тях. Интервалните серии са предназначени да анализират разпределението на непрекъснато променяща се характеристика, чиято стойност най-често се записва чрез измерване или претегляне. Вариантите на такава серия са групиране.

Пример : Разпределение на покупките в хранителния магазин по суми.

Ако в серия с дискретни вариации честотната характеристика се отнася директно до вариант на серията, то в интервална серия тя се отнася до група варианти.

Удобно е да се анализират редовете на разпространение чрез тяхното графично представяне, което дава възможност да се прецени формата и закономерностите на разпространение. Дискретна серия е показана на графиката като прекъсната линия - разпределителен полигон... За да се конструира в правоъгълна координатна система, класираните (подредени) стойности на променливата характеристика се нанасят по оста на абсцисата в същия мащаб, а скала за изразяване на честоти се нанася по оста на ординатата.

Интервалните редове са изобразени като хистограми на разпределение(тоест лентови графики).

При конструиране на хистограма стойностите на интервалите се нанасят по оста на абсцисата, а честотите се изобразяват чрез правоъгълници, изградени на съответните интервали. Височината на прътите в случай на еднакво разстояние трябва да бъде пропорционална на честотите.

Всяка хистограма може да бъде преобразувана в многоъгълник на разпределение, за това е необходимо да свържете върховете на неговите правоъгълници с прави линии.

2. Индексен метод за анализ на влиянието на средната продукция и средната численост на персонала върху промените в обема на производството

Индексен методИзползва се за анализ на динамиката и сравняване на обобщените показатели, както и фактори, влияещи върху промяната в нивата на тези показатели. С помощта на индекси е възможно да се идентифицира влиянието на средната продукция и средната численост на персонала върху промените в обема на производството. Тази задача се решава чрез изграждане на система от аналитични индекси.

Индексът на обема на производството с индекса на средния брой заети и индекса на средната продукция е свързан по същия начин, както обемът на производството (Q) е свързан с продукцията ( ш)и числото ( г) .

Може да се заключи, че обемът на производството ще бъде равен на произведението на средната продукция и средната численост на персонала:

Q = w r,където Q е обемът на производството,

w - средна производителност,

r - среден брой служители.

Както можете да видите, говорим за връзката на явленията в статиката: произведението на два фактора дава общия обем на ефективното явление. Очевидно е също, че тази връзка е функционална, следователно динамиката на тази връзка се изследва с помощта на индекси. За дадения пример това е следната система:

J w × J r = J wr.

Например, индексът на обема на производството Jwr, като индекс на производствения феномен, може да бъде декомпозиран на два индексни фактора: индексът на средната продукция (Jw) и индексът на средната численост на персонала (Jr):

Индекс Индекс Индекс

обемът на средната

производствена продукция

където Дж w- индекс на производителност на труда, изчислен по формулата на Ласпейрес;

J r- индексът на броя на служителите, изчислен по формулата на Пааше.

Индексните системи се използват за определяне на влиянието на отделните фактори върху формирането на нивото на ефективния индикатор, те позволяват да се определи стойността на неизвестното чрез 2 известни стойности на индексите.

На базата на дадена система от индекси е възможно да се намери абсолютното увеличение на обема на производството, разложено на влиянието на фактори.

1. Общо увеличение на производствения обем:

∆wr = ∑w 1 r 1 - ∑w 0 r 0.

2. Растеж поради действието на индикатора за средна продукция:

∆wr / w = ∑w 1 r 1 - ∑w 0 r 1.

3. Растеж поради действието на индикатора за среден брой служители:

∆wr / r = ∑w 0 r 1 - ∑w 0 r 0

∆wr = ∆wr / w + ∆wr / r.

Пример.Известни са следните данни

Можем да определим как обемът на производството се е променил в относително и абсолютно изражение и как отделните фактори са повлияли на тази промяна.

Обемът на производството беше:

в базовия период

w 0 * r 0 = 2000 * 90 = 180 000,

и в отчетността

w 1 * r 1 = 2100 * 100 = 210 000.

Следователно обемът на производството се е увеличил с 30 000 или с 1,16%.

∆wr = ∑w 1 r 1 -∑w 0 r 0 = (210000-180000) = 30000

или (210 000: 180 000) * 100% = 1,16%.

Тази промяна в обема на производството се дължи на:

1) увеличение на средния брой служители с 10 души или със 111,1%

r 1 / r 0 = 100/90 = 1,11 или 111,1%.

В абсолютно изражение поради този фактор обемът на производството се е увеличил с 20 000:

w 0 r 1 - w 0 r 0 = w 0 (r 1 -r 0) = 2000 (100-90) = 20000.

2) увеличение на средната продукция със 105% или 10 000:

w 1 r 1 / w 0 r 1 = 2100 * 100/2000 * 100 = 1,05 или 105%.

В абсолютни стойности увеличението е:

w 1 r 1 - w 0 r 1 = (w 1 -w 0) r 1 = (2100-2000) * 100 = 10000.

Следователно, комбинираното влияние на факторите е:

1. В абсолютни стойности

10000 + 20000 = 30000

2. В относително изражение

1,11 * 1,05 = 1,16 (116%)

Следователно увеличението е с 1,16%. И двата резултата са получени по-рано.

Думата "индекс" в превод означава индекс, индикатор. В статистиката индексът се интерпретира като относителен показател, който характеризира промяната на явление във времето, пространството или в сравнение с плана. Тъй като индексът е относителна стойност, имената на индексите са съгласни с имената на относителните стойности.

В случаите, когато анализираме промяната във времето на сравняваните продукти, можем да поставим въпроса как се променят компонентите на индекса (цена, физически обем, структура на производството или продажбите на определени видове продукти) при различни условия (при различни сайтове). В тази връзка се конструират индекси на постоянен състав, променлив състав и структурни измествания.

Постоянен (фиксиран) индекс на състава -това е индекс, който характеризира динамиката на средната стойност за същата фиксирана структура на населението.

Принципът на конструиране на индекс с постоянен състав е да се елиминира влиянието на промените в структурата на теглата върху индексираната стойност чрез изчисляване на среднопретегленото ниво на индексирания индекс със същите тегла.

Индексът на постоянния състав е идентичен по форма с агрегатния индекс. Агрегираната форма е най-често срещаната.

Индексът на постоянен състав се изчислява с тегла, фиксирани на ниво един период, и показва промяната само в индексираната стойност. Индексът на постоянния състав елиминира влиянието на промените в структурата на теглата върху индексираната стойност чрез изчисляване на среднопретегленото ниво на индексирания индекс със същите тегла. Индексите на постоянен състав сравняват показатели, изчислени на базата на постоянна структура на явленията.

Предмет на математическата статистика. Обща и извадкова съвкупност.

— Математическа статистика- раздел по математика, който изучава начините за подбор, групиране, систематизиране и анализиране на статистически данни с цел получаване на научно обосновани заключения.

— Статистически данни- числените стойности на разглеждания атрибут на изследваните обекти, получени в резултат на случаен експеримент.

Математическата статистика е тясно свързана с теорията на вероятностите, но за разлика от теорията на вероятностите, математическият модел на експеримента е неизвестен. В математическата статистика според статистическите данни е необходимо да се установи неизвестно разпределение на вероятностите или да се оцени обективно параметрите на разпределението.

Методите на математическата статистика ви позволяват да изграждате оптимални математически модели на масивни, повтарящи се явления. Връзката между теорията на вероятностите и математическата статистика са граничните теореми на теорията на вероятностите.

В момента статистическите методи се използват в почти всички сектори на националната икономика.

— Общо население- статистически данни за всички изследвани обекти (понякога - самите обекти). Общата популация често се счита за SV X.

— Проба(извадкова популация) - статистически данни за обекти, избрани на случаен принцип от генералната съвкупност.

— Размер на извадката н(размерът на общата популация н) - броят на обектите, избрани за изследване от генералната съвкупност (броя на обектите в генералната съвкупност).

Примери за.

а) Статистически данниможе да бъде: израстването на учениците; броят на глаголите (или други части на речта) в текст с определена дължина; средната оценка на сертификата; ниво на интелигентност; броя на грешките, допуснати от диспечера и др.

б) Общото населениеможе би: растежът на всички хора, редиците на всички работници на завода, честотата на използване на определена част на речта във всички произведения на изучавания автор, средната оценка на сертификата на всички завършили и т.н.



v) Вземане на пробиможе да бъде: - височината на 20 ученика, броят на глаголите в произволно избрани 50 еднородни текстови пасажа с дължина 500 лексеми, среден резултат от свидетелство за 100 завършили, избрани на случаен принцип от училища в града и др.

Пробата се нарича Представител,ако отразява правилно собствеността на генералната съвкупност. Представителността на извадката се постига чрез случаен подбор, когато всички обекти от генералната съвкупност имат еднаква вероятност да бъдат избрани.

За да бъде извадката представителна, се използват различни методи за избор на обекти на изследване.

Видове подбор: прост, механичен, сериен, типичен.

прост... Елементите се избират на случаен принцип от цялата съвкупност.

Механичен подбор... Всеки 10 (25, 30 и т.н.) обект се избира от генералната съвкупност.

Сериен... Изследване се извършва във всяка серия (например 10 откъса от 500 токена - 10 серии са избрани от текста).

Типично... Генералната популация се разделя на типични групи по определен критерий. Броят на партидите, извлечени от всяка такава група, се определя от специфичното тегло на тази група в общата съвкупност.

Статистическо разпределение на извадката и нейното графично представяне.

Нека SV X (генералната популация) се изследва по отношение на някакъв атрибут. В ход са редица независими тестове. В резултат на експерименти SV X приема някои стойности. Наборът от получени стойности е извадка, а самите стойности са статистически данни.

Първоначално извадката се класира – местоположението на статистическите данни на извадката в ненамаляващ ред. Получаваме вариационната серия.

Вариационна серияе класирана извадка.

Дискретни статистически серии

Ако общата съвкупност е дискретна RV, се конструира дискретна статистическа серия (статистическо разпределение).

Нека стойността се появи в извадката веднъж,

Времена,..., - пъти.

I-то опциявземане на проби; - честота i-ти варианти Честотата показва колко пъти дадения вариант се е появил в извадката.

- относителна честота i-ти опции

(показва каква част от пробата е).

Статистическото разпределение е съответствието между вариантите на извадката и техните честоти или относителни честоти.

За DSV статистическото разпределение може да бъде представено под формата на таблица – статистическа поредица от честоти или статистическа поредица от относителни честоти.

Статистически ред на честоти Статистически ред

относителни честоти

........
........
........
........

За яснота на представяне на статистическото разпределение на извадката се изграждат "графики" на статистическото разпределение: полигон и хистограма.

Честотен полигон(относителни честоти) - графично представяне на дискретна статистическа серия - прекъсната линия, свързваща точките последователно [за многоъгълник от относителни честоти].

Пример.Изследователят се интересува от знанията на кандидатите по математика. Избират се 10 кандидати и се записват оценките им по този предмет. Получава се следната проба: 5; 4; 4; 3; 2; 5; 4; 3; 4; 5.

а) Представете извадката под формата на вариационна серия;

б) изградете статистическа серия от честоти и относителни честоти;

в) начертайте многоъгълник от относителни честоти за получената серия.

а) Нека класираме извадката, т.е. подреждаме членовете на извадката в ненамаляващ ред. Получаваме вариационната серия: 2; 3; 3; 4; 4; 4; 4; 5; 5; 5.

б) Нека построим статистическа серия от честоти (съответствието между вариантите на извадката и техните честоти) и статистическа серия от относителни честоти (съответствието между вариантите на извадката и техните относителни честоти)

0,1 0,2 0,4 0,3

Статистически ред на честотите Статистически ред отн. честоти

1 + 2 + 4 + 3 = 10 = n 0,1 + 0,2 + 0,4 + 0,3 = 1.

Многоъгълник от относителни честоти.


Висше професионално образование

„РУСКА АКАДЕМИЯ ПО НАРОДНО СТОПАНСТВО И

ПУБЛИЧНА СЛУЖБА ПРИ ПРЕЗИДЕНТА

РУСКА ФЕДЕРАЦИЯ"

(клон Калуга)

Катедра по природо-математически дисциплини

ТЕСТ

По дисциплина "Статистика"

Студент ___ Майборода Галина Юриевна ______

Кореспонденция, факултет Държавна и общинска администрация, група Г-12-V

Учител ____________________ Хамер Г.В.

д-р, доцент

Калуга-2013

Цел 1.

Задача 1.1. 4

Задача 1.2. 16

Задача 1.3. 24

Задача 1.4. 33

Цел 2.

Задача 2.1. 43

Задача 2.2. 48

Задача 2.3. 53

Задача 2.4. 58

Цел 3.

Задача 3.1. 63

Задача 3.2. 68

Задача 3.3. 73

Задача 3.4. 79

Задача 4.

Задача 4.1. 85

Задача 4.2. 88

Задача 4.3. 90

Задача 4.4. 93

Списък на използваните източници. 96

Цел 1.

Задача 1.1.

Има следните данни за продукцията и размера на печалбата от предприятията от региона (таблица 1).

маса 1

Данни за продукцията и размера на печалбата на предприятията

Фирмен номер Производство, млн. руб. Печалба, милиони рубли Фирмен номер Производство, млн. руб. Печалба, милиони рубли
63,0 6,7 56,0 7,2
48,0 6,2 81,0 9,6
39,0 6,5 55,0 6,3
28,0 3,0 76,0 9,1
72,0 8,2 54,0 6,0
61,0 7,6 53,0 6,4
47,0 5,9 68,0 8,5
37,0 4,2 52,0 6,5
25,0 2,8 44,0 5,0
60,0 7,9 51,0 6,4
46,0 5,5 50,0 5,8
34,0 3,8 65,0 6,7
21,0 2,1 49,0 6,1
58,0 8,0 42,0 4,8
45,0 5,7 32,0 4,6

По първоначални данни:

1. Изградете статистическа поредица от разпределение на предприятията по продукция, образувайки пет групи на равни интервали.

Начертайте графиките на сериите на разпределение: полигон, хистограма, кумулатив. Определете графично стойността на модата и медианата.

2. Изчислете характеристиките на разпределението на предприятията по продукция: средноаритметично, дисперсия, стандартно отклонение, коефициент на вариация.

Направете заключение.

3. Използвайки метода на аналитичното групиране, установете наличието и характера на корелацията между стойността на произведените продукти и размера на печалбата на предприятие.

4. Измерете плътността на връзката между себестойността на произведените стоки и размера на печалбата чрез емпиричния коефициент на корелация.

Направете общи изводи.

Решение:

Нека построим статистически разпределителни редове

За да се конструира интервална вариационна серия, която характеризира разпределението на предприятията по отношение на продукцията, е необходимо да се изчислят стойността и границите на интервалите на серията.

При конструиране на серия с равни интервали стойността на интервала зопределя се по формулата:

x макси х мин- най-голямата и най-малката стойност на атрибута в изследваната съвкупност от предприятия;

к- броят на групите в интервалната серия.

Брой групи кпосочено в условието на задачата. к= 5.

x макс= 81 милиона рубли, х мин= 21 милиона рубли.

Изчисляване на размера на интервала:

милиона рубли

Чрез последователно добавяне на стойността на интервала h = 12 милиона рубли. до долната граница на интервала получаваме следните групи:

Група 1: 21 - 33 милиона рубли.

Група 2: 33 - 45 милиона рубли;

Група 3: 45 - 57 милиона рубли.

Група 4: 57 - 69 милиона рубли.

Група 5: 69 - 81 милиона рубли.

За да се конструира интервална серия, е необходимо да се изчисли броят на предприятията, включени във всяка група ( групови честоти).

Процесът на групиране на предприятията по обем на продукцията е представен в помощна таблица 2. Колона 4 на тази таблица е необходима за изграждане на аналитично групиране (точка 3 от задачата).

таблица 2

Таблица за изобразяване на интервална серия за разпределение и

аналитична група

Групи предприятия по обем на производството, млн. руб. Фирмен номер Производство, млн. руб. Печалба, милиони рубли
21-33 21,0 2,1
25,0 2,8
28,0 3,0
32,0 4,6
Обща сума 106,0 12,5
33-45 34,0 3,8
37,0 4,2
39,0 6,5
42,0 4,8
44,0 5,0
Обща сума 196,0 24,3
45-57 45,0 5,7
46,0 5,5
47,0 5,9
48,0 6,2
49,0 6,1
50,0 5,8
51,0 6,4
52,0 6,5
53,0 6,4
54,0 6,0
55,0 6,3
56,0 7,2
Обща сума 606,0 74,0
57-69 58,0 8,0
60,0 7,9
61,0 7,6
63,0 6,7
65,0 6,7
68,0 8,5
Обща сума 375,0 45,4
69-81 72,0 8,2
76,0 9,1
81,0 9,6
Обща сума 229,0 26,9
Обща сума 183,1

На базата на груповите обобщени редове "Общо" на Таблица 3 се формира обобщена таблица 3, която представлява интервалната серия на разпределението на предприятията по обем на продукцията.

Таблица 3

Редица разпределения на предприятията по обем на продукцията

Изход.Изграденото групиране показва, че разпределението на предприятията по отношение на продукцията не е еднородно. Най-често срещаните са предприятия с производствен обем от 45 до 57 милиона рубли. (12 предприятия). Най-малко разпространени са предприятията с обем на производството от 69 до 81 милиона рубли. (3 предприятия).

Нека построим графиките на разпределителните серии.

многоъгълник по-често се използва за представяне на дискретни серии. За да се конструира многоъгълник в правоъгълна координатна система, стойностите на аргумента се изобразяват по оста на абсцисата, тоест опциите (за серии с вариации на интервала, средата на интервала се приема като аргумент) и честотата стойностите са на оста на ординатите. Освен това в тази координатна система се изобразяват точки, чиито координати са двойки от съответните числа от вариационния ред. Получените точки са последователно свързани с прави сегменти. Многоъгълникът е показан на фигура 1.

лентова графика - стълбовидна диаграма. Позволява ви да оцените симетрията на разпределението. Хистограмата е показана на фигура 2.

Фигура 1 - Полигон на разпределение на предприятията по обем

производствена продукция

мода

Фигура 2 - Хистограма на разпределението на предприятията по обем

производствена продукция

мода- стойността на признак, който се среща най-често в изследваната популация.

За интервалната серия режимът може да се определи графично от хистограмата (Фигура 2). За това се избира най-високият правоъгълник, който в този случай е модален (45 - 57 милиона рубли). Тогава десният връх на модалния правоъгълник се свързва с горния десен ъгъл на предишния правоъгълник. И левият връх на модалния правоъгълник е с горния ляв ъгъл на следващия правоъгълник. Освен това, от точката на тяхното пресичане, перпендикуляр се спуска върху оста на абсцисата. Абсцисата на пресечната точка на тези прави линии ще бъде режимът на разпределение.

Млн. търкайте.

Изход.В набора от разглеждани предприятия най-често се срещат предприятия с производствена продукция от 52 милиона рубли.

Кумулата - счупена крива. Изгражда се според натрупаните честоти (изчислени в таблица 4). Кумулативът започва от долната граница на първия интервал (21 милиона рубли), натрупаната честота се депозира в горната граница на интервала. Кумулата е показана на фигура 3.

Медиана

Фигура 3 - Кумулативно разпределение на предприятията по обем

производствена продукция

Средно аз- Това е стойността на характеристиката, попадаща в средата на класираната серия. От двете страни на медианата има еднакъв брой единици на населението.

В интервална серия медианата може да се определи графично от кумулативната крива. За да се определи медианата от точка от скалата на натрупаните честоти, съответстваща на 50% (30: 2 = 15), се изтегля права линия, успоредна на оста на абсцисата, докато се пресече с кумулативната. След това, от точката на пресичане на определената права линия с кумулативата, перпендикуляр се спуска върху оста на абсцисата. Абсцисата на пресечната точка е медианата.

Млн. търкайте.

Изход.В набора от разглеждани предприятия половината от предприятията имат производствен обем не повече от 52 милиона рубли, а другата половина - най-малко 52 милиона рубли.


Подобна информация.


Статистически разпределителни серии- Това е подредено разпределение на единици от населението в групи според определена вариабилна характеристика.
В зависимост от характеристиките, залегнали в основата на формирането на серия за разпространение, има атрибутивни и вариационни серии на разпространение.

Наличието на общ признак е основата за формиране на статистическа съвкупност, която е резултатите от описанието или измерването на общи черти на обектите на изследване.

Предмет на изследване в статистиката е променящите се (променливи) знаци или статистически знаци.

Видове статистически знаци.

Разпределителните редове се наричат ​​атрибутивнивъз основа на критерии за качество. АтрибутивнаТова е знак, който има име (например професия: шивачка, учител и др.).
Обичайно е да се подреждат редица разпределения под формата на таблици. Таблица 2.8 показва атрибутивния ред на разпространение.
Таблица 2.8 - Разпределение на видовете правна помощ, предоставяна от адвокати на граждани на един от регионите на Руската федерация.

Вариационна серияТова са стойностите на характеристиката (или интервали от стойности) и техните честоти.
Разпределителните серии се наричат ​​вариационни серииизградени на количествена основа. Всяка серия от вариации се състои от два елемента: опции и честоти.
Вариантите се считат за индивидуалните стойности на характеристиката, която приема в вариационната серия.
Честотите са номерата на отделните варианти или всяка група от вариационните серии, т.е. това са числа, показващи колко често един или друг вариант се среща в серия за разпространение. Сборът от всички честоти определя броя на цялото население, неговия обем.
Честотите са честоти, изразени в части от едно или като процент от общия брой. Съответно сумата от честотите е 1 или 100%. Серията от вариации ни позволява да оценим формата на закона за разпределението, използвайки действителни данни.

В зависимост от естеството на вариацията на чертата те се разграничават дискретни и интервални вариационни серии.
Пример за дискретна вариационна серия е даден в табл. 2.9.
Таблица 2.9 - Разпределение на семействата според броя на заетите стаи в отделни апартаменти през 1989 г. в Руската федерация.

Първата колона на таблицата показва вариантите на дискретната вариационна серия, втората - честотите на вариационния ред, третата - честотните индикатори.

Вариационна серия

В общата популация се изследва определена количествена характеристика. От него произволно се извлича проба от обем н, тоест броят на елементите в извадката е н... На първия етап от статистическата обработка, вариращивземане на проби, т.е. номера за поръчка x 1, x 2, ..., x nВъзходящ. Всяка наблюдавана стойност x iНаречен вариант... Честота м иЕ броят на наблюденията на стойността x iв пробата. Относителна честота (честота) w iЕ честотното съотношение м идо размера на извадката н: .
При изследване на вариационния ред се използват и понятията натрупана честота и натрупана честота. Нека бъде хнякакъв номер. След това броят на опциите , чиито стойности са по-малки х, се нарича натрупана честота: за x i нсе нарича натрупана честота w i max.
Една характеристика се нарича дискретно варираща, ако нейните отделни стойности (варианти) се различават една от друга с някаква крайна стойност (обикновено цяло число). Вариационният ред на такава характеристика се нарича дискретна вариационна серия.

Таблица 1. Общ изглед на дискретната вариационна серия от честоти

Характерни стойностиx i х 1 х 2 x n
Честотим и м 1 м 2 m n

Характеристика се нарича непрекъснато варираща, ако нейните стойности се различават една от друга с произволно малко количество, т.е. атрибутът може да приема всякакви стойности в определен интервал. Непрекъсната серия от вариации за такава характеристика се нарича интервал.

Таблица 2. Общ изглед на интервалната вариационна серия от честоти

Таблица 3. Графични изображения на вариационната серия

РедМногоъгълник или хистограмаЕмпирична функция на разпределение
Отделен
Интервал
Гледайки резултатите от наблюденията, те определят колко стойности на опциите са попаднали във всеки конкретен интервал. Приема се, че всеки интервал принадлежи на един от неговите краища: или във всички случаи е ляв (по-често), или във всички случаи е десен, а честотите или честотите показват броя на опциите, затворени в посочените граници. Различия a i - a i +1се наричат ​​частични интервали. За да се опростят следващите изчисления, интервалната вариационна серия може да бъде заменена с конвенционално дискретна. В този случай средната стойност и-тия интервал се приема като вариант x iи съответната интервална честота м и- за честотата на този интервал.
За графично представяне на вариационните серии най-често се използват полигон, хистограма, кумулативна крива и емпирична функция на разпределение.

Таблица 2.3 (Групиране на населението на Русия по среден доход на глава от населението през април 1994 г.) е представено интервални вариационни серии.
Удобно е да се анализират сериите на разпространение с помощта на графично изображение, което дава възможност да се прецени формата на разпределението. Ясна представа за естеството на промяната в честотите на вариационния ред се дава от полигон и хистограма.
Многоъгълникът се използва при показване на дискретни серии от вариации.
Нека изобразим, например, графично разпределението на жилищния фонд по видове апартаменти (Таблица 2.10).
Таблица 2.10 - Разпределение на жилищния фонд на градската зона по видове апартаменти (произволни числа).


Ориз. Полигон за разпределение на жилищния фонд


По оста на ординатите могат да се начертаят не само стойностите на честотите, но и честотите на вариационните серии.
Хистограмата се взема за изображение на интервалната вариационна серия... При конструиране на хистограма стойностите на интервалите се нанасят по оста на абсцисата, а честотите се изобразяват чрез правоъгълници, изградени на съответните интервали. Височината на прътите в случай на еднакво разстояние трябва да бъде пропорционална на честотите. Хистограмата е графика, в която серия е показана под формата на ленти, съседни една на друга.
Нека изобразим графично интервалните редове на разпределение, дадени в табл. 2.11.
Таблица 2.11 - Разпределение на семействата по размер на жилищната площ на човек (произволни числа).
N p / p Групи от семейства според размера на жилищната площ на човек Броят на семействата с дадена жилищна площ Натрупан брой семейства
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
ОБЩА СУМА 115 ----


Ориз. 2.2. Хистограма на разпределението на семействата по размер на жилищната площ на човек


Използвайки данните от натрупаната серия (Таблица 2.11), конструираме кумулативно разпределение.


Ориз. 2.3. Кумулативно разпределение на семействата по жилищна площ на човек


Представянето на вариационния ред под формата на кумулати е особено ефективно за вариационни серии, чиито честоти се изразяват във дроби или проценти спрямо сбора от честотите на серията.
Ако променим осите, когато графично изобразяваме вариационните серии под формата на кумулати, тогава получаваме огийв... На фиг. 2.4 показва оживото, изградено на базата на данните в табл. 2.11.
Хистограмата може да бъде преобразувана в многоъгълник на разпределение, като се намерят средните точки на страните на правоъгълниците и след това се свържат тези точки с прави линии. Полученият многоъгълник за разпределение е показан на фиг. 2.2 с пунктирана линия.
При конструиране на хистограма на разпределението на вариационния ред с неравни интервали по оста на ординатите се нанасят не честотите, а плътността на разпределението на признаците в съответните интервали.
Плътността на разпределение е честотата, изчислена за единична ширина на интервала, т.е. колко единици има във всяка група на единица от интервала. Пример за изчисляване на плътността на разпределение е представен в табл. 2.12.
Таблица 2.12 - Разпределение на предприятията по брой служители (условни числа)
N p / p Групи предприятия по брой служители, хора Брой предприятия Размер на интервала, лица Плътност на разпределение
А 1 2 3=1/2
1 До 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
ОБЩА СУМА 147 ---- ----

Може да се използва и за графично представяне на вариационната серия кумулативна крива... С помощта на кумулати (крива на сумата) се показва серия от натрупани честоти. Натрупаните честоти се определят чрез последователно сумиране на честотите по групи и показват колко единици от популацията имат характерна стойност не по-голяма от разглежданата стойност.


Ориз. 2.4. Обхват на разпределение на семействата според размера на жилищната площ на човек

При конструиране на кумулатите на интервалната вариационна поредица вариантите на серията се нанасят по абсцисната ос, а натрупаните честоти се нанасят по оста на ординатите.

Лабораторна работа No1. Първична обработка на статистически данни

Начертаване на разпределителна серия

Нарича се подреденото разпределение на единиците от населението в групи според която и да е характеристика близко разпространение ... В този случай признакът може да бъде и количествен, тогава се нарича серия вариационен , и високо качество, тогава серия се нарича атрибутивен ... Така например населението на един град може да бъде разпределено по възрастови групи във вариационна серия или по професионалисти, принадлежащи към атрибутивна серия (разбира се, много повече качествени и количествени характеристики могат да бъдат предложени за конструиране на разпределителни серии, изборът на характеристика се определя от задачата на статистическо изследване).

Всяка дистрибуторска серия се характеризира с два елемента:

- опция(x i) - това са индивидуалните стойности на характеристиката на единиците от извадковата съвкупност. За вариационния ред вариантът приема числови стойности, за атрибутивния - качествени (например x = "държавен служител");

- честотаи) Е число, показващо колко пъти се среща определена стойност на даден елемент. Ако честотата е изразена като относително число (т.е. дяловете на елементите от съвкупността, съответстващи на дадена стойност на опциите, в общия обем на съвкупността), тогава тя се нарича относителна честотаили често срещан.

Диапазонът на вариация може да бъде:

- отделенкогато изследваната черта се характеризира с определено число (обикновено цяло число).

- интервалкогато границите "от" и "до" са определени за непрекъснато променящ се елемент. Интервалната серия също се изгражда, ако наборът от стойности на дискретно променящия се признак е голям.

Интервалните серии могат да бъдат построени както с интервали с еднаква дължина (равноинтервални серии), така и с неравни интервали, ако това е продиктувано от условията на статистическото изследване. Например, редица разпределения на доходите на населението могат да бъдат разгледани със следните интервали:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



където k е броят на интервалите, n е размерът на извадката. (Разбира се, формулата обикновено дава дробно число и най-близкото цяло число до полученото число се избира като брой интервали.) Дължината на интервала в този случай се определя от формулата

.

Вариантните серии могат да бъдат графично представени като хистограми(над всеки интервал от интервалния ред се изгражда "колона" с височина, съответстваща на честотата в този интервал), разпределителен полигон(прекъснатата линия, свързваща точките ( x i;n i) или натрупва се(изгражда се според натрупаните честоти, т.е. за всяка стойност на даден признак се взема честотата на поява в набор от обекти със стойност на признак по-малка от дадена).

Когато работите в Excel, следните функции могат да се използват за изграждане на серия от вариации:

ПРОВЕРЕТЕ( масив от данни) - за определяне на размера на извадката. Аргументът е диапазонът от клетки, в който се намират извадените данни.

COUNTIF ( обхват; критерий) - може да се използва за конструиране на атрибутивна или вариационна серия. Аргументите са диапазонът на масива от извадкови стойности на характеристиката, а критерият е числовата или текстова стойност на характеристиката или номерът на клетката, в която се намира. Резултатът е честотата на поява на тази стойност в извадката.

ЧЕСТОТА( масив от данни; масив от интервали) - за изграждане на вариационна серия. Аргументите са обхватът на извадения масив и колоната от интервали. Ако е необходимо да се изгради дискретна серия, тогава стойностите на опциите са посочени тук, ако интервал - тогава горните граници на интервалите (те също се наричат ​​"джобове"). Тъй като резултатът е колона с честоти, функцията трябва да бъде завършена чрез натискане на CTRL + SHIFT + ENTER. Имайте предвид, че при посочване на масив от интервали при въвеждане на функция, последната стойност в нея не е необходимо да се посочва - всички стойности, които не са попаднали в предишните "джобове", ще бъдат поставени в съответния "джоб". Понякога това помага да се избегне грешката, че най-голямата извадка стойност не се вписва автоматично в последния "джоб"

Освен това, за сложни групировки (по няколко критерия) използвайте инструмента "обилни таблици". Те могат да се използват и за конструиране на атрибутивни и вариационни серии, но това ненужно усложнява задачата. Също така, за да създадете серия от вариации и хистограма, има процедура „хистограма“ от добавката „Пакет за анализ“ (за да използвате добавките в Excel, първо трябва да ги изтеглите, те не са инсталирани по подразбиране)

Нека илюстрираме процеса на първична обработка на данни със следните примери.

Пример 1.1... има данни за количествения състав на 60 семейства.

Конструирайте вариационна серия и разпределителен полигон

Решение.

Нека отворим електронни таблици на Excel. Нека въведете масива от данни в диапазона A1: L5. Ако изучавате документ в електронен вид (например във формат Word), за това е достатъчно да изберете таблица с данни и да я копирате в клипборда, след това изберете клетка A1 и поставете данните - те автоматично ще заемат подходящ диапазон. Нека да изчислим размера на извадката n - броя на извадковите данни, за това въвеждаме формулата = COUNT (A1: L5) в клетка B7. Имайте предвид, че за да въведете необходимия диапазон във формулата, не е необходимо да въвеждате обозначението му от клавиатурата, достатъчно е да го изберете. Определете минималните и максималните стойности в пробата, като въведете формулата = MIN (A1: L5) в клетка B8 и в клетка B9: = MAX (A1: L5).

Фиг.1.1 Пример 1. Първична обработка на статистически данни в таблици на Excel

След това нека подготвим таблица за конструиране на серия от вариации, като въведете имена за колоната с интервали (стойности на опциите) и колоната с честоти. В колоната с интервали въведете стойностите на атрибута от минимум (1) до максимум (6), заемайки диапазона B12: B17. Изберете колоната с честота, въведете формулата = FREQUENCY (A1: L5; B12: B17) и натиснете клавишната комбинация CTRL + SHIFT + ENTER

Фиг.1.2 Пример 1. Построяване на вариационна серия

За да контролираме, ще изчислим сумата от честоти с помощта на функцията SUM (иконата на функцията S в групата „Редактиране“ в раздела „Основно“), изчислената сума трябва да съвпада с предварително изчисления размер на извадката в клетка B7.

Сега нека изградим многоъгълник: след като изберете получения честотен диапазон, изберете командата "Графика" в раздела "Вмъкване". По подразбиране стойностите на хоризонталната ос ще бъдат поредни номера - в нашия случай от 1 до 6, което съвпада със стойностите на опциите (тарифни битови номера).

Името на реда на диаграмата „Серия 1“ може да бъде променено с помощта на същата опция „избор на данни“ в раздела „Дизайн“ или просто да бъде изтрито.

Фигура 1.3. Пример 1. Изграждане на честотен полигон

Пример 1.2... Има данни за емисиите на замърсители от 50 източника:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Направете серия с равни интервали, изградете хистограма

Решение

Нека въведете масив от данни в лист на Excel, той ще заеме диапазона A1: J5 Както в предишната задача, ще определим размера на извадката n, минималните и максималните стойности в извадката. Тъй като сега се нуждаем не от дискретна, а от интервална серия и броят на интервалите в задачата не е посочен, изчисляваме броя на интервалите k по формулата на Стърджис. За да направите това, в клетка B10 въведете формулата = 1 + 3,322 * LOG10 (B7).

Фигура 1.4. Пример 2. Построяване на равноинтервална серия

Получената стойност не е цяло число, тя е приблизително 6,64. Тъй като за k = 7 дължината на интервалите ще бъде изразена като цяло число (за разлика от случая k = 6), ще изберем k = 7, като въведете тази стойност в клетка C10. Изчисляваме дължината на интервала d в ​​клетка B11, като въвеждаме формулата = (B9-B8) / C10.

Нека зададем масив от интервали, указвайки горна граница за всеки от 7-те интервала. За да направите това, в клетка E8 изчисляваме горната граница на първия интервал, като въвеждаме формулата = B8 + B11; в клетка E9 горната граница на втория интервал, като въведете формулата = E8 + B11. За да изчислите останалите стойности на горните граници на интервалите, фиксирайте номера на клетка B11 ​​във въведената формула, като използвате знака $, така че формулата в клетка E9 да приеме формата = E8 + B $ 11 и копирайте съдържанието на клетка E9 в клетки E10-E14. Последната получена стойност е равна на максималната стойност в пробата, изчислена по-рано в клетка B9.

Фигура 1.5. Пример 2. Построяване на равноинтервална серия


Сега нека попълним масива от "джобове", използвайки функцията FREQUENCY, както беше направено в пример 1.

Фигура 1.6. Пример 2. Построяване на равноинтервална серия

Нека построим хистограма въз основа на получената серия от вариации: изберете колоната с честота и изберете „Хистограма“ в раздела „Вмъкване“. След като получим хистограмата, променяме етикетите на хоризонталната ос в нея на стойности в диапазона от интервали, за това избираме опцията „Избор на данни“ на раздела „Конструктор“. В прозореца, който се показва, изберете командата "Промяна" за секцията "Етикети на хоризонтална ос" и въведете диапазона от стойности, опции, като го изберете с "мишката".

Фигура 1.7. Пример 2. Изграждане на хистограма

Фигура 1.8. Пример 2. Изграждане на хистограма