Statistinė suvestinė ir grupavimas. Statistinio pasiskirstymo serija. Problemų sprendimo pavyzdžiai. Duomenų grupavimas ir paskirstymo serijos brėžimas

Surinktos statistikos grupavimo rezultatai paprastai pateikiami kaip paskirstymo serijos. Pasiskirstymo serija yra užsakytas gyventojų vienetų pasiskirstymas į grupes pagal tiriamą požymį.

Pasiskirstymo serijos skirstomos į atributines ir kintamąsias, atsižvelgiant į grupavimo pagrindą. Jei ypatybė yra kokybinė, tada paskirstymo serija vadinama atributine. Atributinės serijos pavyzdys yra įmonių ir organizacijų pasiskirstymas pagal nuosavybės formas (žr. 3.1 lentelę).

Jei atributas, ant kurio sukurta paskirstymo serija, yra kiekybinis, tai serija vadinama variacine.

Pasiskirstymo variantų serija visada susideda iš dviejų dalių: varianto ir atitinkamų dažnių (arba dažnių). Variantas yra vertė, kurią funkcija gali įgyti populiacijos vienetais, dažnis - stebėjimo vienetų, turinčių tam tikrą požymio vertę, skaičius. Dažnių suma visada yra lygi populiacijos apimčiai. Kartais vietoj dažnių skaičiuojami dažniai - tai dažniai, išreikšti arba trupmenomis po vieną (tada visų dažnių suma yra 1), arba procentais nuo viso tūrio (dažnių suma bus lygi 100%) .

Variacinės serijos yra diskrečios ir intervalinės. Diskretinėms eilutėms (3.7 lentelė) parinktys išreiškiamos konkrečiais skaičiais, dažniausiai sveikais skaičiais.

3.8 lentelė. Darbuotojų pasiskirstymas pagal darbo laiką draudimo bendrovėje

Darbo laikas įmonėje, visi metai (pasirinktys)	Darbuotojų skaičius
	Žmogus (dažnis)	% iki viso (dažnis)
iki metų	15	11,6
1	17	13,2
2	19	14,7
3	26	20,2
4	10	7,8
5	18	13,9
6	24	18,6
Iš viso	129	100,0

Intervalais (žr. 3.2 lentelę) indikatoriaus reikšmės nustatomos kaip intervalai. Intervalai turi dvi ribas: apatinę ir viršutinę. Tarpai gali būti atviri arba uždaryti. Atidarytos neturi vienos iš sienų, taigi, lentelėje. 3.2 pirmasis intervalas neturi apatinės ribos, o paskutinis - viršutinės. Kuriant intervalų serijas, atsižvelgiant į atributų reikšmių sklaidos pobūdį, naudojami ir lygūs intervalų intervalai, ir nevienodi intervalai (3.2 lentelėje pateikiamos variacijos serijos su vienodais intervalais).

Jei charakteristika įgyja ribotą skaičių reikšmių, paprastai ne daugiau kaip 10, sudaromos atskiros paskirstymo serijos. Jei variantas yra didesnis, tada diskretinė serija praranda aiškumą; šiuo atveju patartina naudoti variacijos serijos intervalo formą. Nuolat keičiant funkciją, kai jos vertės tam tikrose ribose skiriasi savavališkai nedideliu kiekiu, taip pat sukuriama intervalų pasiskirstymo serija.

3.3.1. Diskrečių variacijų serijų konstravimas

Panagrinėkime diskrečių variacinių serijų konstravimo metodą, naudojant pavyzdį.

3.2 pavyzdys. Yra šie duomenys apie kiekybinę 60 šeimų sudėtį:

Norint įsivaizduoti šeimų pasiskirstymą pagal jų narių skaičių, reikėtų sudaryti variantų seriją. Kadangi ši funkcija naudoja ribotą skaičių sveikų skaičių, mes sukuriame diskrečių variantų seriją. Norėdami tai padaryti, pirmiausia rekomenduojama išrašyti visas požymio reikšmes (šeimos narių skaičių) didėjančia tvarka (t. Y. Suskirstyti statistinius duomenis):

Tada reikia suskaičiuoti tos pačios sudėties šeimų skaičių. Šeimos narių skaičius (kintamos savybės reikšmė) yra pasirinktiniai (juos žymėsime x), tos pačios sudėties šeimų skaičius yra dažnis (jas žymėsime f). Grupavimo rezultatai pateikiami šių diskrečių variacijų paskirstymo eilučių pavidalu:

3.11 lentelė.

Šeimos narių skaičius (x)	Šeimų skaičius (y)
1	8
2	14
3	20
4	9
5	5
6	4
Iš viso	60

3.3.2. Intervalų kitimo serijų konstravimas

Parodykime intervalo variacijos skirstinių serijų konstravimo metodą, naudodami šį pavyzdį.

3.3 pavyzdys. Remiantis statistiniais stebėjimais, buvo gauti šie duomenys apie vidutinę 50 komercinių bankų palūkanų normą (%):

3.12 lentelė.

14,7	19,0	24,5	20,8	12,3	24,6	17,0	14,2	19,7	18,8
18,1	20,5	21,0	20,7	20,4	14,7	25,1	22,7	19,0	19,6
19,0	18,9	17,4	20,0	13,8	25,6	13,0	19,0	18,7	21,1
13,3	20,7	15,2	19,9	21,9	16,0	16,9	15,3	21,4	20,4
12,8	20,8	14,3	18,0	15,1	23,8	18,5	14,4	14,4	21,0

Kaip matote, žiūrėti tokį duomenų masyvą yra labai nepatogu, be to, nėra matomo rodiklio pokyčių modelio. Sukurkime intervalų pasiskirstymo seriją.

Apibrėžkime intervalų skaičių.
Praktiškai intervalų skaičių dažnai nustato pats tyrėjas, remdamasis kiekvieno konkretaus stebėjimo užduotimis. Tuo pačiu metu jį taip pat galima apskaičiuoti matematiškai, naudojant Sturgess formulę

n = 1 + 3,322 lgN,

kur n yra intervalų skaičius;

N - populiacijos tūris (stebėjimo vienetų skaičius).

Mūsų pavyzdyje gauname: n = 1 + 3.322lgN = 1 + 3.322lg50 = 6.6 "7.
Nustatykime intervalų (i) dydį pagal formulę
kur x max yra didžiausia objekto vertė;

x min yra minimali funkcijos vertė.

Mūsų pavyzdžiui

Variacijos serijų intervalai yra aiškūs, jei jų ribos turi „apvalias“ reikšmes, todėl intervalas nuo 1,9 iki 2 ir minimali funkcijos vertė nuo 12,3 iki 12,0 bus apvalinami.
Apibrėžkime intervalų ribas.
Intervalai paprastai registruojami taip, kad vieno intervalo viršutinė riba tuo pačiu metu būtų ir kito intervalo apatinė riba. Taigi, mūsų pavyzdyje gauname: 12,0-14,0; 14,0-16,0; 16,0-18,0; 18,0-20,0; 20,0-22,0; 22,0-24,0; 24,0–26,0.

Toks įrašas reiškia, kad funkcija yra tęstinė. Jei funkcijos variantai turi griežtai apibrėžtas reikšmes, pavyzdžiui, tik visas, tačiau jų skaičius yra per didelis, kad būtų galima sukurti atskirą seriją, tada galima sukurti intervalų seriją, kurioje apatinė intervalo riba nesutaps su viršutine kito intervalo riba (tai reikš, kad funkcija yra diskretiška). Pavyzdžiui, paskirstydami įmonės darbuotojus pagal amžių, galite sukurti šias metų intervalo grupes: 18-25, 26-33, 34-41, 42-49, 50-57, 58-65, 66 ir daugiau.

Be to, mūsų pavyzdyje galime atidaryti pirmąjį ir paskutinį intervalus ir pan. rašyti: iki 14,0; 24,0 ir daugiau.

Remdamiesi pradiniais duomenimis, sukursime įvairias serijas. Norėdami tai padaryti, didėjančia tvarka parašykite atributo vertes. Rezultatai pateikti lentelėje: 3.13 lentelė. Reitinga komercinių bankų palūkanų normų serija

Banko kursas% (pasirinktys)
12,3	17,0	19,9	23,8
12,8	17,4	20,0	24,5
13,0	18,0	20,0	24,6
13,3	18,1	20,4	25,1
13,8	18,5	20,4	25,6
14,2	18,7	20,5
14,3	18,8	20,7
14,4	18,9	20,7
14,7	19,0	20,8
14,7	19,0	21,0
15,1	19,0	21,0
15,2	19,0	21,1
15,3	19,0	21,4
16,0	19,6	21,9
16,9	19,7	22,7

Skaičiuokime dažnius.
Skaičiuojant dažnius gali susidaryti situacija, kai objekto vertė patenka į intervalo ribą. Tokiu atveju galite vadovautis taisykle: šis vienetas priskiriamas intervalui, kuriam jo vertė yra viršutinė riba. Taigi, mūsų pavyzdžio vertė 16.0 bus susijusi su antruoju intervalu.

Mūsų pavyzdyje gauti grupavimo rezultatai bus pateikti lentelėje.

3.14 lentelė. Komercinių bankų pasiskirstymas pagal paskolos palūkanų normą

Trumpas kursas,%	Bankų skaičius, vienetai (dažnis)	Sukaupti dažniai
12,0-14,0	5	5
14,0-16,0	9	14
16,0-18,0	4	18
18,0-20,0	15	33
20,0-22,0	11	44
22,0-24,0	2	46
24,0-26,0	4	50
Iš viso	50	-

Paskutiniame lentelės stulpelyje rodomi sukaupti dažniai, kurie gaunami nuosekliai susumuojant dažnius, pradedant nuo pirmojo (pavyzdžiui, pirmajam intervalui - 5, antram intervalui 5 + 9 = 14, trečiajam intervalui 5) + 9 + 4 = 18 ir kt.). Suvestinis dažnis, pavyzdžiui, 33, rodo, kad 33 bankų paskolų palūkanos neviršija 20% (viršutinė atitinkamo intervalo riba).

Grupuojant duomenis, kuriant variacijų serijas, kartais naudojami nevienodi intervalai. Tai taikoma tiems atvejams, kai požymio reikšmės paklūsta aritmetinės ar geometrinės progresijos taisyklei arba kai taikant Sturgess formulę atsiranda „tuščių“ intervalų grupių, kuriose nėra vieno stebėjimo vieneto. Tada intervalų ribas savavališkai nustato pats tyrėjas, remdamasis sveiku protu ir apklausos tikslais, arba formulėmis. Taigi duomenims, kurie keičia aritmetinę progresiją, intervalų dydis apskaičiuojamas taip.

Diskrečių variantų serija sukurta atskiroms funkcijoms.

Norėdami sukurti diskrečių variacijų seriją, turite atlikti šiuos veiksmus: 1) užsakyti stebėjimo vienetus didėjančia tyrimo objekto vertės tvarka,

2) nustatyti visas galimas atributo x i reikšmes, jas surūšiuoti didėjančia tvarka,

savybės vertė, i .

būdingas reikšmių dažnis ir žymėti f i . Visų serijos dažnių suma lygi tirtos populiacijos elementų skaičiui.

1 pavyzdys .

Egzaminų studentų gautų pažymių sąrašas: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

Čia skaičius NS - laipsnisyra diskretus atsitiktinis kintamasis, o gautas įvertinimų sąrašas yrastatistiniai (stebimi) duomenys .

stebėti stebėjimo vienetus didėjančia tvarka pagal tiriamą atributo vertę:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) nustatykite visas galimas atributo x i reikšmes, surūšiuokite jas didėjančia tvarka:

Šiame pavyzdyje visus pažymius galima suskirstyti į keturias grupes su šiomis reikšmėmis: 2; 3; 4; 5.

Vadinama atsitiktinio kintamojo, atitinkančio atskirą stebimų duomenų grupę, vertė savybės vertė, variantas (variantas) ir žymimas x i .

Skaičius, rodantis, kiek kartų atitinkama atributo reikšmė pasitaiko daugelyje stebėjimų, vadinamas būdingas reikšmių dažnis ir žymėti f i .

Mūsų pavyzdžiui

įvyksta 2 balai - 8 kartus,

įvyksta 3 balai - 12 kartų,

įvyksta 4 balai - 23 kartus,

įvyksta 5 balai - 17 kartų.

Iš viso 60 sąmatų.

4) gautus duomenis įrašykite į dviejų eilučių (stulpelių) lentelę - x i ir f i.

Remiantis šiais duomenimis, galima sukurti diskrečių variantų seriją

Diskrečių variantų serija - tai yra lentelė, kurioje aptiktos požymio vertės yra nurodomos didėjančia tvarka ir jų dažnis

Intervalų variacijų serijos kūrimas

Be diskrečių variacijų serijų, dažnai yra toks duomenų grupavimo būdas kaip intervalų variacijų serijos.

Intervalas yra sudaromas, jei:

ženklas turi nuolatinį kaitos pobūdį;

Yra daug diskrečių verčių (daugiau nei 10)

diskrečiųjų verčių dažnis yra labai mažas (neviršykite 1–3, kai stebėjimo vienetų skaičius yra gana didelis);

daug atskirų vienodo dažnio objekto verčių.

Intervalų variacijų serija yra duomenų grupavimo metodas lentelės forma, kurią sudaro du stulpeliai (atributų reikšmės verčių intervalo ir kiekvieno intervalo dažnio pavidalu).

Priešingai nei diskrečiosios serijos, intervalų eilutės charakteristikos reikšmės vaizduojamos ne atskiromis reikšmėmis, bet verčių intervalu („nuo - iki“).

Skaičius, rodantis, kiek stebėjimo vienetų pateko į kiekvieną pasirinktą intervalą, vadinamas būdingas reikšmių dažnis ir žymėti f i . Visų serijos dažnių suma lygi tirtos populiacijos elementų (stebėjimo vienetų) skaičiui.

Jei įrenginio požymio vertė yra lygi viršutinės intervalo ribos vertei, tada ji turėtų būti nurodyta kitam intervalui.

Pavyzdžiui, 100 cm ūgio vaikas pateks į 2 -ąjį, o ne į pirmąjį intervalą; o 130 cm ūgio vaikas pateks į paskutinį, o ne į trečią intervalą.

Remiantis šiais duomenimis, galima sudaryti intervalų variacijų serijas.

Kiekviena šiukšliadėžė turi apatinę ribą (x h), viršutinę ribą (x h) ir dėžės plotį ( i).

Intervalo riba yra būdinga vertė, esanti ant dviejų intervalų ribos.

vaikų ūgis (cm)	vaikų ūgis (cm)	vaikų kiekis




daugiau nei 130

Jei intervalas turi viršutinę ir apatinę ribas, jis vadinamas uždaras intervalas... Jei intervalas turi tik apatinę arba tik viršutinę ribą, tai yra - atviras intervalas. Gali būti atidarytas tik pats pirmasis arba paskutinis intervalas. Pirmiau pateiktame pavyzdyje paskutinis intervalas yra atidarytas.

Intervalas plotis (i) - skirtumas tarp viršutinės ir apatinės ribų.

i = x n - x colio

Manoma, kad atviros dėžės plotis yra toks pat kaip gretimos uždarytos dėžės plotis.

vaikų ūgis (cm)		vaikų kiekis	Intervalo plotis (i)
		vaikų kiekis	Intervalo plotis (i)



	skaičiavimams 130 + 20 = 150		20 (nes gretimo uždaro intervalo plotis yra 20)

Visos intervalų serijos yra padalintos į intervalų eilutes vienodais intervalais ir intervalų eilutes nelygiaisiais intervalais ... Intervalo eilutėse su vienodais intervalais visų intervalų plotis yra vienodas. Intervalo eilutėse su nevienodais intervalais intervalų plotis yra skirtingas.

Šiame pavyzdyje intervalų serija su nevienodais intervalais.

Matematikos statistika- matematikos skyrius, skirtas matematiniams statistinių duomenų apdorojimo, sisteminimo ir panaudojimo metodams, siekiant mokslinių ir praktinių išvadų.

3.1. PAGRINDINĖS MATEMATINĖS STATISTIKOS SĄVOKOS

Biomedicininių problemų atveju dažnai reikia ištirti tam tikro požymio pasiskirstymą labai daug asmenų. Skirtingiems asmenims šis ženklas turi skirtingą reikšmę, todėl jis yra atsitiktinis kintamasis. Pavyzdžiui, bet kurio vaistinio preparato veiksmingumas skiriasi, kai jis skiriamas skirtingiems pacientams. Tačiau norint įsivaizduoti šio vaisto veiksmingumą, jo nereikia taikyti visiems serga. Galima atsekti vaisto vartojimo rezultatus palyginti nedidelei pacientų grupei ir, remiantis gautais duomenimis, nustatyti esmines gydymo proceso ypatybes (veiksmingumą, kontraindikacijas).

Bendra populiacija- tiriamų vienalyčių elementų rinkinys, kuriam būdingas tam tikras bruožas. Ši savybė yra tęstinis atsitiktinis kintamasis su pasiskirstymo tankiu f (x).

Pavyzdžiui, jei mus domina ligos paplitimas tam tikrame regione, tai bendra populiacija yra visa regiono populiacija. Jei norime atskirai išsiaiškinti vyrų ir moterų jautrumą šiai ligai, turėtume apsvarstyti dvi bendras populiacijas.

Norint ištirti bendrosios populiacijos savybes, pasirenkami kai kurie jo elementai.

Pavyzdys- tyrimui (gydymui) atrinkta bendros populiacijos dalis.

Jei tai nesukelia painiavos, mėginys vadinamas objektų rinkinys, atrinktas egzaminui, ir agregatas

vertybes ištirtas bruožas, gautas apklausos metu. Šios vertybės gali būti pateikiamos keliais būdais.

Paprasta statistinė serija - tirtos savybės reikšmės, įrašytos tokia tvarka, kokia jos buvo gautos.

Lentelėje pateiktas paprastos statistinės serijos pavyzdys, gautas matuojant paviršiaus bangos greitį (m / s) 20 pacientų kaktos odoje. 3.1.

3.1 lentelė.Paprasta statistinė serija

Paprasta statistinė serija yra pagrindinis ir išsamiausias tyrimo rezultatų registravimo būdas. Jame gali būti šimtai elementų. Iš pirmo žvilgsnio į tokį derinį žiūrėti labai sunku. Todėl dideli mėginiai paprastai skirstomi į grupes. Tam charakteristikos keitimo sritis yra padalinta į keletą (N) intervalais vienodo pločio ir apskaičiuoti santykinius dažnius (n / n), kurie patenka į šiuos intervalus. Kiekvieno intervalo plotis yra:

Intervalai turi tokias reikšmes:

Jei tam tikras imties elementas yra riba tarp dviejų gretimų intervalų, tai vadinama kairėje intervalas. Taip sugrupuoti duomenys vadinami intervalinė statistinė serija.

- tai lentelė, kurioje rodomi atributų verčių intervalai ir į šiuos intervalus patenkantys atributo santykiniai dažniai.

Mūsų atveju galima sudaryti, pavyzdžiui, tokią intervalinę statistinę eilutę (N = 5, d= 4), skirtukas. 3.2.

3.2 lentelė.Intervalų statistikos serijos

Čia dvi reikšmės, lygios 28, priskiriamos 28-32 intervalui (3.1 lentelė), o 32-36-32, 33, 34 ir 35 reikšmėms.

Intervalų statistinės serijos gali būti rodomos grafiškai. Norėdami tai padaryti, atributų verčių intervalai nubraižomi išilgai abscisės ašies, o ant kiekvieno iš jų, kaip ir remiantis, sudaromas stačiakampis, kurio aukštis lygus santykiniam dažniui. Gauta juostinė diagrama vadinama histograma.

Ryžiai. 3.1. juostinė diagrama

Histogramoje statistiniai požymio pasiskirstymo modeliai matomi gana aiškiai.

Esant dideliam imties dydžiui (keliems tūkstančiams) ir mažam stulpelių pločiui, histogramos forma artima grafiko formai pasiskirstymo tankisženklas.

Juostų skaičių histogramoje galima pasirinkti pagal šią formulę:

Rankiniu būdu sukurti histogramą yra ilgas procesas. Todėl buvo sukurtos kompiuterinės programos, skirtos jų automatinei konstravimui.

3.2. STATISTIKOS SERIJOS SKAITMENINĖS CHARAKTERISTIKOS

Daugelis statistinių procedūrų naudoja imties įverčius, skirtus populiacijos vidurkiui ir dispersijai (arba RMS).

Pavyzdys reiškia(X) yra paprastos statistinės serijos visų elementų aritmetinis vidurkis:

Mūsų pavyzdžiui NS= 37,05 (m / s).

Imties vidurkis yrageriausiasbendras vidutinis įvertisM.

Pavyzdžio dispersija 2 lygus elementų nuokrypių nuo imties vidurkių kvadratų sumai, padalytai iš n- 1:

Mūsų pavyzdyje s 2 = 25,2 (m / s) 2.

Atkreipkite dėmesį, kad apskaičiuojant imties dispersiją, formulės vardiklis yra ne imties dydis n, o n-1. Taip yra dėl to, kad apskaičiuojant (3.3) formulės nuokrypius vietoj nežinomo matematinio lūkesčio naudojamas jo įvertis - imties vidurkis.

Pavyzdžio dispersija yra geriausias bendras dispersijos įvertis (σ 2).

Standartinio nuokrypio pavyzdys(s) yra imties dispersijos kvadratinė šaknis:

Mūsų pavyzdžiui s= 5,02 (m / s).

Atrankinis vidurkis kvadratas nuokrypis yra geriausias bendrojo standartinio nuokrypio (σ) įvertis.

Neribotai padidinus imties dydį, visos imties charakteristikos yra susijusios su atitinkamomis bendros populiacijos savybėmis.

Imties charakteristikoms apskaičiuoti naudojamos kompiuterinės formulės. „Excel“ šie skaičiavimai atlieka statistines funkcijas AVERAGE, VAR. STDEV.

3.3. TARPINIS VERTINIMAS

Visos mėginio charakteristikos yra atsitiktiniai kintamieji. Tai reiškia, kad kitam tokio paties dydžio mėginiui imties charakteristikų vertės bus skirtingos. Taigi, selektyvus

charakteristikos yra tik sąmatas atitinkančias bendros populiacijos savybes.

Imties įvertinimo trūkumus kompensuoja intervalo įvertinimas, atstovaujantis skaitinis intervalas, kurio viduje su duota tikimybe R d randama tikroji vertinamo parametro vertė.

Leisti būti U r - koks nors bendros populiacijos parametras (bendras vidurkis, bendras dispersija ir kt.).

Intervalo vertinimas parametras U r vadinamas intervalu (U 1, U 2), tenkinanti sąlygą:

P (U < Ur < U2) = Рд. (3.5)

Tikimybė R d paskambino konfidenciali tikimybė.

Pasitikėjimo tikimybė P.d - tikimybė, kad tikroji apskaičiuoto kiekio vertė yra viduje nurodytą intervalą.

Šiuo atveju intervalas (U 1, U 2) paskambino pasitikėjimo intervalas vertinamam parametrui.

Dažnai vietoj pasitikėjimo tikimybės naudojama susijusi vertė α = 1 - P d, kuri vadinama reikšmingumo lygis.

Reikšmingumo lygis yra tikimybė, kad tikroji apskaičiuoto parametro vertė yra lauke pasitikėjimo intervalas.

Kartais α ir P q išreiškiami procentais, pavyzdžiui, 5% vietoj 0,05 ir 95% vietoj 0,95.

Vertindami intervalą, pirmiausia pasirinkite tinkamą pasitikėjimo lygis(paprastai 0,95 arba 0,99), tada suraskite atitinkamą vertinamo parametro verčių diapazoną.

Atkreipkime dėmesį į keletą bendrų intervalų įvertinimų savybių.

1. Kuo žemesnis reikšmingumo lygis (tuo daugiau R e), kuo platesnis intervalo įvertis. Taigi, jei reikšmingumo lygis yra 0,05, bendrojo vidurkio intervalo įvertis yra 34,7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

2. Kuo didesnis imties dydis n, tuo siauresnis intervalo įvertinimas su pasirinktu reikšmingumo lygiu. Pavyzdžiui, 5 yra bendro vidurkio (β = 0,05), gauto iš 20 elementų imties, procentinis įvertis, tada 34,7< M< 39,4.

Padidinę imties dydį iki 80, mes gausime tikslesnį įvertinimą tuo pačiu reikšmingumo lygiu: 35.5< M< 38,6.

Apskritai, norint sukurti patikimus patikimumo įverčius, reikia žinoti įstatymą, pagal kurį apskaičiuotas atsitiktinis požymis yra paskirstytas visai populiacijai. Apsvarstykite, kaip sudaromas intervalo įvertis bendroji antrinė bruožas, kuris pasiskirsto bendroje populiacijoje pagal normalusįstatymas.

3.4. INTERVALINIS BENDRŲJŲ NORMALIO SKIRTINIMO ĮSTATYMO ĮVERTINIMAS

Bendrojo vidutinio M vidutinio intervalo įvertinimo konstravimas normaliai paskirstytoms populiacijoms yra pagrįstas šia savybe. Mėginio tūriui n požiūris

paklūsta Studento skirstiniui su laisvės laipsnių skaičiumi ν = n- 1.

Čia NS yra imties vidurkis, ir s- selektyvusis standartinis nuokrypis.

Naudojant studentų paskirstymo lenteles arba jų kompiuterinį analogą, galima rasti tokią ribinę vertę, kuri esant tam tikram pasitikėjimo lygiui yra tokia nelygybė:

Ši nelygybė atitinka M nelygybę:

kur ε yra pasitikėjimo intervalo pusė pločio.

Taigi M pasitikėjimo intervalo konstravimas atliekamas tokia seka.

1. Pasirinkite patikimumo tikimybę P d (dažniausiai 0,95 arba 0,99) ir jai pagal Studento pasiskirstymo lentelę randamas parametras t

2. Apskaičiuokite pasitikėjimo intervalo ε pusę pločio:

3. Gauti bendrojo vidurkio intervalo įvertinimą su pasirinktu patikimumo lygiu:

Trumpai parašyta taip:

Buvo sukurtos kompiuterinės procedūros intervalams įvertinti.

Paaiškinkime, kaip naudotis Mokinio paskirstymo lentele. Šioje lentelėje yra du „įėjimai“: kairysis stulpelis, vadinamas laisvės laipsnių skaičiumi ν = n- 1, o viršutinė eilutė yra reikšmingumo lygis α. Atitinkamos eilutės ir stulpelio sankirtoje raskite studento koeficientą t.

Taikykime šį metodą savo pavyzdžiui. Toliau pateikiamas studentų paskirstymo lentelės fragmentas.

3.3 lentelė. Mokinio paskirstymo lentelės fragmentas

Paprasta statistinė serija 20 žmonių imčiai (n= 20, ν = 19) pateiktas lentelėje. 3.1. Šios serijos skaičiavimai pagal formules (3.1–3.3) pateikia: NS= 37,05; s= 5,02.

Rinkimės α = 0,05 (P d = 0,95). Linijos „19“ ir „0.05“ stulpelio sankirtoje randame t= 2,09.

Įvertinimo tikslumą apskaičiuokime pagal formulę (3.6): ε = 2.09? 5.02 / λ / 20 = 2.34.

Sukurkime intervalo įvertinimą: esant 95%tikimybei, nežinomas bendras vidurkis patenkina nelygybę:

37,05 - 2,34 < M< 37,05 + 2,34, или M= 37,05 ± 2,34 (m / s), P d = 0,95.

3.5. STATISTIKOS HIPOTEZIŲ TIKRINIMO METODAI

Statistinės hipotezės

Prieš suformuluodami, kas yra statistinė hipotezė, apsvarstykite šį pavyzdį.

Norint palyginti du tam tikros ligos gydymo metodus, buvo atrinktos dvi pacientų grupės po 20 žmonių, kurių gydymas buvo atliktas pagal šiuos metodus. Buvo užfiksuotas kiekvienas pacientas procedūrų skaičius, po to buvo pasiektas teigiamas poveikis. Remiantis šiais duomenimis, kiekvienai grupei buvo rastos imties vidurkiai (X), imties dispersijos (s 2) ir imk RMS (s).

Rezultatai pateikti lentelėje. 3.4.

3.4 lentelė

Procedūrų, kurių reikia norint gauti teigiamą efektą, skaičius yra atsitiktinis kintamasis, kurio visa informacija šiuo metu yra pateiktame pavyzdyje.

Iš stalo. 3.4 rodo, kad imties vidurkis pirmoje grupėje yra mažesnis nei antrosios. Ar tai reiškia, kad tas pats santykis galioja ir bendriesiems vidurkiams: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает statistinių hipotezių tikrinimas.

Statistinė hipotezė- tai prielaida apie populiacijų savybes.

Mes apsvarstysime hipotezes apie savybes du bendros populiacijos.

Jei populiacijos turi žinomas, tas pats apskaičiuoto kiekio paskirstymas, o prielaidos susijusios su kiekiais kažkoks parametrasšio pasiskirstymo, vadinamos hipotezės parametrinis. Pavyzdžiui, mėginiai imami iš populiacijų su normali teisė pasiskirstymas ir tas pats dispersija. Jūs norite sužinoti yra tas pats bendrus šių populiacijų vidurkius.

Jei nieko nežinoma apie bendrų populiacijų pasiskirstymo dėsnius, vadinamos hipotezės apie jų savybes neparametrinis. Pavyzdžiui, yra tas pats bendrųjų populiacijų, iš kurių imami mėginiai, pasiskirstymo dėsniai.

Nulinės ir alternatyvios hipotezės.

Hipotezių tikrinimo problema. Reikšmingumo lygis

Susipažinkime su hipotezių tikrinimo terminologija.

H 0 - nulinė hipotezė (skeptiko hipotezė) - tai hipotezė nėra skirtumo tarp lyginamų mėginių. Skeptikas mano, kad skirtumai tarp imties įverčių, gautų iš tyrimų rezultatų, yra atsitiktiniai;

H 1- alternatyvi hipotezė (optimistinė hipotezė) yra hipotezė apie skirtumų tarp lyginamų mėginių buvimą. Optimistas mano, kad imties įverčių skirtumus lemia objektyvios priežastys ir jie atitinka bendrų populiacijų skirtumus.

Tikrinti statistines hipotezes galima tik tada, kai įmanoma jas sudaryti dydžio(kriterijus), kurio platinimo įstatymas teisingumo atveju H 0 garsus. Tada šiam kiekiui galima nurodyti pasitikėjimo intervalas, kurioje esant duotai tikimybei R d patenka į jo vertę. Šis intervalas vadinamas kritinė sritis. Jei kriterijaus reikšmė patenka į kritinę sritį, hipotezė priimama H 0. Priešingu atveju hipotezė H 1 yra priimtina.

Medicininiuose tyrimuose naudojamas P d = 0,95 arba P d = 0,99. Šios vertės atitinka reikšmingumo lygiaiα = 0,05 arba α = 0,01.

Tikrinant statistines hipotezesreikšmingumo lygis(α) yra tikimybė atmesti nulinę hipotezę, kai ji teisinga.

Atminkite, kad iš esmės hipotezės tikrinimo procedūra yra skirta skirtumų nustatymas, ir nepatvirtinti jų nebuvimo. Kai kriterijaus reikšmė viršija kritinę sritį, galime „skeptikui“ tyra širdimi pasakyti - na, ko dar nori?! Jei nebūtų skirtumų, tada esant 95% (arba 99%) tikimybei, apskaičiuota vertė neviršytų nurodytų ribų. Bet ne! ..

Na, jei kriterijaus reikšmė patenka į kritinį regioną, tada nėra pagrindo manyti, kad hipotezė H 0 yra teisinga. Tai greičiausiai rodo vieną iš dviejų galimų priežasčių.

1. Imties dydžiai nėra pakankamai dideli, kad būtų galima nustatyti skirtumus. Tikėtina, kad tolesni eksperimentai atneš sėkmės.

2. Yra skirtumų. Bet jie tokie maži, kad neturi jokios praktinės vertės. Šiuo atveju eksperimentų tęsimas neturi prasmės.

Pereikime prie kai kurių statistinių hipotezių, naudojamų medicininiuose tyrimuose.

3.6. DISPERSIJOS LYGYBĖS HIPOTEZIŲ TIKRINIMAS, FISCHER F-KRITERIJA

Kai kuriuose klinikiniuose tyrimuose teigiamas poveikis nėra tiek įrodytas dydžio tirto parametro, kiek jis yra stabilizavimas, jo svyravimų sumažėjimas. Šiuo atveju kyla klausimas, lyginant du bendruosius dispersijas, remiantis imties apklausos rezultatais. Šią užduotį galima išspręsti Fišerio kriterijus.

Problemos formulavimas

normali teisė paskirstymas. Mėginių dydžiai -

n 1 ir n 2, a imties dispersijos yra lygūs s 1 ir s 2 2 bendri dispersijos.

Išbandomos hipotezės:

H 0- bendri nukrypimai yra tas pats;

H 1- bendri nukrypimai yra skirtingi.

Parodyta, jei mėginiai yra paimti iš bendrų populiacijų su normali teisė pasiskirstymas, tada, jei hipotezė teisinga H 0 imties dispersijų santykis paklūsta Fišerio skirstiniui. Todėl kaip galiojimo tikrinimo kriterijus H 0 vertė paimama F, apskaičiuota pagal formulę:

kur s 1 ir s 2 yra imties dispersijos.

Šis santykis paklūsta Fišerio skirstiniui, kai skaitiklio laisvės laipsnių skaičius ν 1 = n 1- 1 ir vardiklio laisvės laipsnių skaičius ν 2 = n 2 - 1. Kritinio regiono ribos randamos pagal Fišero pasiskirstymo lenteles arba naudojant kompiuterio funkciją BRASPOBR.

Lentelėje pateiktas pavyzdys. 3.4, gauname: ν 1 = ν 2 = 20 - 1 = 19; F= 2,16 / 4,05 = 0,53. Esant α = 0,05, kritinio regiono ribos yra atitinkamai lygios: = 0,40, = 2,53.

Kriterijaus reikšmė pateko į kritinį regioną, todėl hipotezė priimta H 0: bendri mėginių nuokrypiai yra tas pats.

3.7. REIKIA LYGUMO HIPOTEZĖS PATIKRINIMAS, MOKINIO t-KRITERIJAS

Palyginimo užduotis vidurys dvi bendros populiacijos atsiranda tada, kai tai yra praktiškai svarbu dydžio tiriamo požymio. Pavyzdžiui, lyginant gydymo sąlygas su dviem skirtingais metodais arba komplikacijų, kylančių dėl jų naudojimo, skaičių. Tokiu atveju galite naudoti studento t testą.

Problemos formulavimas

Buvo gauti du mėginiai (X 1) ir (X 2), išgauti iš bendrų populiacijų su normali teisė platinimas ir tie patys dispersijos. Mėginių dydžiai - n 1 ir n 2, imties priemonės yra lygūs X 1 ir X 2, ir imties dispersijos- s 1 2 ir s 2 2 atitinkamai. Būtina lyginti tarpusavyje bendrieji vidurkiai.

Išbandomos hipotezės:

H 0- bendri vidurkiai yra tas pats;

H 1- bendri vidurkiai yra skirtingi.

Parodyta, kad hipotezės pagrįstumo atveju H 0 t reikšmė, apskaičiuojama pagal formulę:

paskirstytas pagal Studento dėsnį su laisvės laipsnių skaičiumi ν = ν 1 + + ν2 - 2.

Čia, kur ν 1 = n 1 - 1 - pirmojo mėginio laisvės laipsnių skaičius; ν 2 = n 2 - 1 yra antrojo mėginio laisvės laipsnių skaičius.

Kritinio regiono ribos randamos iš t-skirstinių lentelių arba naudojant kompiuterio funkciją TYUDRASS. Studento pasiskirstymas yra simetriškas apie nulį, todėl kairiojo ir dešiniojo kritinio regiono ribos yra vienodo dydžio ir priešingos ženklo: -ir

Lentelėje pateiktas pavyzdys. 3.4, gauname:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, t= -2,51. Kai α = 0,05 = 2,02.

Kriterijaus vertė viršija kairę kritinio regiono ribą, todėl mes priimame hipotezę H 1: bendrieji vidurkiai yra skirtingi. Be to, visų gyventojų vidurkis pirmasis pavyzdys MAŽESNIS.

Studento t testo pritaikomumas

Studento testas taikomas tik mėginiams iš normalus agregatai su tie patys bendrieji skirtumai. Jei pažeidžiama bent viena iš sąlygų, kriterijaus taikymas kelia abejonių. Į bendrą gyventojų normalumo reikalavimą paprastai nekreipiama dėmesio centrinės ribos teorema. Išties, skaitiklio (3.10) imties vidurkių skirtumas gali būti laikomas normaliai paskirstytu ν> 30. Tačiau dispersijų lygybės klausimas negali būti patikrintas, o nuorodos į tai, kad Fišerio testas neatskleidė skirtumų, negali būti atsižvelgiama į. Nepaisant to, t-testas yra plačiai naudojamas aptikti populiacijų vidutinių verčių skirtumus, nors ir be jokios priežasties.

Svarstoma žemiau neparametrinis bandymas, kuri sėkmingai naudojama tiems patiems tikslams ir kuriai to nereikia normalumas, nei dispersijų lygybė.

3.8. Dviejų mėginių nepalyginamas palyginimas: MANN-WHITNEY kriterijus

Neparametriniai testai skirti aptikti dviejų bendrų populiacijų pasiskirstymo dėsnių skirtumus. Kriterijai, jautrūs skirtumams apskritai vidutinis, vadinamas kriterijais pamaina. Kriterijai, jautrūs skirtumams apskritai dispersijos, vadinamas kriterijais skalė. Manno-Whitney kriterijus nurodo kriterijus pamaina ir yra naudojamas dviejų bendrųjų populiacijų, kurių pavyzdžiai pateikti, vidutinių verčių skirtumams nustatyti rango skalę. Išmatuotos savybės šioje skalėje yra didėjančia tvarka, tada sunumeruojamos sveikais skaičiais 1, 2 ... Šie skaičiai vadinami gretas. Vienodoms vertėms priskiriami tie patys laipsniai. Svarbu ne pačios funkcijos dydis, o tik tai eilinė vieta, kurį jis priskiria prie kitų kiekių.

Lentelė 3.5. pirmoji grupė iš 3.4 lentelės pateikiama išplėsta forma (1 eilutė), reitinguojama (2 srautas), o tada tų pačių verčių eilutės pakeičiamos aritmetinėmis vidurkio reikšmėmis. Pavyzdžiui, 4 ir 4 elementams pirmoje eilutėje buvo suteiktos 2 ir 3 eilutės, kurios vėliau pakeičiamos ta pačia verte 2.5.

3.5 lentelė

Problemos formulavimas

Nepriklausomi mėginiai (X 1) ir (X 2) išgaunamas iš populiacijų, kurių pasiskirstymo įstatymai nežinomi. Mėginių dydžiai n 1 ir n 2 atitinkamai. Pavyzdinės elemento vertės pateikiamos rango skalę. Ar norite patikrinti, ar šios populiacijos skiriasi viena nuo kitos?

Išbandomos hipotezės:

H 0- mėginiai priklauso tai pačiai bendrai populiacijai; H 1- mėginiai priklauso skirtingoms bendroms populiacijoms.

Norėdami patikrinti tokias hipotezes, atlikite (/ -mann -Whitney testą.

Pirma, iš dviejų pavyzdžių sudaromas jungtinis mėginys (X), kurio elementai reitinguojami. Tada randama pirmojo mėginio elementus atitinkančių rangų suma. Ši suma yra hipotezių tikrinimo kriterijus.

U= Pirmojo mėginio reitingų suma. (3.11)

Nepriklausomų mėginių, kurių tūris didesnis nei 20, vertė U paklūsta normaliam pasiskirstymui, kurio matematiniai lūkesčiai ir standartinis nuokrypis yra lygūs:

Todėl kritinio ploto ribos randamos normaliojo pasiskirstymo lentelėse.

Lentelėje pateiktas pavyzdys. 3.4, gauname: ν 1 = ν 2 = 20 - 1 = 19, U= 339, μ = 410, σ = 37. Jei α = 0,05, gauname: ir liūtas = 338, ir dešinysis = 482.

Kriterijaus vertė viršija kairę kritinio regiono ribą, todėl hipotezė H 1 yra priimtina: bendros populiacijos turi skirtingus pasiskirstymo dėsnius. Be to, visų gyventojų vidurkis pirmasis pavyzdys MAŽESNIS.

Svarbiausias socialinių ir ekonominių reiškinių ir procesų tyrimo etapas yra pirminių duomenų susisteminimas ir, remiantis tuo, apibendrinant viso objekto charakteristikų gavimas naudojant apibendrinančius rodiklius, kuris pasiekiamas apibendrinant ir grupuojant pirminę statistinę medžiagą.

Statistinė suvestinė yra nuoseklių operacijų kompleksas, skirtas apibendrinti konkrečius atskirus faktus, kurie sudaro rinkinį, nustatyti tipinius bruožus ir modelius, būdingus visam tiriamam reiškiniui. Statistinės suvestinės sudarymas apima šiuos veiksmus :

grupavimo atributo pasirinkimas;
grupių formavimo tvarkos nustatymas;
grupių ir viso objekto charakterizavimo statistinių rodiklių sistemos sukūrimas;
statistinių lentelių maketų, skirtų suvestiniams rezultatams pateikti, kūrimas.

Statistinis grupavimas vadinamas tirtos populiacijos vienetų suskirstymu į vienalytes grupes pagal tam tikrus jiems būdingus požymius. Grupavimas yra svarbiausias statistinis duomenų apibendrinimo metodas, teisingo statistinių rodiklių apskaičiavimo pagrindas.

Yra šie grupavimo tipai: tipologinis, struktūrinis, analitinis. Visas šias grupes vienija tai, kad objekto vienetai pagal tam tikrą kriterijų yra suskirstyti į grupes.

Grupavimo ženklas vadinamas atributu, pagal kurį atliekamas gyventojų vienetų skirstymas į atskiras grupes. Statistinio tyrimo išvados priklauso nuo teisingo grupavimo požymio pasirinkimo. Kaip grupavimo pagrindas būtina naudoti esminius, teoriškai pagrįstus požymius (kiekybinius ar kokybinius).

Kiekybiniai grupavimo požymiai turėti skaitinę išraišką (prekybos apimtis, asmens amžius, šeimos pajamos ir kt.), ir kokybiniai grupavimo požymiai atspindėti bendro vieneto būklę (lytis, šeiminė padėtis, įmonės priklausomybė pramonei, jos nuosavybės forma ir kt.).

Nustačius grupavimo pagrindą, turėtų būti sprendžiamas klausimas, kiek grupių reikia suskirstyti tirtą populiaciją. Grupių skaičius priklauso nuo tyrimo tikslų ir grupavimo pagrindinio rodiklio tipo, gyventojų skaičiaus, požymio kitimo laipsnio.

Pavyzdžiui, grupuojant įmones pagal nuosavybės tipą atsižvelgiama į savivaldybių, federalines ir federacijos subjektų nuosavybę. Jei grupavimas atliekamas kiekybiniu pagrindu, tuomet būtina atkreipti ypatingą dėmesį į tiriamo objekto vienetų skaičių ir grupavimo požymio kintamumo laipsnį.

Nustačius grupių skaičių, reikia nustatyti grupavimo intervalus. Intervalas - tai kintamos savybės vertės, esančios tam tikrose ribose. Kiekvienas intervalas turi savo vertę, viršutinę ir apatinę ribas arba bent vieną iš jų.

Apatinė intervalo riba vadinama mažiausia objekto reikšme intervale, ir viršutinė riba - didžiausia objekto vertė intervale. Intervalo vertė yra skirtumas tarp viršutinės ir apatinės ribų.

Grupavimo intervalai, priklausomai nuo jų dydžio, yra: lygūs ir nevienodi. Jei bruožo kitimas pasireiškia santykinai siauromis ribomis ir pasiskirstymas yra vienodas, tada grupavimas sudaromas vienodais intervalais. Vienodo intervalo vertė nustatoma pagal šią formulę :

kur Xmax, Xmin yra didžiausios ir mažiausios atributo vertės visumoje; n yra grupių skaičius.

Paprasčiausias grupavimas, kuriame kiekviena pasirinkta grupė apibūdinama vienu rodikliu, yra pasiskirstymo serija.

Statistinio pasiskirstymo serija - Tai yra užsakytas gyventojų vienetų paskirstymas į grupes pagal tam tikrą charakteristiką. Priklausomai nuo savybių, kuriomis grindžiamas pasiskirstymo serijos formavimas, išskiriamos atributinės ir variacinės pasiskirstymo serijos.

Atributinis paskambinkite paskirstymo serijoms, sukurtoms pagal kokybines charakteristikas, tai yra charakteristikas, kurios neturi skaitinės išraiškos (pasiskirstymas pagal darbo rūšį, pagal lytį, pagal profesiją ir kt.). Atributinės pasiskirstymo serijos apibūdina populiacijos sudėtį pagal vienus ar kitus esminius požymius. Remiantis keliais laikotarpiais, šie duomenys leidžia ištirti struktūros pokyčius.

Variacijų serija vadinamos paskirstymo serijomis, sudarytomis kiekybiniu pagrindu. Bet kurią variantų seriją sudaro du elementai: parinktys ir dažniai. Variantai vadinamos atskiros atributo vertės, kurias jis imasi variacijų serijoje, tai yra konkreti kintančio atributo reikšmė.

Dažnis vadinamas atskirų variantų skaičius arba kiekviena variantų serijos grupė, tai yra, tai skaičiai, rodantys, kaip dažnai tam tikros parinktys randamos paskirstymo serijoje. Visų dažnių suma lemia visos populiacijos dydį, jos apimtį. Dažnis vadinami dažniais, išreikšti vieneto dalimis arba procentais nuo viso. Atitinkamai, dažnių suma yra 1 arba 100%.

Atsižvelgiant į bruožo kitimo pobūdį, išskiriamos trys variacijų serijų formos: reitinguojamos serijos, atskiros serijos ir intervalinės serijos.

Įvertinta variacijų serija - Tai yra atskirų populiacijos vienetų pasiskirstymas tiriamo požymio didėjimo arba mažėjimo tvarka. Reitingas leidžia lengvai suskirstyti kiekybinius duomenis į grupes, iš karto rasti mažiausią ir didžiausią objekto vertę, paryškinti dažniausiai pasikartojančias vertes.

Diskrečių variantų serija apibūdina populiacijos vienetų pasiskirstymą pagal atskirą ypatybę, kuri ima tik sveiko skaičiaus reikšmes. Pavyzdžiui, darbo užmokesčio kategorija, vaikų skaičius šeimoje, darbuotojų skaičius įmonėje ir kt.

Jei funkcija nuolat keičiasi, o tam tikrose ribose ji gali įgauti bet kokias vertes („nuo - iki“), tuomet šią funkciją turite sukurti intervalų kitimo serija ... Pavyzdžiui, pajamų dydis, darbo patirtis, įmonės ilgalaikio turto kaina ir kt.

Problemų sprendimo tema „Statistinė suvestinė ir grupavimas“ pavyzdžiai

1 problema ... Yra informacijos apie tai, kiek knygų mokiniai gavo abonementu per pastaruosius mokslo metus.

Sukurkite reitinguojamą ir atskirą variacijos skirstinio seriją, nurodydami serijos elementus.

Sprendimas

Šis rinkinys reiškia daugybę studentų gaunamų knygų skaičiaus variantų. Suskaičiuokime tokių variantų skaičių ir išdėstykime juos kintamųjų diapazonų ir kintamųjų diskrečiųjų paskirstymo eilučių pavidalu.

2 užduotis ... Yra duomenų apie ilgalaikio turto kainą 50 įmonių, tūkstančius rublių.

Sukurkite paskirstymų seriją, pabrėždami 5 įmonių grupes (vienodais intervalais).

Sprendimas

Sprendimui parinksime didžiausias ir mažiausias įmonių ilgalaikio turto savikainos vertes. Tai yra 30,0 ir 10,2 tūkstančių rublių.

Raskime intervalo dydį: h = (30,0-10,2): 5 = 3,96 tūkst.

Tada pirmajai grupei priklausys įmonės, kurių ilgalaikis turtas svyruoja nuo 10,2 tūkst. iki 10,2 + 3,96 = 14,16 tūkstančio rublių. Tokių įmonių bus 9. Antrajai grupei priklausys įmonės, kurių ilgalaikio turto dydis bus nuo 14,16 tūkst. iki 14,16 + 3,96 = 18,12 tūkstančių rublių. Tokių įmonių bus 16. Panašiai rasime įmonių, įtrauktų į trečiąją, ketvirtąją ir penktąją grupes, skaičių.

Gautos paskirstymo serijos pateikiamos lentelėje.

3 problema ... Buvo gauti šie kelių lengvosios pramonės įmonių duomenys:

Grupuokite įmones pagal darbuotojų skaičių, sudarydami 6 grupes vienodais intervalais. Skaičiuokite kiekvienai grupei:

1. įmonių skaičius
2. darbuotojų skaičius
3. per metus pagamintų produktų kiekis
4. vidutinė faktinė vieno darbuotojo produkcija
5. ilgalaikio turto apimtis
6. vidutinis vienos įmonės ilgalaikio turto dydis
7. vidutinė vienos įmonės pagamintų produktų vertė

Užpildykite skaičiavimo rezultatus lentelėse. Daryti išvadas.

Sprendimas

Sprendimui pasirinksime didžiausias ir mažiausias vidutinio darbuotojų skaičiaus įmonėje vertes. Tai yra 43 ir 256.

Raskite intervalo dydį: h = (256-43): 6 = 35,5

Tada pirmajai grupei priklausys įmonės, kurių vidutinis darbuotojų skaičius yra nuo 43 iki 43 + 35,5 = 78,5 žmonės. Tokių įmonių bus 5. Antrajai grupei priklausys įmonės, kurių vidutinis darbuotojų skaičius bus nuo 78,5 iki 78,5 + 35,5 = 114 žmonių. Tokių įmonių bus 12. Panašiai rasime įmonių, įtrauktų į trečiąją, ketvirtąją, penktąją ir šeštąją grupes, skaičių.

Gautas paskirstymo serijas sudedame į lentelę ir apskaičiuojame kiekvienai grupei būtinus rodiklius:

Išvestis : Kaip matyti iš lentelės, antroji įmonių grupė yra gausiausia. Jį sudaro 12 įmonių. Mažiausia yra penktoji ir šeštoji grupės (po dvi įmones). Tai yra didžiausios įmonės (pagal darbuotojų skaičių).

Kadangi antroji grupė yra gausiausia, šios grupės įmonių per metus pagamintos produkcijos apimtis ir ilgalaikio turto apimtis yra gerokai didesnės nei kitų. Tuo pačiu metu vidutinė faktinė vieno darbuotojo produkcija šios grupės įmonėse nėra didžiausia. Čia pirmauja ketvirtosios grupės įmonės. Šiai grupei taip pat priklauso gana didelis ilgalaikio turto kiekis.

Pabaigoje pažymime, kad vidutinis ilgalaikio turto dydis ir vidutinė vienos įmonės produkcijos vertė yra tiesiogiai proporcingi įmonės dydžiui (pagal darbuotojų skaičių).

Laboratorinis darbas Nr

Pagal matematinę statistiką

Tema: Pirminis eksperimentinių duomenų apdorojimas

3. Įvertinkite taškais. 1

5. Kontroliniai klausimai .. 2

6. Laboratorinio darbo atlikimo technika .. 3

darbo tikslas

Pirminio empirinių duomenų apdorojimo įgūdžių įgijimas matematinės statistikos metodais.

Remdamiesi eksperimentinių duomenų visuma, atlikite šias užduotis:

1 pratimas. Sukurkite skirstinio intervalų kitimo seriją.

2 užduotis. Sukurkite intervalų kitimo serijos dažnių histogramą.

3 užduotis. Sudarykite empirinio paskirstymo funkciją ir sudarykite grafiką.

a) mada ir mediana;

b) sąlyginiai pradiniai momentai;

c) imties vidurkis;

d) imties dispersija, pataisyta bendrosios populiacijos dispersija, pataisytas standartinis nuokrypis;

e) variacijos koeficientas;

f) asimetrija;

g) perteklius;

5 užduotis. Tam tikru patikimumu nustatykite tiriamų atsitiktinių dydžių skaitinių charakteristikų tikrųjų verčių ribas.

6 užduotis. Esminis pirminio apdorojimo rezultatų aiškinimas atsižvelgiant į problemos būklę.

Taškai balais

Užduotys 1-5 – 6 taškai

6 užduotis – 2 taškai

Apsaugoti laboratorinius darbus(žodinis interviu apie kontrolinius klausimus ir laboratorinius darbus) - 2 taškai

Darbas turi būti pateiktas raštu ant A4 formato lapų ir apima:

1) Titulinis puslapis (1 priedas)

2) Pradiniai duomenys.

3) Darbo pateikimas pagal nurodytą pavyzdį.

4) Skaičiavimo rezultatai (atliekami rankiniu būdu ir (arba) naudojant MS Excel) nurodyta tvarka.

5) Išvados - prasmingas pirminio apdorojimo rezultatų aiškinimas pagal problemos būklę.

6) Žodinis pokalbis darbo ir testo klausimais.

5. Kontroliniai klausimai

Laboratorinio darbo technika

Užduotis 1. Sukurkite intervalo variacijos pasiskirstymo seriją

Norint, kad statistiniai duomenys būtų pateikiami kintamųjų serijų pavidalu su vienodai išdėstytomis parinktimis, būtina:

1. Raskite mažiausias ir didžiausias vertes pradinėje duomenų lentelėje.

2. Apibrėžkite variacijos diapazonas :

3. Nustatykite intervalo h ilgį, jei mėginyje yra iki 1000 duomenų, naudokite formulę: , kur n yra imties dydis - imties duomenų kiekis; lgn naudojamas skaičiavimams).

Apskaičiuotas santykis suapvalinamas iki patogi sveikojo skaičiaus vertė .

4. Pirmojo intervalo pradžią nustatykite lyginiam intervalų skaičiui. Rekomenduojama paimti vertę; ir nelyginis intervalas.

5. Užsirašykite grupavimo intervalus ir išdėstykite juos didėjančia ribų tvarka

, ,………., ,

kur yra apatinė pirmojo intervalo riba. Paimamas patogus skaičius, ne daugiau, paskutinio intervalo viršutinė riba turi būti ne mažesnė. Rekomenduojama, kad intervaluose būtų pradinės atsitiktinio kintamojo vertės ir jos būtų atskirtos nuo Nuo 5 iki 20 intervalais.

6. Įrašykite pradinius duomenis į grupių intervalus, t. pagal pradinę lentelę apskaičiuokite atsitiktinio kintamojo verčių, patenkančių į nurodytus intervalus, skaičių. Jei kai kurios vertės sutampa su intervalų ribomis, tada jie nurodomi arba tik į ankstesnį, arba tik į vėlesnį intervalą.

1 pastaba. Intervalai neturi būti vienodo ilgio. Srityse, kur vertės yra tankesnės, patogiau daryti mažesnius, trumpus intervalus, o kur rečiau - didesnius.

2 pastaba.Jei kai kurioms vertėms gaunama „nulis“ arba mažos dažnių reikšmės, tuomet būtina duomenis pergrupuoti, didinant intervalus (didinant žingsnį).

Statistinė suvestinė ir grupavimas. Statistinio pasiskirstymo serija. Problemų sprendimo pavyzdžiai. Duomenų grupavimas ir paskirstymo serijos brėžimas

3.3.1. Diskrečių variacijų serijų konstravimas

3.3.2. Intervalų kitimo serijų konstravimas

Intervalų variacijų serijos kūrimas

Problemų sprendimo tema „Statistinė suvestinė ir grupavimas“ pavyzdžiai