Statistische Zusammenfassung und Gruppierung. Statistische Verteilungsreihen. Beispiele für die Problemlösung. Gruppieren von Daten und Zeichnen einer Verteilungsreihe

Die Gruppierungsergebnisse der gesammelten Statistiken werden normalerweise als Verteilungsreihen dargestellt. Eine Verteilungsreihe ist eine geordnete Verteilung von Bevölkerungseinheiten in Gruppen gemäß dem untersuchten Merkmal.

Verteilungsreihen werden abhängig von dem der Gruppierung zugrunde liegenden Merkmal in attributive und variative unterteilt. Wenn das Merkmal qualitativ ist, wird die Verteilungsreihe als attributiv bezeichnet. Ein Beispiel für eine Attributivserie ist die Verteilung von Unternehmen und Organisationen nach Eigentumsformen (siehe Tabelle 3.1).

Wenn das Attribut, auf dem die Verteilungsreihe basiert, quantitativ ist, wird die Reihe als Variation bezeichnet.

Die Variationsreihe einer Verteilung besteht immer aus zwei Teilen: einer Variante und den entsprechenden Frequenzen (oder Frequenzen). Die Variante ist der Wert, den ein Merkmal in Populationseinheiten annehmen kann. Die Häufigkeit ist die Anzahl der Beobachtungseinheiten, die einen bestimmten Merkmalswert haben. Die Summe der Frequenzen entspricht immer dem Bevölkerungsvolumen. Manchmal werden anstelle von Frequenzen Frequenzen berechnet - dies sind Frequenzen, die entweder in Bruchteilen von eins (dann ist die Summe aller Frequenzen 1) oder als Prozentsatz des Gesamtvolumens (die Summe der Frequenzen entspricht 100%) ausgedrückt werden. .

Variationsreihen sind diskret und Intervall. Bei diskreten Reihen (Tabelle 3.7) werden die Optionen durch bestimmte Zahlen ausgedrückt, meistens ganze Zahlen.

Tabelle 3.8. Verteilung der Mitarbeiter nach Arbeitszeit in einer Versicherungsgesellschaft
Arbeitszeit im Unternehmen, volle Jahre (Optionen) Anzahl der Angestellten
Mensch (Frequenz) in% zur Gesamtzahl (Häufigkeit)
bis zu einem Jahr 15 11,6
1 17 13,2
2 19 14,7
3 26 20,2
4 10 7,8
5 18 13,9
6 24 18,6
Gesamt 129 100,0

In Intervallreihen (siehe Tabelle 3.2) werden die Werte des Indikators als Intervalle festgelegt. Intervalle haben zwei Grenzen: untere und obere. Die Intervalle können offen und geschlossen sein. Die offenen haben keine der Grenzen, also in der Tabelle. 3.2 Das erste Intervall hat keinen unteren Rand und das letzte hat keinen oberen. Bei der Erstellung einer Intervallreihe werden abhängig von der Art der Streuung der Attributwerte sowohl gleiche Intervallintervalle als auch ungleiche Intervalle verwendet (Tabelle 3.2 zeigt eine Variationsreihe mit gleichen Intervallen).

Wenn das Merkmal eine begrenzte Anzahl von Werten annimmt, normalerweise nicht mehr als 10, werden diskrete Verteilungsreihen erstellt. Wenn die Variante größer ist, verliert die diskrete Reihe ihre Klarheit; In diesem Fall ist es ratsam, die Intervallform der Variationsreihe zu verwenden. Bei kontinuierlicher Variation des Merkmals wird auch eine Intervallverteilungsreihe erstellt, wenn sich seine Werte innerhalb bestimmter Grenzen um einen beliebig kleinen Betrag voneinander unterscheiden.

3.3.1. Konstruktion diskreter Variationsreihen

Betrachten wir die Methode zur Konstruktion diskreter Variationsreihen anhand eines Beispiels.

Beispiel 3.2. Zur quantitativen Zusammensetzung von 60 Familien liegen folgende Daten vor:

Um eine Vorstellung von der Verteilung der Familien nach Anzahl ihrer Mitglieder zu bekommen, sollte eine Variationsreihe erstellt werden. Da das Feature eine begrenzte Anzahl von ganzzahligen Werten annimmt, konstruieren wir eine diskrete Variationsreihe. Zu diesem Zweck wird zunächst empfohlen, alle Werte des Merkmals (die Anzahl der Mitglieder in der Familie) in aufsteigender Reihenfolge aufzuschreiben (d. H. Die statistischen Daten zu ordnen):

Dann ist es notwendig, die Anzahl der Familien mit der gleichen Zusammensetzung zu zählen. Die Anzahl der Familienmitglieder (der Wert des variablen Merkmals) sind Optionen (wir werden sie mit x bezeichnen), die Anzahl der Familien mit derselben Zusammensetzung ist die Häufigkeit (wir werden sie mit f bezeichnen). Die Gruppierungsergebnisse werden in Form der folgenden diskreten Variationsverteilungsreihen dargestellt:

Tabelle 3.11.
Anzahl der Familienmitglieder (x) Anzahl der Familien (y)
1 8
2 14
3 20
4 9
5 5
6 4
Gesamt 60

3.3.2. Konstruktion von Intervallvariationsreihen

Lassen Sie uns anhand des folgenden Beispiels eine Technik zum Erstellen von Intezeigen.

Beispiel 3.3. Als Ergebnis statistischer Beobachtungen wurden folgende Daten zum durchschnittlichen Zinssatz von 50 Geschäftsbanken (%) erhalten:

Tabelle 3.12.
14,7 19,0 24,5 20,8 12,3 24,6 17,0 14,2 19,7 18,8
18,1 20,5 21,0 20,7 20,4 14,7 25,1 22,7 19,0 19,6
19,0 18,9 17,4 20,0 13,8 25,6 13,0 19,0 18,7 21,1
13,3 20,7 15,2 19,9 21,9 16,0 16,9 15,3 21,4 20,4
12,8 20,8 14,3 18,0 15,1 23,8 18,5 14,4 14,4 21,0

Wie Sie sehen können, ist es äußerst unpraktisch, ein solches Datenarray anzuzeigen. Außerdem gibt es kein sichtbares Muster für Änderungen im Indikator. Lassen Sie uns eine Intervallverteilungsreihe konstruieren.

  1. Definieren wir die Anzahl der Intervalle.

    In der Praxis wird die Anzahl der Intervalle häufig vom Forscher selbst festgelegt, basierend auf den Aufgaben jeder spezifischen Beobachtung. Gleichzeitig kann es auch mathematisch mit der Sturgess-Formel berechnet werden

    n \u003d 1 + 3,322 lgN,

    wobei n die Anzahl der Intervalle ist;

    N ist das Bevölkerungsvolumen (die Anzahl der Beobachtungseinheiten).

    Für unser Beispiel erhalten wir: n \u003d 1 + 3,322 lgN \u003d 1 + 3,322 lg50 \u003d 6,6 "7.

  2. Bestimmen wir die Größe der Intervalle (i) durch die Formel

    dabei ist x max der Maximalwert des Features.

    x min ist der Mindestwert der Funktion.

    Für unser Beispiel

    Die Intervalle der Variationsreihen sind klar, wenn ihre Grenzen "runde" Werte haben. Daher runden wir den Wert des Intervalls 1,9 bis 2 und den Mindestwert des Merkmals 12,3 bis 12,0.

  3. Definieren wir die Grenzen der Intervalle.

    Intervalle werden normalerweise so aufgezeichnet, dass die Obergrenze eines Intervalls gleichzeitig die Untergrenze des nächsten Intervalls ist. Für unser Beispiel erhalten wir also: 12.0-14.0; 14,0-16,0; 16,0-18,0; 18,0-20,0; 20,0-22,0; 22,0-24,0; 24.0-26.0.

    Eine solche Aufzeichnung bedeutet, dass das Merkmal kontinuierlich ist. Wenn die Varianten eines Features streng definierte Werte annehmen, z. B. nur Ganzzahlen, deren Anzahl jedoch zu groß ist, um eine diskrete Reihe zu erstellen, kann eine Intervallreihe erstellt werden, bei der die untere Grenze des Intervalls nicht mit der oberen Grenze übereinstimmt des nächsten Intervalls (dies bedeutet, dass das Merkmal diskret ist). Beispielsweise können Sie bei der Verteilung der Mitarbeiter eines Unternehmens nach Alter die folgenden Intervallgruppen von Jahren erstellen: 18-25, 26-33, 34-41, 42-49, 50-57, 58-65, 66 und Mehr.

    In unserem Beispiel könnten wir auch das erste und das letzte Intervall öffnen usw. schreiben: bis zu 14.0; 24,0 und höher.

  4. Basierend auf den anfänglichen Daten werden wir eine Fernkampfserie konstruieren. Schreiben Sie dazu die Werte, die das Attribut annimmt, in aufsteigender Reihenfolge. Die Ergebnisse sind in der Tabelle dargestellt: Tabelle 3.13. Rangfolge der Zinssätze von Geschäftsbanken
    Bankzinssatz% (Optionen)
    12,3 17,0 19,9 23,8
    12,8 17,4 20,0 24,5
    13,0 18,0 20,0 24,6
    13,3 18,1 20,4 25,1
    13,8 18,5 20,4 25,6
    14,2 18,7 20,5
    14,3 18,8 20,7
    14,4 18,9 20,7
    14,7 19,0 20,8
    14,7 19,0 21,0
    15,1 19,0 21,0
    15,2 19,0 21,1
    15,3 19,0 21,4
    16,0 19,6 21,9
    16,9 19,7 22,7
  5. Zählen wir die Frequenzen.

    Bei der Berechnung von Frequenzen kann es vorkommen, dass der Wert eines Features an den Rand eines Intervalls fällt. In diesem Fall können Sie sich an der Regel orientieren: Diese Einheit ist dem Intervall zugeordnet, für das ihr Wert die Obergrenze ist. Der Wert 16.0 in unserem Beispiel bezieht sich also auf das zweite Intervall.

Die in unserem Beispiel erhaltenen Gruppierungsergebnisse werden in der Tabelle dargestellt.

Tabelle 3.14. Verteilung der Geschäftsbanken nach Kreditzinsen
Kurze Rate,% Anzahl der Banken, Einheiten (Frequenz) Akkumulierte Frequenzen
12,0-14,0 5 5
14,0-16,0 9 14
16,0-18,0 4 18
18,0-20,0 15 33
20,0-22,0 11 44
22,0-24,0 2 46
24,0-26,0 4 50
Gesamt 50 -

Die letzte Spalte der Tabelle zeigt die akkumulierten Frequenzen, die durch sequentielles Summieren der Frequenzen beginnend mit dem ersten erhalten werden (zum Beispiel für das erste Intervall - 5, für das zweite Intervall 5 + 9 \u003d 14, für das dritte Intervall 5 + 9 + 4 \u003d 18 usw.). Die kumulative Häufigkeit von beispielsweise 33 zeigt, dass 33 Banken einen Kreditzins von höchstens 20% haben (die Obergrenze des entsprechenden Intervalls).

Beim Gruppieren von Daten beim Erstellen von Variationsreihen werden manchmal ungleiche Intervalle verwendet. Dies gilt für Fälle, in denen die Werte eines Merkmals der Regel der arithmetischen oder geometrischen Progression entsprechen oder wenn die Anwendung der Sturgess-Formel zum Auftreten "leerer" Intervallgruppen führt, die keine einzige Beobachtungseinheit enthalten. Dann werden die Grenzen der Intervalle vom Forscher selbst willkürlich festgelegt, basierend auf dem gesunden Menschenverstand und den Zielen der Umfrage oder durch Formeln. Für Daten, die sich im arithmetischen Verlauf ändern, wird die Größe der Intervalle wie folgt berechnet.

Eine diskrete Variationsreihe wird für diskrete Merkmale konstruiert.

Um eine diskrete Variationsreihe zu erstellen, müssen Sie die folgenden Schritte ausführen: 1) Ordnen Sie die Beobachtungseinheiten in aufsteigender Reihenfolge des untersuchten Werts des Merkmals an.

2) Bestimmen Sie alle möglichen Werte des Attributs x i, ordnen Sie sie in aufsteigender Reihenfolge an.

der Wert der Funktion, ich .

charakteristische Wertfrequenz und bezeichnen f ich . Die Summe aller Frequenzen der Reihe entspricht der Anzahl der Elemente in der untersuchten Population.

Beispiel 1 .

Liste der Noten, die Studenten bei Prüfungen erhalten haben: 3; vier; 3; fünf; vier; 2; 2; vier; vier; 3; fünf; 2; vier; fünf; vier; 3; vier; 3; 3; vier; vier; 2; 2; fünf; fünf; vier; fünf; 2; 3; vier; vier; 3; vier; fünf; 2; fünf; fünf; vier; 3; 3; vier; 2; vier; vier; fünf; vier; 3; fünf; 3; fünf; vier; vier; fünf; vier; vier; fünf; vier; fünf; fünf; fünf.

Hier die Nummer X. - Bewertungist eine diskrete Zufallsvariable, und die resultierende Liste von Schätzungen iststatistische (beobachtete) Daten .

    um die Beobachtungseinheiten in aufsteigender Reihenfolge des untersuchten Wertes des Merkmals zu ordnen:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) Bestimmen Sie alle möglichen Werte des Attributs x i und ordnen Sie sie in aufsteigender Reihenfolge an:

In diesem Beispiel können alle Noten in vier Gruppen mit den folgenden Werten unterteilt werden: 2; 3; vier; fünf.

Der Wert einer Zufallsvariablen, die einer separaten Gruppe beobachteter Daten entspricht, wird aufgerufen der Wert der Funktion, variante (Variante) und bezeichnen x ich .

Die Zahl, die angibt, wie oft der entsprechende Wert des Attributs in einer Reihe von Beobachtungen vorkommt, wird aufgerufen charakteristische Wertfrequenz und bezeichnen f ich .

Für unser Beispiel

punktzahl 2 kommt vor - 8 mal,

punktzahl 3 kommt vor - 12 mal,

punktzahl 4 kommt vor - 23 mal,

punktzahl 5 kommt vor - 17 Mal.

Insgesamt 60 Schätzungen.

4) Schreiben Sie die empfangenen Daten in eine Tabelle mit zwei Zeilen (Spalten) - x i und f i.

Basierend auf diesen Daten ist es möglich, eine diskrete Variationsreihe zu konstruieren

Diskrete Variationsreihen - Dies ist eine Tabelle, in der die angetroffenen Werte des untersuchten Merkmals als separate Werte in aufsteigender Reihenfolge und deren Häufigkeit angegeben sind

  1. Erstellen einer Intervallvariationsserie

Zusätzlich zu den diskreten Variationsreihen gibt es häufig eine solche Möglichkeit, Daten als Intervallvariationsreihen zu gruppieren.

Die Intervallreihe wird erstellt, wenn:

    das Zeichen hat einen kontinuierlichen Charakter der Veränderung;

    es gibt viele diskrete Werte (mehr als 10)

    die Frequenzen diskreter Werte sind sehr klein (überschreiten Sie 1-3 bei einer relativ großen Anzahl von Beobachtungseinheiten nicht).

    viele diskrete Werte eines Merkmals mit denselben Frequenzen.

Eine Intervallvariationsreihe ist eine Methode zum Gruppieren von Daten in Form einer Tabelle mit zwei Spalten (Attributwerte in Form eines Wertintervalls und der Häufigkeit jedes Intervalls).

Im Gegensatz zur diskreten Reihe werden die Werte der Charakteristik der Intervallreihe nicht durch separate Werte dargestellt, sondern durch das Intervall von Werten ("von - bis").

Die Zahl, die angibt, wie viele Beobachtungseinheiten in jedes ausgewählte Intervall gefallen sind, wird aufgerufen charakteristische Wertfrequenz und bezeichnen f ich . Die Summe aller Frequenzen der Reihe entspricht der Anzahl der Elemente (Beobachtungseinheiten) in der untersuchten Population.

Wenn die Einheit einen Merkmalswert hat, der dem Wert der oberen Grenze des Intervalls entspricht, sollte auf das nächste Intervall verwiesen werden.

Zum Beispiel fällt ein Kind mit einer Größe von 100 cm in das 2. Intervall, nicht in das erste; und ein Kind mit einer Größe von 130 cm fällt in das letzte Intervall, nicht in das dritte.

Basierend auf diesen Daten ist es möglich, eine Intervallvariationsreihe zu erstellen.

Jeder Behälter hat eine Untergrenze (x h), eine Obergrenze (x h) und eine Behälterbreite (x). ich).

Eine Intervallgrenze ist ein charakteristischer Wert, der an der Grenze zweier Intervalle liegt.

größe der Kinder (cm)

größe der Kinder (cm)

anzahl der Kinder

über 130

Wenn das Intervall einen oberen und einen unteren Rand hat, wird es aufgerufen geschlossenes Intervall... Wenn das Intervall nur eine untere oder nur eine obere Grenze hat, dann ist es - offenes Intervall.Es kann nur das allererste oder das letzte Intervall geöffnet werden. Im obigen Beispiel ist das letzte Intervall offen.

Intervallbreite (ich) - der Unterschied zwischen der oberen und unteren Grenze.

ich \u003d x n - x in

Es wird angenommen, dass die Breite des offenen Behälters der Breite des benachbarten geschlossenen Behälters entspricht.

größe der Kinder (cm)

anzahl der Kinder

Intervallbreite (i)

für Berechnungen 130 + 20 \u003d 150

20 (weil die Breite des benachbarten geschlossenen Intervalls 20 beträgt)

Alle Intervallreihen werden in Intervallreihen in gleichen Intervallen und Intervallreihen in ungleichen Intervallen unterteilt ... In Intervallzeilen mit gleichen Intervallen ist die Breite aller Intervalle gleich. In Intervallzeilen mit ungleichen Intervallen ist die Breite der Intervalle unterschiedlich.

In diesem Beispiel eine Intervallreihe mit ungleichen Intervallen.

Mathematische Statistik- ein Abschnitt der Mathematik, der sich mit mathematischen Methoden zur Verarbeitung, Systematisierung und Verwendung statistischer Daten für wissenschaftliche und praktische Schlussfolgerungen befasst.

3.1. GRUNDKONZEPTE DER MATHEMATISCHEN STATISTIK

Bei biomedizinischen Problemen ist es häufig erforderlich, die Verteilung eines bestimmten Merkmals für eine sehr große Anzahl von Personen zu untersuchen. Bei verschiedenen Personen hat dieses Zeichen eine unterschiedliche Bedeutung, daher ist es eine Zufallsvariable. Beispielsweise hat jedes Arzneimittel eine unterschiedliche Wirksamkeit, wenn es bei verschiedenen Patienten angewendet wird. Um sich ein Bild von der Wirksamkeit dieses Arzneimittels zu machen, ist es jedoch nicht erforderlich, es anzuwenden an allekrank. Es ist möglich, die Ergebnisse der Verwendung des Arzneimittels auf eine relativ kleine Gruppe von Patienten zurückzuführen und auf der Grundlage der erhaltenen Daten wesentliche Merkmale (Wirksamkeit, Kontraindikationen) des Behandlungsprozesses zu identifizieren.

Durchschnittsbevölkerung- eine Reihe von zu untersuchenden homogenen Elementen, die durch einige Merkmale gekennzeichnet sind. Diese Funktion ist kontinuierlicheine Zufallsvariable mit einer Verteilungsdichte f (x).

Wenn wir beispielsweise an der Prävalenz einer Krankheit in einer bestimmten Region interessiert sind, ist die allgemeine Bevölkerung die gesamte Bevölkerung der Region. Wenn wir die Anfälligkeit von Männern und Frauen für diese Krankheit getrennt herausfinden wollen, sollten wir zwei allgemeine Bevölkerungsgruppen berücksichtigen.

Um die Eigenschaften der Allgemeinbevölkerung zu untersuchen, werden einige ihrer Elemente ausgewählt.

Stichprobe- Teil der zur Untersuchung ausgewählten Behandlung (Behandlung).

Wenn dies keine Verwirrung stiftet, wird die Probe als aufgerufen eine Reihe von Objekten,zur Prüfung ausgewählt und aggregat

werteuntersuchtes Merkmal, erhalten während der Umfrage. Diese Werte können auf verschiedene Arten dargestellt werden.

Einfache statistische Reihen -die Werte des untersuchten Merkmals, aufgezeichnet in der Reihenfolge, in der sie erhalten wurden.

Ein Beispiel für eine einfache statistische Reihe, die durch Messung der Oberflächenwellengeschwindigkeit (m / s) in der Haut der Stirn bei 20 Patienten erhalten wurde, ist in der Tabelle angegeben. 3.1.

Tabelle 3.1.Einfache statistische Reihen

Eine einfache statistische Reihe ist die wichtigste und vollständigste Methode zur Aufzeichnung von Umfrageergebnissen. Es kann Hunderte von Elementen enthalten. Es ist sehr schwierig, eine solche Kombination auf einen Blick zu betrachten. Daher werden große Proben normalerweise in Gruppen eingeteilt. Hierzu wird der Änderungsbereich des Merkmals in mehrere (N) unterteilt. intervallevon gleicher Breite und berechnen Sie die relativen Frequenzen (n / n) des Merkmals, das diese Intervalle trifft. Die Breite jedes Intervalls beträgt:

Die Grenzen der Intervalle haben folgende Bedeutung:

Wenn ein Element der Stichprobe die Grenze zwischen zwei benachbarten Intervallen ist, wird es als bezeichnet linksintervall. Auf diese Weise gruppierte Daten werden aufgerufen statistische Intervallreihen.

- Dies ist eine Tabelle, die die Intervalle der Attributwerte und die relativen Häufigkeiten des Attributs zeigt, die in diese Intervalle fallen.

In unserem Fall ist es beispielsweise möglich, eine solche statistische Intervallreihe zu bilden (N \u003d 5, d\u003d 4), tab. 3.2.

Tabelle 3.2.Intervallstatistische Reihen

Hier werden dem Intervall 28-32 (Tabelle 3.1) und dem Intervall 32-36 zwei Werte gleich 28 zugeordnet - die Werte 32, 33, 34 und 35.

Intervallstatistische Reihen können grafisch angezeigt werden. Dazu werden die Intervalle der Attributwerte entlang der Abszissenachse aufgetragen und auf jeder von ihnen wie auf der Basis ein Rechteck mit einer Höhe aufgebaut, die der relativen Häufigkeit entspricht. Das resultierende Balkendiagramm wird aufgerufen histogramm.

Feige. 3.1.Balkendiagramm

Auf dem Histogramm sind die statistischen Muster der Verteilung des Merkmals ziemlich deutlich zu sehen.

Bei einer großen Stichprobengröße (mehrere Tausend) und einer geringen Breite der Spalten liegt die Form des Histogramms nahe an der Form des Diagramms verteilungsdichtezeichen.

Die Anzahl der Balken im Histogramm kann mit der folgenden Formel ausgewählt werden:

Das manuelle Erstellen eines Histogramms ist ein langer Prozess. Daher wurden Computerprogramme für ihre automatische Konstruktion entwickelt.

3.2. NUMERISCHE EIGENSCHAFTEN DER STATISTISCHEN REIHE

Viele statistische Verfahren verwenden Stichprobenschätzungen für den Mittelwert und die Varianz (oder den Effektivwert) der Bevölkerung.

Stichprobenmittelwert(X) ist das arithmetische Mittel aller Elemente einer einfachen statistischen Reihe:

Für unser Beispiel X.\u003d 37,05 (m / s).

Der Stichprobenmittelwert istder besteallgemeine durchschnittliche SchätzungM.

Stichprobenvarianz s 2gleich der Summe der Quadrate der Abweichungen der Elemente vom Stichprobenmittelwert geteilt durch n- 1:

In unserem Beispiel ist s 2 \u003d 25,2 (m / s) 2.

Bitte beachten Sie, dass bei der Berechnung der Stichprobenvarianz der Nenner der Formel nicht die Stichprobengröße n ist, sondern n-1. Dies liegt an der Tatsache, dass bei der Berechnung der Abweichungen in Formel (3.3) anstelle der unbekannten mathematischen Erwartung deren Schätzung verwendet wird - stichprobenmittelwert.

Stichprobenvarianz ist der besteallgemeine Varianzschätzung (σ 2).

Standardabweichung der Probe(s) ist die Quadratwurzel der Stichprobenvarianz:

Für unser Beispiel s\u003d 5,02 (m / s).

Selektiv quadratischer Mittelwertdie Abweichung ist die beste Schätzung der allgemeinen Standardabweichung (σ).

Bei einer unbegrenzten Zunahme der Stichprobengröße tendieren alle Stichprobenmerkmale zu den entsprechenden Merkmalen der Allgemeinbevölkerung.

Zur Berechnung der Stichprobenmerkmale werden Computerformeln verwendet. In Excel führen diese Berechnungen die statistischen Funktionen AVERAGE, VAR aus. STDEV.

3.3. INTERVALLBEWERTUNG

Alle Probenmerkmale sind zufällige Variablen.Dies bedeutet, dass für eine andere Probe derselben Größe die Werte der Probenmerkmale unterschiedlich sind. Also selektiv

eigenschaften sind nur schätzungendie entsprechenden Merkmale der Allgemeinbevölkerung.

Nachteile der Stichprobenschätzung werden durch kompensiert intervallschätzung,darstellen numerisches Intervall,innerhalb dessen mit einer gegebenen Wahrscheinlichkeit R dder wahre Wert des auszuwertenden Parameters wird gefunden.

Lassen U r - einige Parameter der Allgemeinbevölkerung (allgemeiner Durchschnitt, allgemeine Varianz usw.).

Intervallbewertungder Parameter U r wird als Intervall bezeichnet (U 1, U 2),die Bedingung erfüllen:

P (U. < Ur < U2) = Рд. (3.5)

Wahrscheinlichkeit R dnamens vertrauliche Wahrscheinlichkeit.

Vertrauenswahrscheinlichkeit P.d - die Wahrscheinlichkeit, dass der wahre Wert der geschätzten Menge ist innerhalbdas angegebene Intervall.

In diesem Fall das Intervall (U 1, U 2)namens konfidenzintervallfür den auszuwertenden Parameter.

Oft wird anstelle der Konfidenzwahrscheinlichkeit der zugehörige Wert α \u003d 1 - P d verwendet, der aufgerufen wird signifikanzniveau.

Signifikanzniveauist die Wahrscheinlichkeit, dass der wahre Wert des geschätzten Parameters ist außerhalbkonfidenzintervall.

Manchmal werden α und P q als Prozentsatz ausgedrückt, beispielsweise 5% anstelle von 0,05 und 95% anstelle von 0,95.

Wählen Sie bei der Intervallschätzung zuerst die entsprechende aus vertrauensniveau(normalerweise 0,95 oder 0,99) und ermitteln Sie dann den entsprechenden Wertebereich des zu schätzenden Parameters.

Lassen Sie uns einige allgemeine Eigenschaften von Intervallschätzungen beachten.

1. Je niedriger das Signifikanzniveau (desto mehr R e),je breiter die Intervallschätzung. Bei einem Signifikanzniveau von 0,05 beträgt die Intervallschätzung des allgemeinen Durchschnitts 34,7< M.< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M.< 40,25.

2. Je größer die Stichprobe n,je enger die Intervallschätzung mit dem gewählten Signifikanzniveau. Sei beispielsweise 5 die prozentuale Schätzung des allgemeinen Durchschnitts (β \u003d 0,05), der aus einer Stichprobe von 20 Elementen erhalten wurde, dann 34,7< M.< 39,4.

Durch Erhöhen der Stichprobengröße auf 80 erhalten wir eine genauere Schätzung bei gleichem Signifikanzniveau: 35,5< M.< 38,6.

Im allgemeinen Fall erfordert die Erstellung zuverlässiger Konfidenzschätzungen die Kenntnis des Gesetzes, nach dem das geschätzte Zufallsattribut in der allgemeinen Bevölkerung verteilt ist. Überlegen Sie, wie die Intervallschätzung aufgebaut ist allgemeine Sekundärmerkmal, das in der Allgemeinbevölkerung von verteilt wird normaldas Gesetz.

3.4. INTERVALLBEWERTUNG DES ALLGEMEINEN MITTELS FÜR EIN NORMALES VERTEILUNGSRECHT

Die Konstruktion einer Intervallschätzung des allgemeinen Durchschnitts M für eine allgemeine Bevölkerung mit einer Normalverteilung basiert auf der folgenden Eigenschaft. Für das Probenvolumen neinstellung

gehorcht der Verteilung des Schülers mit der Anzahl der Freiheitsgrade ν \u003d n- 1.

Hier X.ist der Stichprobenmittelwert und s- selektive Standardabweichung.

Unter Verwendung der Student-Verteilungstabellen oder ihres Computeranalogons kann ein solcher Grenzwert gefunden werden, dass mit einer gegebenen Konfidenzwahrscheinlichkeit die Ungleichung erfüllt ist:

Diese Ungleichung entspricht der Ungleichung für M:

wo ε ist die halbe Breite des Konfidenzintervalls.

Somit wird die Konstruktion des Konfidenzintervalls für M in der folgenden Reihenfolge ausgeführt.

1. Wählen Sie die Konfidenzwahrscheinlichkeit P d (normalerweise 0,95 oder 0,99) und dafür wird gemäß der Verteilungstabelle des Schülers der Parameter t gefunden

2. Berechnen Sie die halbe Breite des Konfidenzintervalls ε:

3. Erhalten Sie eine Intervallschätzung des allgemeinen Durchschnitts mit dem ausgewählten Konfidenzniveau:

Kurz gesagt, es ist wie folgt geschrieben:

Computerverfahren wurden entwickelt, um Intervallschätzungen zu finden.

Lassen Sie uns erklären, wie die Verteilungstabelle des Schülers verwendet wird. Diese Tabelle enthält zwei "Eingaben": die linke Spalte, die als Anzahl der Freiheitsgrade ν \u003d bezeichnet wird n- 1, und die oberste Zeile ist das Signifikanzniveau α. Suchen Sie am Schnittpunkt der entsprechenden Zeile und Spalte den Koeffizienten des Schülers t.

Wenden wir diese Methode auf unser Beispiel an. Ein Fragment der Verteilungstabelle des Schülers ist unten dargestellt.

Tabelle 3.3. Fragment der Verteilungstabelle des Schülers

Einfache statistische Reihen für eine Stichprobe von 20 Personen (n\u003d 20, ν \u003d 19) ist in der Tabelle dargestellt. 3.1. Für diese Reihe ergeben Berechnungen nach Formeln (3.1-3.3): X.= 37,05; s= 5,02.

Lass uns wählen α \u003d 0,05 (P d \u003d 0,95). Am Schnittpunkt von Linie "19" und Spalte "0.05" finden wir t= 2,09.

Berechnen wir die Genauigkeit der Schätzung nach Formel (3.6): ε \u003d 2.09? 5.02 / λ / 20 \u003d 2.34.

Lassen Sie uns eine Intervallschätzung erstellen: Mit einer Wahrscheinlichkeit von 95% erfüllt der unbekannte allgemeine Mittelwert die Ungleichung:

37,05 - 2,34 < M.< 37,05 + 2,34, или M.\u003d 37,05 ± 2,34 (m / s), P d \u003d 0,95.

3.5. VERFAHREN ZUR ÜBERPRÜFUNG STATISTISCHER HYPOTHESEN

Statistische Hypothesen

Betrachten Sie das folgende Beispiel, bevor Sie eine statistische Hypothese formulieren.

Um zwei Methoden zur Behandlung einer bestimmten Krankheit zu vergleichen, wurden zwei Gruppen von Patienten mit 20 Personen ausgewählt, deren Behandlung nach diesen Methoden durchgeführt wurde. Für jeden Patienten wurde aufgezeichnet anzahl der Verfahren,danach wurde ein positiver Effekt erzielt. Gemäß diesen Daten wurden für jede Gruppe die Probenmittelwerte (X) gefunden, Probenvarianzen (s 2)und Probe RMS (s).

Die Ergebnisse sind in der Tabelle dargestellt. 3.4.

Tabelle 3.4

Die Anzahl der Verfahren, die erforderlich sind, um einen positiven Effekt zu erzielen, ist eine Zufallsvariable, deren Informationen derzeit in der angegebenen Stichprobe enthalten sind.

Vom Tisch. 3.4 zeigt, dass der Stichprobenmittelwert in der ersten Gruppe geringer ist als in der zweiten. Bedeutet dies, dass für allgemeine Durchschnittswerte das gleiche Verhältnis gilt: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает statistische Hypothesentests.

Statistische Hypothese- es ist eine Annahme über die Eigenschaften von Populationen.

Wir werden Hypothesen über die Eigenschaften betrachten zweiallgemeine Bevölkerung.

Wenn Populationen haben bekannt, gleichverteilung der geschätzten Menge und die Annahmen betreffen die Mengen einige Parametervon dieser Verteilung werden dann die Hypothesen aufgerufen parametrisch.Beispielsweise werden Proben aus Populationen mit gezogen normales Rechtverteilung und die gleiche Varianz. Du willst es herausfinden sind gleichallgemeine Mittel dieser Populationen.

Wenn nichts über die Verteilungsgesetze der allgemeinen Bevölkerung bekannt ist, werden Hypothesen über ihre Eigenschaften genannt nichtparametrisch.Zum Beispiel, sind gleichverteilungsgesetze allgemeiner Populationen, aus denen Proben entnommen werden.

Null- und Alternativhypothesen.

Das Problem des Testens von Hypothesen. Signifikanzniveau

Machen wir uns mit der Terminologie vertraut, die beim Testen von Hypothesen verwendet wird.

H 0 - Nullhypothese (Hypothese eines Skeptikers) - Dies ist eine Hypothese kein Unterschiedzwischen den verglichenen Proben. Der Skeptiker glaubt, dass die Unterschiede zwischen den Stichprobenschätzungen, die aus den Forschungsergebnissen erhalten wurden, zufällig sind;

H 1- Eine alternative Hypothese (Optimistenhypothese) ist eine Hypothese über das Vorhandensein von Unterschieden zwischen den verglichenen Stichproben. Der Optimist ist der Ansicht, dass die Unterschiede zwischen den Stichprobenschätzungen aus objektiven Gründen verursacht werden und den Unterschieden zwischen den allgemeinen Bevölkerungsgruppen entsprechen.

Das Testen statistischer Hypothesen ist nur möglich, wenn es möglich ist, einige zu erstellen größe(Kriterium), dessen Verteilungsgesetz im Falle der Fairness H 0bekannt. Dann kann man für diese Menge angeben konfidenzintervall,in denen mit einer gegebenen Wahrscheinlichkeit R dfällt in seinen Wert. Dieses Intervall wird aufgerufen kritischen Bereich.Wenn der Wert des Kriteriums in den kritischen Bereich fällt, wird die Hypothese akzeptiert H 0.Andernfalls wird die Hypothese H 1 akzeptiert.

In der medizinischen Forschung werden P d \u003d 0,95 oder P d \u003d 0,99 verwendet. Diese Werte entsprechen signifikanzniveausα \u003d 0,05 oder α \u003d 0,01.

Beim Testen statistischer Hypothesensignifikanzniveau(α) ist die Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn sie wahr ist.

Beachten Sie, dass im Kern das Verfahren zum Testen von Hypothesen angestrebt wird erkennung von Unterschieden,und ihre Abwesenheit nicht zu bestätigen. Wenn der Wert des Kriteriums über den kritischen Bereich hinausgeht, können wir dem „Skeptiker“ mit reinem Herzen sagen - was wollen Sie sonst noch ?! Wenn es keine Unterschiede gäbe, würde der berechnete Wert mit einer Wahrscheinlichkeit von 95% (oder 99%) innerhalb der angegebenen Grenzen liegen. Aber nein! ..

Wenn der Wert des Kriteriums in den kritischen Bereich fällt, gibt es keinen Grund zu der Annahme, dass die Hypothese H 0 korrekt ist. Dies weist höchstwahrscheinlich auf einen von zwei möglichen Gründen hin.

1. Die Stichprobengrößen sind nicht groß genug, um die Unterschiede zu erkennen. Es ist wahrscheinlich, dass fortgesetzte Experimente Erfolg bringen werden.

2. Es gibt Unterschiede. Aber sie sind so klein, dass sie keinen praktischen Wert haben. In diesem Fall ist die Fortsetzung der Experimente nicht sinnvoll.

Lassen Sie uns nun einige der statistischen Hypothesen betrachten, die in der medizinischen Forschung verwendet werden.

3.6. ÜBERPRÜFUNG DER HYPOTHESEN DER DISPERSIONSGLEICHHEIT, FISCHER F-KRITERIUM

In einigen klinischen Studien wird der positive Effekt nicht so sehr durch belegt größewie viel kostet der untersuchte Parameter? stabilisierung,abnahme seiner Schwankungen. In diesem Fall stellt sich die Frage, ob zwei allgemeine Abweichungen anhand der Ergebnisse einer Stichprobenerhebung verglichen werden sollen. Diese Aufgabe kann mit gelöst werden fischers Kriterium.

Formulierung des Problems

normales Rechtverteilung. Beispielgrößen -

n 1und n 2,und stichprobenabweichungensind gleich s 1 und s 2 2 allgemeine Abweichungen.

Überprüfbare Hypothesen:

H 0- allgemeine Abweichungen sind gleich;

H 1- allgemeine Abweichungen sind anders.

Wird angezeigt, wenn Proben aus allgemeinen Populationen mit extrahiert werden normales Rechtverteilung, wenn die Hypothese wahr ist H 0das Verhältnis der Stichprobenvarianzen entspricht der Fisher-Verteilung. Daher als Kriterium zur Überprüfung der Gültigkeit H 0der Wert wird genommen F,berechnet nach der Formel:

wo s 1 und s 2 sind Stichprobenvarianzen.

Dieses Verhältnis gehorcht der Fisher-Verteilung mit der Anzahl der Freiheitsgrade des Zählers ν 1 \u003d n 1- 1 und die Anzahl der Freiheitsgrade des Nenners ν 2 \u003d n 2 - 1. Die Grenzen des kritischen Bereichs werden gemäß den Fisher-Verteilungstabellen oder unter Verwendung der BRASPOBR-Computerfunktion ermittelt.

Für das in der Tabelle dargestellte Beispiel. 3.4 erhalten wir: ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19; F.\u003d 2,16 / 4,05 \u003d 0,53. Bei α \u003d 0,05 sind die Grenzen des kritischen Bereichs jeweils gleich: \u003d 0,40, \u003d 2,53.

Der Wert des Kriteriums fiel in den kritischen Bereich, daher wird die Hypothese akzeptiert H 0:allgemeine Abweichungen von Proben sind gleich.

3.7. BEDEUTUNG DER HYPOTHESEPRÜFUNG DER GLEICHSTELLUNG, STUDENTEN-T-KRITERIUM

Vergleichsaufgabe mittezwei allgemeine Bevölkerungsgruppen entstehen, wenn dies von praktischer Bedeutung ist größedes untersuchten Merkmals. Zum Beispiel beim Vergleich der Behandlungsbedingungen mit zwei verschiedenen Methoden oder der Anzahl der Komplikationen, die sich aus ihrer Anwendung ergeben. In diesem Fall können Sie den T-Test des Schülers verwenden.

Formulierung des Problems

Es wurden zwei Proben (X 1) und (X 2) erhalten, die aus allgemeinen Populationen mit extrahiert wurden normales Rechtverteilung und die gleichen Abweichungen.Probengrößen - n 1 und n 2, probenmittelsind gleich X 1 und X 2 und stichprobenabweichungen- s 1 2 und s 2 2beziehungsweise. Es ist erforderlich, miteinander zu vergleichen allgemeine Durchschnittswerte.

Überprüfbare Hypothesen:

H 0- allgemeine Durchschnittswerte sind gleich;

H 1- allgemeine Durchschnittswerte sind anders.

Es wird gezeigt, dass im Falle der Gültigkeit der Hypothese H 0der Wert von t, berechnet nach der Formel:

verteilt nach dem Studentengesetz mit der Anzahl der Freiheitsgrade ν \u003d ν 1 + + ν2 - 2.

Hier, wo ν 1 \u003d n 1 - 1 - die Anzahl der Freiheitsgrade für die erste Probe; ν 2 \u003d n 2 - 1 ist die Anzahl der Freiheitsgrade für die zweite Probe.

Die Grenzen des kritischen Bereichs werden aus Tabellen der t-Verteilung oder unter Verwendung der Computerfunktion TYUDRIS ermittelt. Die Verteilung des Schülers ist symmetrisch um Null, daher sind die linken und rechten Grenzen des kritischen Bereichs in der Größe gleich und im Vorzeichen entgegengesetzt: -und

Für das in der Tabelle dargestellte Beispiel. 3.4 erhalten wir:

ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19; ν \u003d 38, t\u003d -2,51. Mit α \u003d 0,05 \u003d 2,02.

Der Wert des Kriteriums geht über den linken Rand des kritischen Bereichs hinaus, daher akzeptieren wir die Hypothese H 1:allgemeine Durchschnittswerte sind anders.Darüber hinaus ist der Durchschnitt der allgemeinen Bevölkerung erste ProbeWENIGER.

Anwendbarkeit des Student-T-Tests

Der Schülertest gilt nur für Proben aus normalaggregate mit die gleichen allgemeinen Abweichungen.Wenn mindestens eine der Bedingungen verletzt wird, ist die Anwendbarkeit des Kriteriums fraglich. Das Normalitätserfordernis der Allgemeinbevölkerung wird in der Regel ignoriert der zentrale Grenzwertsatz.In der Tat kann die Differenz der Stichprobenmittel im Zähler von (3.10) als normalverteilt für ν\u003e 30 betrachtet werden. Die Frage der Gleichheit der Varianzen kann jedoch nicht überprüft werden, und Verweise auf die Tatsache, dass der Fisher-Test keine Unterschiede ergab, können nicht überprüft werden berücksichtigt. Trotzdem wird der t-Test häufig verwendet, um Unterschiede in den Mittelwerten von Populationen festzustellen, wenn auch ohne guten Grund.

Wird unten betrachtet nichtparametrischer Test,die erfolgreich für die gleichen Zwecke verwendet wird und die keine benötigt normalität,noch gleichheit der Varianzen.

3.8. NICHT PARAMETRISCHER VERGLEICH VON ZWEI PROBEN: DAS MANN-WHITNEY-KRITERIUM

Nichtparametrische Tests dienen dazu, Unterschiede in den Verteilungsgesetzen zweier allgemeiner Populationen festzustellen. Kriterien, die generell auf Unterschiede reagieren mittel,kriterien genannt verschiebung.Kriterien, die generell auf Unterschiede reagieren abweichungen,kriterien genannt rahmen.Das Mann-Whitney-Kriterium bezieht sich auf die Kriterien verschiebungund wird verwendet, um Unterschiede in den Mittelwerten von zwei allgemeinen Populationen festzustellen, von denen Proben in dargestellt sind rangskala.Die gemessenen Merkmale befinden sich auf dieser Skala in aufsteigender Reihenfolge und werden dann mit ganzen Zahlen 1, 2 ... nummeriert. Diese Zahlen werden aufgerufen ränge.Gleiche Werte erhalten die gleichen Ränge. Es kommt nicht auf die Größe des Features an, sondern nur darauf ordnungsstelle,was es unter anderen Mengen zählt.

Tabelle 3.5. Die erste Gruppe aus Tabelle 3.4 wird in erweiterter Form (Zeile 1) dargestellt, einer Rangfolge unterzogen (Fluss 2), und dann werden die Ränge derselben Werte durch arithmetische Mittelwerte ersetzt. Zum Beispiel erhielten die Punkte 4 und 4 in der ersten Reihe die Ränge 2 und 3, die dann durch den gleichen Wert 2,5 ersetzt werden.

Tabelle 3.5

Formulierung des Problems

Unabhängige Proben (X 1)und (X 2)extrahiert aus Populationen mit unbekannten Verteilungsgesetzen. Beispielgrößen n 1und n 2beziehungsweise. Beispielelementwerte sind in dargestellt rangskala.Sie möchten überprüfen, ob sich diese Populationen voneinander unterscheiden?

Überprüfbare Hypothesen:

H 0- Die Stichproben gehören derselben Allgemeinbevölkerung an. H 1- Die Proben gehören verschiedenen allgemeinen Bevölkerungsgruppen an.

Um solche Hypothesen zu testen, wird der (/ -mann-Whitney-Test durchgeführt.

Zunächst wird eine kombinierte Probe (X) aus zwei Proben hergestellt, deren Elemente eingestuft werden. Dann wird die Summe der Ränge gefunden, die den Elementen der ersten Stichprobe entsprechen. Dieser Betrag ist das Kriterium zum Testen von Hypothesen.

U.\u003d Summe der Ränge der ersten Stichprobe. (3.11)

Für unabhängige Proben mit Volumina größer als 20 der Wert U.gehorcht einer Normalverteilung, deren mathematische Erwartung und Standardabweichung gleich sind:

Daher sind die Grenzen des kritischen Bereichs in den Tabellen der Normalverteilung zu finden.

Für das in der Tabelle dargestellte Beispiel. 3.4 erhalten wir: ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19, U.\u003d 339, μ \u003d 410, σ \u003d 37. Für α \u003d 0,05 erhalten wir: sowohl den Löwen \u003d 338 als auch den rechten \u003d 482.

Der Wert des Kriteriums geht über den linken Rand des kritischen Bereichs hinaus, daher wird die Hypothese H 1 akzeptiert: Allgemeine Populationen haben unterschiedliche Verteilungsgesetze. Darüber hinaus ist der Durchschnitt der allgemeinen Bevölkerung erste ProbeWENIGER.

Die wichtigste Phase bei der Untersuchung sozioökonomischer Phänomene und Prozesse ist die Systematisierung von Primärdaten und das Erhalten von zusammenfassenden Merkmalen des gesamten Objekts unter Verwendung verallgemeinernder Indikatoren, die durch Zusammenfassen und Gruppieren von primärem statistischem Material erreicht werden.

Statistische Zusammenfassung ist ein Komplex von sequentiellen Operationen zur Verallgemeinerung spezifischer einzelner Fakten, die eine Menge bilden, um typische Merkmale und Muster zu identifizieren, die dem gesamten untersuchten Phänomen inhärent sind. Das Durchführen einer statistischen Zusammenfassung umfasst die folgenden Schritte :

  • auswahl eines Gruppierungsattributs;
  • bestimmung der Reihenfolge der Gruppenbildung;
  • entwicklung eines Systems statistischer Indikatoren zur Charakterisierung von Gruppen und des gesamten Objekts;
  • entwicklung von Layouts statistischer Tabellen zur Darstellung zusammenfassender Ergebnisse.

Statistische Gruppierung wird die Aufteilung von Einheiten der untersuchten Bevölkerung in homogene Gruppen nach bestimmten für sie wesentlichen Merkmalen genannt. Gruppierungen sind die wichtigste statistische Methode zur Zusammenfassung statistischer Daten, die Grundlage für die korrekte Berechnung statistischer Indikatoren.

Es gibt folgende Arten von Gruppierungen: typologisch, strukturell, analytisch. Alle diese Gruppierungen werden durch die Tatsache vereint, dass die Einheiten des Objekts nach einem bestimmten Kriterium in Gruppen unterteilt sind.

Gruppierungsattribut wird das Attribut genannt, mit dem die Aufteilung der Einheiten der Bevölkerung in getrennte Gruppen durchgeführt wird. Die Schlussfolgerungen einer statistischen Studie hängen von der richtigen Auswahl eines Gruppierungsattributs ab. Als Grundlage für die Gruppierung müssen wesentliche theoretisch fundierte Merkmale (quantitativ oder qualitativ) verwendet werden.

Quantitative Anzeichen einer Gruppierung einen numerischen Ausdruck haben (Handelsvolumen, Alter der Person, Familieneinkommen usw.) und qualitative Zeichen der Gruppierung den Zustand einer Einheit des Aggregats widerspiegeln (Geschlecht, Familienstand, Branchenzugehörigkeit des Unternehmens, Eigentumsform usw.).

Nachdem die Grundlage der Gruppierung festgelegt wurde, sollte die Frage nach der Anzahl der Gruppen entschieden werden, in die die untersuchte Population unterteilt werden muss. Die Anzahl der Gruppen hängt von den Zielen der Studie und der Art des der Gruppierung zugrunde liegenden Indikators, dem Bevölkerungsvolumen und dem Variationsgrad des Merkmals ab.

Beispielsweise berücksichtigt die Gruppierung von Unternehmen nach Eigentumsverhältnissen die Gemeinde-, Bundes- und Eigentumsrechte der Föderationssubjekte. Wenn die Gruppierung quantitativ durchgeführt wird, muss besonders auf die Anzahl der Einheiten des untersuchten Objekts und den Grad der Variabilität des Gruppierungsattributs geachtet werden.

Wenn die Anzahl der Gruppen festgelegt wurde, sollten die Gruppierungsintervalle festgelegt werden. Intervall - Dies sind die Werte eines variablen Merkmals, die innerhalb bestimmter Grenzen liegen. Jedes Intervall hat seinen eigenen Wert, obere und untere Grenzen oder mindestens eine davon.

Die untere Grenze des Intervalls Der kleinste Wert des Features im Intervall heißt und obere Grenze - Der größte Wert des Features im Intervall. Der Intervallwert ist die Differenz zwischen der oberen und unteren Grenze.

Die Gruppierungsintervalle sind abhängig von ihrer Größe: gleich und ungleich. Wenn sich die Variation des Merkmals in relativ engen Grenzen manifestiert und die Verteilung gleichmäßig ist, wird in gleichen Intervallen eine Gruppierung gebildet. Der Wert des gleichen Intervalls wird durch die folgende Formel bestimmt :

dabei sind Xmax, Xmin die Maximal- und Minimalwerte des Attributs im Aggregat. n ist die Anzahl der Gruppen.

Die einfachste Gruppierung, bei der jede ausgewählte Gruppe durch einen Indikator gekennzeichnet ist, ist eine Verteilungsreihe.

Statistische Verteilungsreihen - Dies ist eine geordnete Verteilung der Einheiten der Bevölkerung in Gruppen nach einem bestimmten Merkmal. Abhängig von dem Merkmal, das der Bildung einer Verteilungsreihe zugrunde liegt, werden attributive und Variationsverteilungsreihen unterschieden.

Attributiv Nennen Sie die Verteilungsreihen, die nach qualitativen Merkmalen aufgebaut sind, dh Merkmale, die keinen numerischen Ausdruck haben (Verteilung nach Art der Arbeit, nach Geschlecht, nach Beruf usw.). Attributive Verteilungsreihen charakterisieren die Zusammensetzung der Population für das eine oder andere wesentliche Merkmal. Diese Daten, die über mehrere Zeiträume hinweg aufgenommen wurden, ermöglichen es, die Änderung der Struktur zu untersuchen.

Variationsreihen werden Verteilungsreihen genannt, die auf quantitativer Basis aufgebaut sind. Jede Variationsreihe besteht aus zwei Elementen: Optionen und Frequenzen. Varianten Die einzelnen Werte des Merkmals werden aufgerufen, dh in der Variationsreihe, dh dem spezifischen Wert des variierenden Merkmals.

Frequenzen Die Anzahl der einzelnen Varianten oder jeder Gruppe der Variationsreihen wird aufgerufen. Dies sind Zahlen, die angeben, wie oft bestimmte Optionen in den Verteilungsreihen gefunden werden. Die Summe aller Frequenzen bestimmt die Größe der gesamten Bevölkerung, ihr Volumen. Frequenzen genannt Frequenzen, ausgedrückt in Bruchteilen einer Einheit oder als Prozentsatz der Gesamtmenge. Dementsprechend beträgt die Summe der Frequenzen 1 oder 100%.

Abhängig von der Art der Variation des Merkmals werden drei Formen der Variationsreihen unterschieden: Rangreihen, diskrete Reihen und Intervallreihen.

Rangierte Variationsserie - Dies ist die Verteilung der einzelnen Einheiten der Bevölkerung in aufsteigender oder absteigender Reihenfolge des untersuchten Merkmals. Mit dem Ranking können Sie quantitative Daten einfach in Gruppen aufteilen, sofort die kleinsten und größten Werte eines Features finden und die Werte hervorheben, die am häufigsten wiederholt werden.

Diskrete Variationsreihen charakterisiert die Verteilung von Einheiten der Population gemäß einem diskreten Merkmal, das nur ganzzahlige Werte annimmt. Zum Beispiel die Lohnkategorie, die Anzahl der Kinder in der Familie, die Anzahl der Beschäftigten im Unternehmen usw.

Wenn sich ein Feature kontinuierlich ändert und innerhalb bestimmter Grenzen beliebige Werte annehmen kann ("von - bis"), müssen Sie für dieses Feature ein Feature erstellen intervallvariationsreihen ... Zum Beispiel die Höhe des Einkommens, die Berufserfahrung, die Kosten des Anlagevermögens des Unternehmens usw.

Beispiele zur Lösung von Problemen zum Thema "Statistische Zusammenfassung und Gruppierung"

Problem 1 ... Es gibt Informationen über die Anzahl der Bücher, die Studenten im letzten Studienjahr im Abonnement erhalten haben.

Konstruieren Sie eine geordnete und diskrete Variationsverteilungsreihe, indem Sie die Elemente der Reihe bestimmen.

Entscheidung

Dieses Set bietet viele Optionen für die Anzahl der Bücher, die die Schüler erhalten. Zählen wir die Anzahl solcher Varianten und ordnen sie in Form von Variationsbereichs- und Vaan.

Aufgabe 2 ... Es gibt Daten über die Kosten des Anlagevermögens für 50 Unternehmen, tausend Rubel.

Erstellen Sie eine Reihe von Verteilungen, in denen 5 Unternehmensgruppen (in gleichen Abständen) hervorgehoben werden.

Entscheidung

Für die Lösung wählen wir den größten und den kleinsten Wert der Kosten des Anlagevermögens von Unternehmen. Dies sind 30,0 und 10,2 Tausend Rubel.

Lassen Sie uns die Größe des Intervalls ermitteln: h \u003d (30,0-10,2): 5 \u003d 3,96 Tausend Rubel.

Dann wird die erste Gruppe Unternehmen mit einem Anlagevermögen von 10,2 Tausend Rubel umfassen. bis zu 10,2 + 3,96 \u003d 14,16 Tausend Rubel. Es wird 9 solcher Unternehmen geben. Die zweite Gruppe wird Unternehmen umfassen, deren Anlagevermögen 14,16 Tausend Rubel betragen wird. bis zu 14,16 + 3,96 \u003d 18,12 Tausend Rubel. Es wird 16 solcher Unternehmen geben. Ebenso finden wir die Anzahl der Unternehmen in der dritten, vierten und fünften Gruppe.

Die resultierende Verteilungsreihe wird in die Tabelle aufgenommen.

Problem 3 ... Für eine Reihe von Unternehmen der Leichtindustrie wurden die folgenden Daten erhalten:

Gruppieren Sie die Unternehmen nach der Anzahl der Arbeitnehmer und bilden Sie in gleichen Abständen 6 Gruppen. Zählen Sie für jede Gruppe:

1. Anzahl der Unternehmen
2. Anzahl der Arbeitnehmer
3. Volumen der pro Jahr produzierten Produkte
4. die durchschnittliche tatsächliche Leistung eines Arbeitnehmers
5. Volumen des Anlagevermögens
6. die durchschnittliche Größe des Anlagevermögens eines Unternehmens
7. der Durchschnittswert der von einem Unternehmen hergestellten Produkte

Füllen Sie die Berechnungsergebnisse in Tabellen aus. Schlussfolgerungen.

Entscheidung

Für die Lösung wählen wir den größten und den kleinsten Wert der durchschnittlichen Anzahl von Arbeitnehmern im Unternehmen. Dies sind 43 und 256.

Finden Sie die Größe des Intervalls: h \u003d (256-43): 6 \u003d 35,5

Dann wird die erste Gruppe Unternehmen umfassen, deren durchschnittliche Anzahl von Arbeitnehmern zwischen 43 und 43 + 35,5 \u003d 78,5 Personen liegt. Es wird 5 solcher Unternehmen geben. Die zweite Gruppe wird Unternehmen umfassen, deren durchschnittliche Anzahl von Arbeitnehmern zwischen 78,5 und 78,5 + 35,5 \u003d 114 Personen liegt. Es wird 12 solcher Unternehmen geben. Ebenso werden wir die Anzahl der Unternehmen in der dritten, vierten, fünften und sechsten Gruppe finden.

Wir fügen die resultierenden Verteilungsreihen in eine Tabelle ein und berechnen die erforderlichen Indikatoren für jede Gruppe:

Ausgabe : Wie aus der Tabelle hervorgeht, ist die zweite Unternehmensgruppe am zahlreichsten. Es umfasst 12 Unternehmen. Die kleinsten sind die fünfte und sechste Gruppe (jeweils zwei Unternehmen). Dies sind die größten Unternehmen (gemessen an der Anzahl der Arbeitnehmer).

Da die zweite Gruppe am zahlreichsten ist, sind das Volumen der von den Unternehmen dieser Gruppe pro Jahr hergestellten Produkte und das Volumen des Anlagevermögens erheblich höher als bei anderen. Gleichzeitig ist die durchschnittliche tatsächliche Leistung eines Arbeitnehmers in den Unternehmen dieser Gruppe nicht die höchste. Hier liegen Unternehmen der vierten Gruppe an der Spitze. Diese Gruppe macht auch einen relativ großen Teil des Anlagevermögens aus.

Zusammenfassend stellen wir fest, dass die durchschnittliche Größe des Anlagevermögens und der durchschnittliche Wert der Produktion eines Unternehmens direkt proportional zur Größe des Unternehmens sind (gemessen an der Anzahl der Arbeitnehmer).

Laborarbeit Nr. 1

Durch mathematische Statistik

Thema: Primärverarbeitung experimenteller Daten

3. Punktzahl. einer

5. Kontrollfragen .. 2

6. Technik zur Durchführung von Laborarbeiten. 3

Zweck der Arbeit

Erwerb von Fähigkeiten in der Primärverarbeitung empirischer Daten durch Methoden der mathematischen Statistik.

Führen Sie basierend auf der Gesamtheit der experimentellen Daten die folgenden Aufgaben aus:

Übung 1. Konstruieren Sie eine Intervallvariationsreihe der Verteilung.

Aufgabe 2. Erstellen Sie ein Histogramm der Frequenzen der Intervallvariationsreihen.

Aufgabe 3. Erstellen Sie eine empirische Verteilungsfunktion und erstellen Sie ein Diagramm.

a) Mode und Median;

b) bedingte Anfangsmomente;

c) Stichprobenmittelwert;

d) Stichprobenvarianz, korrigierte Varianz der Allgemeinbevölkerung, korrigierte Standardabweichung;

e) Variationskoeffizient;

f) Asymmetrie;

g) Überschuss;

Aufgabe 5. Bestimmen Sie die Grenzen der wahren Werte der numerischen Eigenschaften der untersuchten Zufallsvariablen mit einer gegebenen Zuverlässigkeit.

Aufgabe 6. Wesentliche Interpretation der Ergebnisse der Primärverarbeitung gemäß der Problemstellung.

Punktzahl in Punkten

Quests 1-56 Punkte

Aufgabe 62 Punkte

Schutz der Laborarbeit (mündliches Interview zu Kontrollfragen und Laborarbeit) - 2 Punkte

Die Arbeit muss schriftlich auf A4-Blättern eingereicht werden und umfasst:

1) Titelseite (Anhang 1)

2) Anfangsdaten.

3) Einreichung der Arbeiten gemäß der angegebenen Stichprobe.

4) Berechnungsergebnisse (manuell und / oder mit MS Excel durchgeführt) in der angegebenen Reihenfolge.

5) Schlussfolgerungen - aussagekräftige Interpretation der Ergebnisse der Primärverarbeitung entsprechend dem Zustand des Problems.

6) Mündliches Interview zu Arbeits- und Testfragen.



5. Kontrollfragen


Laborarbeitstechnik

Aufgabe 1. Erstellen Sie eine Intervallvariations-Verteilungsreihe

Damit statistische Daten in Form einer Variationsreihe mit gleich beabstandeten Optionen dargestellt werden können, ist Folgendes erforderlich:

1.Finden Sie die kleinsten und größten Werte in der ursprünglichen Datentabelle.

2.Definieren variationsbereich :

3. Bestimmen Sie die Länge des Intervalls h. Wenn die Probe bis zu 1000 Daten enthält, verwenden Sie die folgende Formel: , wobei n die Stichprobengröße ist - die Datenmenge in der Stichprobe; lgn wird für Berechnungen verwendet).

Das berechnete Verhältnis wird auf gerundet bequemer ganzzahliger Wert .

4. Bestimmen Sie den Beginn des ersten Intervalls für eine gerade Anzahl von Intervallen. Es wird empfohlen, den Wert zu übernehmen. und für eine ungerade Anzahl von Intervallen.

5. Notieren Sie die Gruppierungsintervalle und ordnen Sie sie in aufsteigender Reihenfolge der Grenzen an

, ,………., ,

wo ist die untere Grenze des ersten Intervalls. Es wird eine bequeme Zahl genommen, nicht mehr, die Obergrenze des letzten Intervalls darf nicht kleiner sein. Es wird empfohlen, dass die Intervalle die Anfangswerte der Zufallsvariablen enthalten und von diesen getrennt sind 5 bis 20 Intervalle.

6. Notieren Sie die Anfangsdaten in den Intervallen der Gruppierungen, d. H. Berechnen Sie die Anzahl der Werte der Zufallsvariablen, die in die angegebenen Intervalle fallen, gemäß der Originaltabelle. Wenn einige Werte mit den Grenzen der Intervalle übereinstimmen, dann werden sie entweder nur auf das vorherige oder nur auf das nachfolgende Intervall bezogen.

Bemerkung 1.Die Intervalle müssen nicht gleich lang sein. In Bereichen, in denen die Werte dichter sind, ist es bequemer, kleinere, kürzere und seltener größere Intervalle zu verwenden.

Bemerkung 2Wenn für einige Werte "Null" oder kleine Werte von Frequenzen erhalten werden, ist es notwendig, die Daten neu zu gruppieren und die Intervalle zu erhöhen (den Schritt zu erhöhen).