Statistische Zusammenfassung und Gruppierung. Statistische Verbreitungsreihen. Beispiele für Problemlösungen. Erstellen einer Intervallverteilungsreihe

Praxis 1

VARIATIONALE REIHE DER VERTEILUNG

Variationsreihe oder Nahverteilung nannte die geordnete Verteilung von Bevölkerungseinheiten nach zunehmenden (häufiger) oder abnehmenden (seltener) Werten des Attributs und Zählen der Anzahl der Einheiten mit dem einen oder anderen Wert des Attributs.

Es gibt 3 Art Verbreitungsgebiet:

1) Rangreihe- dies ist eine Liste der einzelnen Bevölkerungseinheiten in aufsteigender Reihenfolge des untersuchten Merkmals; Wenn die Anzahl der Bevölkerungseinheiten groß genug ist, wird die Rangfolge umständlich, und in solchen Fällen wird die Verteilungsreihe erstellt, indem Bevölkerungseinheiten gemäß den Werten des untersuchten Merkmals gruppiert werden (wenn das Merkmal eine kleine Anzahl von Werte also diskrete Reihe, andernfalls eine Intervallreihe);

2) diskrete Reihe- Dies ist eine Tabelle, die aus zwei Spalten (Zeilen) besteht - bestimmte Werte eines variierenden Attributs x ich und die Anzahl der Bevölkerungseinheiten mit dem gegebenen Wert des Merkmals F ich– Frequenzen; die Anzahl der Gruppen in einer diskreten Reihe wird durch die Anzahl der tatsächlich vorhandenen Werte des Variablenattributs bestimmt;

3) Intervallserie- Dies ist eine Tabelle, die aus zwei Spalten (Zeilen) besteht - Intervalle mit unterschiedlichem Vorzeichen x ich und die Anzahl der Bevölkerungseinheiten, die in ein bestimmtes Intervall fallen (Häufigkeiten), oder der Anteil dieser Zahl an der Gesamtzahl der Bevölkerungen (Häufigkeiten).

Es werden Zahlen aufgerufen, die angeben, wie oft einzelne Optionen in einer bestimmten Population vorkommen Frequenzen oder Waage Option und sind markiert Kleinbuchstaben Lateinisches Alphabet F. Die Gesamtsumme der Häufigkeiten der Variationsreihe ist gleich dem Volumen dieser Grundgesamtheit, d.h.

wo k– Anzahl der Gruppen, nGesamtzahl Beobachtungen oder Bevölkerungsgröße.

Häufigkeiten (Gewichte) werden nicht nur in absoluten, sondern auch in relativen Zahlen ausgedrückt - in Bruchteilen einer Einheit oder als Prozentsatz der Gesamtzahl der Varianten, aus denen dieser Satz besteht. In solchen Fällen werden die Gewichte aufgerufen relative Häufigkeiten oder Frequenzen. Die Gesamtsumme der Einzelheiten ist gleich eins

oder
,

wenn die Häufigkeiten als Prozentsatz der Gesamtzahl der Beobachtungen ausgedrückt werden P. Das Ersetzen von Frequenzen durch Frequenzen ist nicht obligatorisch, erweist sich aber manchmal als sinnvoll und sogar notwendig, wenn es darum geht, Variationsreihen, die sich in ihrer Lautstärke stark unterscheiden, miteinander zu vergleichen.

Je nachdem, wie sich das Attribut verändert – diskret oder kontinuierlich, in einem breiten oder engen Bereich – verteilt sich die statistische Grundgesamtheit intervalllos oder Intervall Variationslinien. Im ersten Fall beziehen sich die Häufigkeiten direkt auf die Rangwerte des Merkmals, die die Position einzelner Gruppen oder Klassen der Variationsreihe erfassen, im zweiten berechnen sie die Häufigkeiten bezogen auf einzelne Intervalle oder Intervalle (aus - bis), in die die Gesamtvariation des Merkmals unterteilt ist, die von minimalen bis zu maximalen Optionen für diesen Satz reicht. Diese Räume oder Klassenräume können gleich breit sein oder nicht. Ab hier unterscheiden sie Variationsreihen mit gleichen und ungleichen Intervallen. In ungleichen Intervallreihen ändert sich die Art der Häufigkeitsverteilung, wenn sich die Breite der Klassenintervalle ändert. Die Gruppierung mit ungleichen Intervallen wird in der Biologie relativ selten verwendet. In der Regel werden biometrische Daten in gleichen Intervallreihen verteilt, was nicht nur das Erkennen von Variationsmustern ermöglicht, sondern auch die Berechnung von Summendaten erleichtert. numerische Merkmale Variationsreihen, Vergleich von Verteilungsreihen untereinander.

Wenn Sie mit dem Aufbau einer Variationsreihe mit gleichen Intervallen beginnen, ist es wichtig, die Breite des Klassenintervalls korrekt zu skizzieren. Tatsache ist, dass eine grobe Gruppierung (wenn sehr weite Klassenintervalle eingestellt werden) die typischen Variationsmerkmale verzerrt und zu einer Verringerung der Genauigkeit der numerischen Merkmale der Reihe führt. Bei der Wahl zu enger Intervalle steigt zwar die Genauigkeit der verallgemeinernden numerischen Merkmale, aber die Reihe erweist sich als zu lang und gibt kein klares Bild der Streuung wieder.

Um eine wohldefinierte Variationsreihe zu erhalten und Um eine ausreichende Genauigkeit der daraus berechneten numerischen Merkmale zu gewährleisten, ist es erforderlich, die Variation des Merkmals (im Bereich von den minimalen bis zu den maximalen Optionen) in so viele Gruppen oder Klassen zu unterteilen, dass beide Anforderungen erfüllt werden. Dieses Problem wird gelöst, indem die Variationsbreite eines Merkmals durch die Anzahl der Gruppen oder Klassen dividiert wird, die beim Aufbau einer Variationsreihe geplant werden:

,

wo h– Intervallwert; x m ein x ich x min - die maximalen und minimalen Werte im Aggregat; k ist die Anzahl der Gruppen.

Beim Erstellen einer Intervallverteilungsreihe ist es notwendig, die optimale Anzahl von Gruppen (Zeichenintervallen) zu wählen und die Länge (Bereich) des Intervalls festzulegen. Da bei der Analyse einer Verteilungsreihe Häufigkeiten in unterschiedlichen Intervallen verglichen werden, ist es notwendig, dass die Länge der Intervalle konstant ist. Wenn Sie es mit einer Intervallverteilungsreihe mit ungleichen Intervallen zu tun haben, müssen Sie zur Vergleichbarkeit die Häufigkeit oder Häufigkeit auf die Einheit des Intervalls bringen, der resultierende Wert wird aufgerufen Dichte ρ , also
.

Die optimale Anzahl der Gruppen wird so gewählt, dass die Vielfalt der Merkmalswerte im Aggregat ausreichend wiedergegeben wird und gleichzeitig die Regelmäßigkeit der Verteilung, ihre Form nicht durch zufällige Häufigkeitsschwankungen verzerrt wird. Wenn es zu wenige Gruppen gibt, gibt es kein Variationsmuster; wenn es zu viele Gruppen gibt, verzerren zufällige Frequenzsprünge die Form der Verteilung.

Meistens wird die Anzahl der Gruppen in einer Verteilungsreihe durch die Sturgess-Formel bestimmt:

wo n- die Größe der Bevölkerung.

Eine grafische Darstellung ist eine wesentliche Hilfestellung bei der Analyse einer Verteilungsreihe und ihrer Eigenschaften. Die Intervallreihe wird durch ein Balkendiagramm dargestellt, in dem die Basen der Balken, die sich entlang der Abszissenachse befinden, die Intervalle der Werte des variierenden Attributs sind und die Höhen der Balken die Frequenzen sind, die der Skala entlang entsprechen die Ordinatenachse. Diese Art von Diagramm wird aufgerufen Histogramm.

Wenn es eine diskrete Verteilungsreihe gibt oder die Mittelpunkte der Intervalle verwendet werden, dann grafisches Bild so eine Reihe heißt Polygon, die man erhält, indem man gerade Punkte mit Koordinaten verbindet x ich und F ich .

Wenn die Klassenwerte entlang der Abszissenachse aufgetragen werden und die akkumulierten Häufigkeiten entlang der Ordinatenachse aufgetragen werden, gefolgt vom Verbinden der Punkte mit geraden Linien, wird ein Graph erhalten, der als bezeichnet wird kumulativ. Die akkumulierten Häufigkeiten werden durch sukzessive Summierung gefunden, oder Kumulation Frequenzen in Richtung von der ersten Klasse bis zum Ende der Variationsreihe.

Beispiel. Es liegen Daten über die Eierproduktion von 50 Legehennen vor, die 1 Jahr lang in einem Geflügelbetrieb gehalten wurden (Tabelle 1.1).

T a b e l 1.1

Legehennen

Anzahl Legehennen

Eierproduktion, Stk.

Anzahl Legehennen

Eierproduktion, Stk.

Anzahl Legehennen

Eierproduktion, Stk.

Anzahl Legehennen

Eierproduktion, Stk.

Anzahl Legehennen

Eierproduktion, Stk.

Es ist erforderlich, eine Intervallverteilungsreihe zu erstellen und diese grafisch in Form eines Histogramms, Polygons und einer Kumulierung darzustellen.

Es ist ersichtlich, dass das Merkmal von 212 bis 245 Eiern variiert, die von einer Legehenne in einem Jahr erhalten wurden.

In unserem Beispiel bestimmen wir mit der Sturgess-Formel die Anzahl der Gruppen:

k = 1 + 3,322lg 50 = 6,643 ≈ 7.

Berechnen Sie die Länge (Bereich) des Intervalls mit der Formel:

.

Bauen wir eine Intervallserie mit 7 Gruppen und einem Intervall von 5 Stück. Eier (Tabelle 1.2). Um Diagramme in der Tabelle zu erstellen, berechnen wir die Mitte der Intervalle und die kumulierte Häufigkeit.

T a b e l 1.2

Intervallreihe der Verteilung der Eierproduktion

Gruppe von Legehennen nach der Größe der Eierproduktion

x ich

Anzahl Legehennen

F ich

Intervallmittelpunkt

x ich'

Kumulierte Frequenz

F ich

Lassen Sie uns ein Histogramm der Verteilung der Eierproduktion erstellen (Abb. 1.1).

Reis. 1.1. Histogramm der Verteilung der Eierproduktion

Diese Histogramme zeigen die für viele Merkmale charakteristische Verteilungsform: Die Werte der durchschnittlichen Intervalle des Merkmals sind häufiger, seltener die extremen (kleinen und großen) Werte des Merkmals. Die Form dieser Verteilung kommt dem Normalverteilungsgesetz nahe, das entsteht, wenn eine variable Variable von einer Vielzahl von Faktoren beeinflusst wird, von denen keiner einen vorherrschenden Wert hat.

Das Polygon und Kumulat der Verteilung der Eierproduktion haben die Form (Abb. 1.2 und 1.3).

Reis. 1.2. Eierverteilungspolygon

Reis. 1.3. Kumulierte Verteilung der Eierproduktion

Problemlösungstechnologie in Tabellenkalkulationsprozessor Microsoft übertreffen nächste.

1. Geben Sie die Anfangsdaten gemäß Abb. 1.4.

2. Ordnen Sie die Reihe.

2.1. Markieren Sie die Zellen A2:A51.

2.2. Klicken Sie mit der linken Maustaste in der Symbolleiste auf die Schaltfläche<Сортировка по возрастанию > .

3. Bestimmen Sie die Größe des Intervalls zum Aufbau der Intervallreihe der Verteilung.

3.1. Kopieren Sie Zelle A2 in Zelle E53.

3.2. Kopieren Sie die Zelle A51 in die Zelle E54.

3.3. Berechnen Sie die Variationsbreite. Geben Sie dazu die Formel in Zelle E55 ein =E54-E53.

3.4. Berechnen Sie die Anzahl der Variationsgruppen. Geben Sie dazu die Formel in Zelle E56 ein =1+3.322*LOG10(50).

3.5. Geben Sie in Zelle E57 die gerundete Anzahl der Gruppen ein.

3.6. Berechnen Sie die Länge des Intervalls. Geben Sie dazu die Formel in Zelle E58 ein =E55/E57.

3.7. Geben Sie in Zelle E59 die gerundete Länge des Intervalls ein.

4. Erstellen Sie eine Intervallserie.

4.1. Kopieren Sie die Zelle E53 in die Zelle B64.

4.2. Geben Sie die Formel in Zelle B65 ein =B64+$E$59.

4.3. Kopieren Sie die Zelle B65 in die Zellen B66:B70.

4.4. Geben Sie die Formel in Zelle C64 ein =B65.

4.5. Geben Sie die Formel in Zelle C65 ein =C64+$E$59.

4.6. Kopieren Sie die Zelle C65 in die Zellen C66:C70.

Die Ergebnisse der Lösung werden auf dem Bildschirm in folgender Form angezeigt (Abb. 1.5).

5. Berechnen Sie die Intervallfrequenz.

5.1. Führen Sie den Befehl aus Service,Datenanalyse durch abwechselndes Klicken mit der linken Maustaste.

5.2. Im Dialogfeld Datenanalyse mit der linken Maustaste einstellen: Analysewerkzeuge <Гистограмма>(Abb. 1.6).

5.3. Klicken Sie mit der linken Maustaste auf die Schaltfläche<ОК>.

5.4. Auf der Registerkarte Balkendiagramm Stellen Sie die Parameter gemäß Abb. ein. 1.7.

5.5. Klicken Sie mit der linken Maustaste auf die Schaltfläche<ОК>.

Die Ergebnisse der Lösung werden auf dem Bildschirm in folgender Form angezeigt (Abb. 1.8).

6. Füllen Sie die Tabelle "Intervallreihe der Verteilung" aus.

6.1. Kopieren Sie die Zellen B74:B80 in die Zellen D64:D70.

6.2. Berechne die Summe der Häufigkeiten. Wählen Sie dazu die Zellen D64:D70 aus und klicken Sie mit der linken Maustaste auf die Schaltfläche in der Symbolleiste<Автосумма > .

6.3. Berechnen Sie die Mitte der Intervalle. Geben Sie dazu die Formel in die Zelle E64 ein =(B64+C64)/2 und in die Zellen E65:E70 kopieren.

6.4. Berechnen Sie die akkumulierten Frequenzen. Kopieren Sie dazu die Zelle D64 in die Zelle F64. Geben Sie in Zelle F65 die Formel =F64+D65 ein und kopieren Sie sie in die Zellen F66:F70.

Die Ergebnisse der Lösung werden auf dem Bildschirm in folgender Form angezeigt (Abb. 1.9).

7. Bearbeiten Sie das Histogramm.

7.1. Klicken Sie im Diagramm mit der rechten Maustaste auf den Namen "Tasche" und klicken Sie in der angezeigten Registerkarte auf die Schaltfläche<Очистить>.

7.2. Klicken Sie mit der rechten Maustaste auf das Diagramm, und klicken Sie auf der angezeigten Registerkarte auf die Schaltfläche<Исходные данные>.

7.3. Im Dialogfeld Ausgangsdaten x-Achsenbeschriftung ändern, dazu Zellen B64:C70 markieren (Abb. 1.10).

7.5. drücken Sie die Taste .

Die Ergebnisse werden auf dem Bildschirm in folgender Form angezeigt (Abb. 1.11).

8. Erstellen Sie ein Eierverteilungspolygon.

8.1. Klicken Sie mit der linken Maustaste in der Symbolleiste auf die Schaltfläche<Мастер диаграмм > .

8.2. Im Dialogfeld Diagrammassistent (Schritt 1 von 4) mit linker Maustaste einstellen: Standard <График>(Abb. 1.12).

8.3. Klicken Sie mit der linken Maustaste auf die Schaltfläche<Далее>.

8.4. Im Dialogfeld Diagrammassistent (Schritt 2 von 4) Stellen Sie die Parameter gemäß Abb. ein. 1.13.

8.5. Klicken Sie mit der linken Maustaste auf die Schaltfläche<Далее>.

8.6. Im Dialogfeld Diagrammassistent (Schritt 3 von 4) Geben Sie die Namen des Diagramms und der Y-Achse ein (Abb. 1.14).

8.7. Klicken Sie mit der linken Maustaste auf die Schaltfläche<Далее>.

8.8. Im Dialogfeld Diagrammassistent (Schritt 4 von 4) Stellen Sie die Parameter gemäß Abb. ein. 1.15.

8.9. Klicken Sie mit der linken Maustaste auf die Schaltfläche<Готово>.

Die Ergebnisse werden auf dem Bildschirm in folgender Form angezeigt (Abb. 1.16).

9. Fügen Sie Datenbeschriftungen in das Diagramm ein.

9.1. Klicken Sie mit der rechten Maustaste auf das Diagramm, und klicken Sie auf der angezeigten Registerkarte auf die Schaltfläche<Исходные данные>.

9.2. Im Dialogfeld Ausgangsdaten x-Achsenbeschriftung ändern, dazu Zellen E64:E70 markieren (Abb. 1.17).

9.3. drücken Sie die Taste .

Die Ergebnisse werden auf dem Bildschirm in folgender Form angezeigt (Abb. 1.18).

Das Verteilungskumulat wird ähnlich wie das Verteilungspolygon basierend auf den akkumulierten Häufigkeiten konstruiert.

Sie werden in Form von Vertriebsserien präsentiert und sind als .

Eine Verteilungsserie ist eine Art der Gruppierung.

Verbreitungsgebiet- stellt eine geordnete Verteilung von Einheiten der untersuchten Population in Gruppen gemäß einem bestimmten variierenden Attribut dar.

Je nach Merkmal, das der Bildung einer Verbreitungsreihe zugrunde liegt, gibt es attributiv und variabel Verteilungsränge:

  • attributiv- Rufen Sie die aus qualitativen Gründen aufgebaute Verteilungsreihe auf.
  • Verteilungsreihen, die in aufsteigender oder absteigender Reihenfolge der Werte eines quantitativen Attributs aufgebaut sind, werden genannt variabel.
Die Variationsreihe der Distribution besteht aus zwei Spalten:

Die erste Spalte enthält die quantitativen Werte des variablen Merkmals, die aufgerufen werden Optionen und gekennzeichnet sind. Diskrete Variante - ausgedrückt als ganze Zahl. Die Intervalloption liegt im Bereich von und bis. Je nach Art der Varianten ist es möglich, eine diskrete oder intervallartige Variationsreihe zu konstruieren.
Die zweite Spalte enthält Anzahl der spezifischen Option, ausgedrückt in Frequenzen oder Frequenzen:

Frequenzen- Dies sind absolute Zahlen, die angeben, wie oft der angegebene Wert des Merkmals insgesamt vorkommt, die angeben. Die Summe aller Häufigkeiten sollte gleich der Anzahl der Einheiten der gesamten Grundgesamtheit sein.

Frequenzen() sind die als Prozentsatz der Gesamtzahl ausgedrückten Häufigkeiten. Die prozentuale Summe aller Häufigkeiten muss in Bruchteilen von eins gleich 100 % sein.

Grafische Darstellung von Vertriebsserien

Die Verbreitungsreihen werden mit grafischen Bildern visualisiert.

Die Verteilungsserien werden wie folgt angezeigt:
  • Vieleck
  • Histogramme
  • Kumuliert
  • ogiven

Vieleck

Beim Erstellen eines Polygons werden auf der horizontalen Achse (Abszisse) die Werte des variablen Attributs und auf der vertikalen Achse (Ordinate) - Frequenzen oder Frequenzen aufgetragen.

Das Vieleck in Abb. 6.1 wurde nach der Mikrozählung der Bevölkerung Russlands im Jahr 1994 gebaut.

6.1. Verteilung der Haushalte nach Größe

Kondition: Es werden Daten zur Verteilung von 25 Mitarbeitern eines der Unternehmen nach Tarifkategorien angegeben:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Aufgabe: Erstellen Sie eine diskrete Variationsreihe und stellen Sie sie grafisch als Verteilungspolygon dar.
Lösung:
v dieses Beispiel Optionen ist die Lohnkategorie des Mitarbeiters. Zur Bestimmung der Häufigkeiten ist es notwendig, die Anzahl der Beschäftigten mit der entsprechenden Lohnklasse zu berechnen.

Das Polygon wird für diskret verwendet Variationsreihe.

Um ein Verteilungspolygon (Abb. 1) zu erstellen, zeichnen wir entlang der Abszisse (X) die quantitativen Werte der unterschiedlichen Merkmalsvarianten und entlang der Ordinate - Häufigkeiten oder Häufigkeiten.

Werden die Kennwerte als Intervalle ausgedrückt, so wird eine solche Reihe als Intervallreihe bezeichnet.
Intervallserie Verteilungen werden grafisch als Histogramm, Kumulierung oder Ogive dargestellt.

Statistische Tabelle

Kondition: Daten über die Größe der Einlagen 20 werden angegeben Einzelpersonen in einer Bank (tausend Rubel) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; einhundert; 152; 6; achtzehn; 7; 42.
Aufgabe: Erstellen Sie eine Intervallvariationsserie mit gleichen Intervallen.
Lösung:

  1. Die Anfangspopulation besteht aus 20 Einheiten (N = 20).
  2. Unter Verwendung der Sturgess-Formel definieren wir erforderliche Menge verwendete Gruppen: n=1+3.322*lg20=5
  3. Lassen Sie uns den Wert des gleichen Intervalls berechnen: i=(152 - 2) /5 = 30 Tausend Rubel
  4. Wir teilen die Anfangspopulation in 5 Gruppen mit einem Abstand von 30.000 Rubel auf.
  5. Die Gruppierungsergebnisse sind in der Tabelle dargestellt:

Tritt bei einer solchen Aufzeichnung eines kontinuierlichen Merkmals zweimal derselbe Wert auf (als obere Grenze eines Intervalls und als untere Grenze eines anderen Intervalls), dann gehört dieser Wert zu der Gruppe, wo dieser Wert als obere Grenze wirkt.

Balkendiagramm

Um ein Histogramm entlang der Abszisse zu erstellen, geben Sie die Werte der Grenzen der Intervalle an und erstellen Sie auf ihrer Grundlage Rechtecke, deren Höhe proportional zu den Frequenzen (oder Frequenzen) ist.

Auf Abb. 6.2. Vorgeführt ist das Histogramm der Verteilung der Bevölkerung Russlands im Jahr 1997 nach Altersgruppen.

Reis. 6.2. Verteilung der Bevölkerung Russlands nach Altersgruppen

Kondition: Gegeben ist die Verteilung von 30 Mitarbeitern des Unternehmens nach der Höhe des Monatsgehalts

Aufgabe: Intervallvariationsreihe grafisch als Histogramm darstellen und kumulieren.
Lösung:

  1. Die unbekannte Grenze des offenen (ersten) Intervalls wird durch den Wert des zweiten Intervalls bestimmt: 7000 - 5000 = 2000 Rubel. Bei demselben Wert finden wir die untere Grenze des ersten Intervalls: 5000 - 2000 = 3000 Rubel.
  2. Um ein Histogramm in einem rechteckigen Koordinatensystem zu konstruieren, legen wir entlang der Abszissenachse Segmente beiseite, deren Werte den Intervallen der Variantenreihe entsprechen.
    Diese Segmente dienen als untere Basis, und die entsprechende Frequenz (Frequenz) dient als Höhe der gebildeten Rechtecke.
  3. Lassen Sie uns ein Histogramm erstellen:

Um die Kumulierung zu konstruieren, ist es notwendig, die akkumulierten Häufigkeiten (Frequenzen) zu berechnen. Sie werden durch sukzessive Summierung der Häufigkeiten (Häufigkeiten) der vorangegangenen Intervalle ermittelt und mit S bezeichnet. Die kumulierten Häufigkeiten geben an, wie viele Einheiten der Grundgesamtheit einen Merkmalswert nicht größer als den betrachteten haben.

Kumulieren

Die Verteilung eines Merkmals in einer Variationsreihe nach den kumulierten Häufigkeiten (Häufigkeiten) wird mit der Kumulierung dargestellt.

Kumulieren oder die Summenkurve ist im Gegensatz zum Polygon auf den akkumulierten Häufigkeiten bzw. Frequenzen aufgebaut. Gleichzeitig werden die Werte des Merkmals auf der Abszissenachse und die akkumulierten Frequenzen oder Frequenzen auf der Ordinatenachse platziert (Abb. 6.3).

Reis. 6.3. Kumulierte Verteilung der Haushalte nach Größe

4. Berechnen Sie die akkumulierten Häufigkeiten:
Die Kniefrequenz des ersten Intervalls berechnet sich wie folgt: 0 + 4 = 4, für das zweite: 4 + 12 = 16; für die dritte: 4 + 12 + 8 = 24 usw.

Bei der Kumulierung wird die akkumulierte Häufigkeit (Häufigkeit) des entsprechenden Intervalls seiner Obergrenze zugeordnet:

Ogiva

Ogiva ist ähnlich aufgebaut wie die Kumulierung mit dem einzigen Unterschied, dass die akkumulierten Häufigkeiten auf der Abszissenachse und die Merkmalswerte auf der Ordinatenachse platziert sind.

Eine Variation der Kumulierung ist die Konzentrationskurve oder das Lorenz-Diagramm. Zur Darstellung der Konzentrationskurve werden beide Achsen des rechtwinkligen Koordinatensystems prozentual von 0 bis 100 skaliert. Dabei geben die Abszissenachsen die kumulierten Häufigkeiten und die Ordinatenachsen die kumulierten Werte des Anteils (in Prozent) nach Volumen des Features.

Die gleichmäßige Verteilung des Vorzeichens entspricht der Diagonale des Quadrats in der Grafik (Abb. 6.4). Bei ungleichmäßiger Verteilung ist der Graph eine konkave Kurve, abhängig vom Konzentrationsgrad des Merkmals.

6.4. Konzentrationskurve

Was die Gruppierung statistischer Daten ist und wie sie mit den Verteilungsreihen zusammenhängt, wurde in dieser Vorlesung betrachtet, in der Sie auch lernen können, was eine diskrete und eine Variationsverteilungsreihe ist.

Verteilungsreihen sind eine der Arten statistischer Reihen (zusätzlich werden dynamische Reihen in der Statistik verwendet), sie werden zur Analyse von Daten zu Phänomenen verwendet öffentliches Leben. Die Konstruktion von Variationsreihen ist durchaus eine machbare Aufgabe für jedermann. Es gibt jedoch Regeln, an die Sie sich erinnern sollten.

Wie man eine diskrete Variationsverteilungsreihe erstellt

Beispiel 1 In 20 befragten Familien liegen Daten zur Anzahl der Kinder vor. Konstruieren Sie eine diskrete Variationsreihe Verteilung der Familien nach Anzahl der Kinder.

0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2

Lösung:

  1. Beginnen wir mit dem Layout der Tabelle, in die wir dann die Daten eintragen. Da die Verteilungszeilen zwei Elemente haben, besteht die Tabelle aus zwei Spalten. Die erste Spalte ist immer eine Variante - was wir studieren - wir nehmen seinen Namen von der Aufgabe (das Ende des Satzes mit der Aufgabe in den Bedingungen) - nach Anzahl der Kinder- unsere Version ist also die Anzahl der Kinder.

Die zweite Spalte ist die Häufigkeit - wie oft unsere Variante bei dem untersuchten Phänomen vorkommt - wir nehmen auch den Namen der Spalte aus der Aufgabe - Verteilung der Familien - unsere Frequenz ist also die Anzahl der Familien mit der entsprechenden Anzahl an Kindern.

  1. Nun wählen wir aus den Anfangsdaten diejenigen Werte aus, die mindestens einmal vorkommen. In unserem Fall diese

Und ordnen wir diese Daten in der ersten Spalte unserer Tabelle in einer logischen Reihenfolge an, in diesem Fall von 0 auf 4 aufsteigend. Wir bekommen

Lassen Sie uns abschließend berechnen, wie oft jeder Wert der Optionen vorkommt.

0 1 2 3 1

2 1 2 1 0

4 3 2 1 1

1 0 1 0 2

Als Ergebnis erhalten wir eine vollständige Tabelle oder die erforderliche Reihe der Verteilung der Familien nach der Anzahl der Kinder.

Übung . Es gibt Daten zu den Tarifkategorien von 30 Arbeitnehmern des Unternehmens. Konstruieren Sie eine diskrete Variationsreihe für die Verteilung der Arbeiter nach Lohnkategorien. 2 3 2 4 4 5 5 4 6 3

1 4 4 5 5 6 4 3 2 3

4 5 4 5 5 6 6 3 3 4

So erstellen Sie eine Intervallvariationsreihe der Verteilung

Lassen Sie uns eine Intervallverteilungsreihe erstellen und sehen, wie sich ihre Konstruktion von einer diskreten Reihe unterscheidet.

Beispiel 2 Es gibt Daten über die Höhe des Gewinns von 16 Unternehmen in Millionen Rubel. — 23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63. Erstellen Sie eine Intervallvariationsreihe für die Verteilung von Unternehmen nach Gewinnvolumen, indem Sie 3 Gruppen in gleichen Abständen auswählen.

Das allgemeine Prinzip der Reihenbildung bleibt natürlich erhalten, dieselben zwei Spalten, dieselben Varianten und Häufigkeiten, aber in diesem Fall werden die Varianten im Intervall angesiedelt und die Häufigkeiten unterschiedlich gezählt.

Lösung:

  1. Beginnen wir ähnlich wie bei der vorherigen Aufgabe mit dem Aufbau eines Tabellenlayouts, in das wir dann Daten eingeben. Da die Verteilungszeilen zwei Elemente haben, besteht die Tabelle aus zwei Spalten. Die erste Spalte ist immer eine Variante - was wir studieren - wir nehmen seinen Namen von der Aufgabe (das Ende des Satzes mit der Aufgabe in den Bedingungen) - nach der Höhe des Gewinns - was bedeutet, dass unsere Variante die Höhe des Gewinns ist erhalten.

Die zweite Spalte ist die Häufigkeit – wie oft unsere Variante bei dem untersuchten Phänomen vorkommt – wir nehmen auch den Namen der Spalte aus der Zuordnung – die Verteilung der Unternehmen – das heißt unsere Häufigkeit ist die Anzahl der Unternehmen mit dem entsprechenden Gewinn, in dieser Fall fällt in das Intervall.

Als Ergebnis sieht das Layout unserer Tabelle wie folgt aus:

wobei i der Wert oder die Länge des Intervalls ist,

Xmax und Xmin - der maximale und minimale Wert des Merkmals,

n ist die erforderliche Anzahl von Gruppen gemäß der Bedingung des Problems.

Lassen Sie uns den Intervallwert für unser Beispiel berechnen. Dazu finden wir unter den Anfangsdaten die größten und kleinsten

23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63 - der Höchstwert beträgt 118 Millionen Rubel und der Mindestwert 9 Millionen Rubel. Lassen Sie uns die Formel berechnen.

Bei der Berechnung haben wir die Zahl 36, (3) drei im Zeitraum erhalten, in solchen Situationen muss der Wert des Intervalls auf einen größeren aufgerundet werden, damit nach den Berechnungen die maximalen Daten nicht verloren gehen, weshalb der Wert des Intervalls in der Berechnung beträgt 36,4 Millionen Rubel.

  1. Lassen Sie uns nun die Intervalle erstellen - unsere Optionen in diesem Problem. Das erste Intervall beginnt sich aufzubauen Mindestwert der Wert des Intervalls wird dazu addiert und die obere Grenze des ersten Intervalls wird erhalten. Dann wird die obere Grenze des ersten Intervalls zur unteren Grenze des zweiten Intervalls, der Wert des Intervalls wird dazu addiert und das zweite Intervall wird erhalten. Und so oft wie nötig, um Intervalle entsprechend der Kondition aufzubauen.

Achtung, wenn wir den Wert des Intervalls nicht auf 36,4 runden, sondern bei 36,3 belassen würden, dann wäre der letzte Wert 117,9. Um einen Datenverlust zu vermeiden, ist es notwendig, den Wert des Intervalls auf einen größeren Wert zu runden.

  1. Zählen wir die Anzahl der Unternehmen, die in jedes spezifische Intervall fallen. Bei der Verarbeitung von Daten muss beachtet werden, dass der obere Wert des Intervalls in diesem Intervall nicht berücksichtigt wird (nicht in diesem Intervall enthalten ist), aber im nächsten Intervall berücksichtigt wird (die untere Grenze des Intervalls wird enthalten in diesem Intervall, und das obere ist nicht enthalten), mit Ausnahme des letzten Intervalls.

Bei der Durchführung der Datenverarbeitung ist es am besten, die ausgewählten Daten mit herkömmlichen Symbolen oder Farbe zu kennzeichnen, um die Verarbeitung zu vereinfachen.

23 48 57 12 118 9 16 22

27 48 56 87 45 98 88 63

Wir bezeichnen das erste Intervall Gelb- und bestimmen, wie viele Daten in das Intervall von 9 bis 45,4 fallen, während diese 45,4 im zweiten Intervall berücksichtigt werden (sofern sie in den Daten enthalten sind) - als Ergebnis erhalten wir 7 Unternehmen im ersten Intervall. Und so weiter für alle Intervalle.

  1. (zusätzliche Aktion) Berechnen wir den Gesamtbetrag des Gewinns, den Unternehmen für jedes Intervall und im Allgemeinen erhalten. Dazu ergänzen wir die gekennzeichneten Daten verschiedene Farben und erhalten Sie den Gesamtwert des Gewinns.

Für das erste Intervall 23 + 12 + 9 + 16 + 22 + 27 + 45 = 154 Millionen Rubel

Für das zweite Intervall - 48 + 57 + 48 + 56 + 63 = 272 Millionen Rubel.

Für das dritte Intervall - 118 + 87 + 98 + 88 = 391 Millionen Rubel.

Übung . Es gibt Daten über die Größe der Einzahlung bei der Bank von 30 Einlegern, Tausend Rubel. 150, 120, 300, 650, 1500, 900, 450, 500, 380, 440,

600, 80, 150, 180, 250, 350, 90, 470, 1100, 800,

500, 520, 480, 630, 650, 670, 220, 140, 680, 320

Bauen Reihe von Intervallvariationen Verteilung der Einleger nach Höhe des Beitrags, wobei 4 Gruppen in gleichen Abständen hervorgehoben werden. Berechnen Sie für jede Gruppe die Gesamthöhe der Beiträge.

Senden Sie Ihre gute Arbeit in die Wissensdatenbank ist einfach. Verwenden Sie das untenstehende Formular

Gute Arbeit zur Seite">

Studenten, Doktoranden, junge Wissenschaftler, die die Wissensbasis in ihrem Studium und ihrer Arbeit nutzen, werden Ihnen sehr dankbar sein.

Veröffentlicht am http://www.allbest.ru/

AUFGABE1

Die folgenden Informationen sind verfügbar über Löhne Mitarbeiter im Unternehmen:

Tabelle 1.1

Die Höhe der Löhne in conv. Höhle. Einheiten

Es ist erforderlich, eine Intervallreihe der zu findenden Verteilung zu erstellen;

1) Durchschnittsgehalt;

2) durchschnittliche lineare Abweichung;

4) Standardabweichung;

5) Variationsbereich;

6) Oszillationskoeffizient;

7) linearer Variationskoeffizient;

8) einfacher Variationskoeffizient;

10) Mittelwert;

11) Asymmetriekoeffizient;

12) Pearson-Asymmetrieindex;

13) Kurtosis-Koeffizient.

Lösung

Wie Sie wissen, sind die Optionen (erkannte Werte) in aufsteigender Reihenfolge zu bilden diskrete Variationsreihe. Beim große Zahlen Variante (mehr als 10), auch bei diskreter Variation werden Intervallreihen gebildet.

Wird eine Intervallreihe mit geraden Intervallen erstellt, so wird die Schwankungsbreite durch die angegebene Anzahl Intervalle dividiert. Wenn in diesem Fall der resultierende Wert ganzzahlig und einwertig ist (was selten vorkommt), wird die Länge des Intervalls gleich dieser Zahl genommen. In anderen Fällen produziert Rundung Notwendig v Seite Vergrößerung, So zu die letzte verbleibende Ziffer war gerade. Offensichtlich wird mit zunehmender Länge des Intervalls die Schwankungsbreite um einen Wert, der gleich dem Produkt aus der Anzahl der Intervalle ist: um die Differenz zwischen der berechneten und der anfänglichen Länge des Intervalls

ein) Ist der Wert der Erweiterung der Variationsbreite unbedeutend, so wird er entweder zum größten hinzuaddiert oder vom kleinsten Wert des Merkmals abgezogen;

b) Wenn die Größe der Erweiterung des Variationsbereichs fühlbar ist, wird er, um ein Mischen der Mitte des Bereichs zu vermeiden, grob halbiert, wobei gleichzeitig der größte Wert addiert und von den kleinsten Werten subtrahiert wird Attribut.

Wird eine Intervallreihe mit ungleichen Intervallen erstellt, vereinfacht sich das Verfahren, allerdings muss die Länge der Intervalle wie bisher als Zahl mit der letzten geraden Ziffer ausgedrückt werden, was die nachträgliche Berechnung von numerischen Merkmalen stark vereinfacht.

30 - Stichprobengröße.

Lassen Sie uns eine Intervallverteilungsreihe mit der Sturges-Formel erstellen:

K \u003d 1 + 3,32 * lg n,

K - Anzahl der Gruppen;

K \u003d 1 + 3,32 * lg 30 \u003d 5,91 \u003d 6

Wir finden den Bereich des Zeichens - die Löhne der Mitarbeiter des Unternehmens - (x) gemäß der Formel

R \u003d xmax - xmin und durch 6 teilen; R=195-112=83

Dann wird die Länge des Intervalls sein l Bahn=83:6=13,83

Der Anfang des ersten Intervalls ist 112. Addiert zu 112 l ras=13,83, erhalten wir seinen Endwert 125,83, was auch der Beginn des zweiten Intervalls ist, und so weiter. das Ende des fünften Intervalls ist 195.

Beim Finden von Häufigkeiten sollte man sich an der Regel orientieren: "Wenn der Wert eines Merkmals mit der Grenze des internen Intervalls übereinstimmt, sollte es auf das vorherige Intervall bezogen werden."

Wir erhalten eine Intervallreihe von Häufigkeiten und Summenhäufigkeiten.

Tabelle 1.2

Daher haben 3 Mitarbeiter Gehälter. Zahlung von 112 bis 125,83 konventionellen Einheiten. Das höchste Gehalt Zahlung von 181,15 bis 195 konventionellen Einheiten. nur 6 Arbeiter.

Zur Berechnung der numerischen Merkmale wandeln wir die Intervallreihe in eine diskrete um, wobei wir als Variante die Mitte der Intervalle nehmen:

Tabelle 1.3

14131,83

Nach der gewichteten arithmetischen Mittelformel

cond.mon.un.

Durchschnittliche lineare Abweichung:

wobei xi der Wert des untersuchten Merkmals in der i-ten Einheit der Grundgesamtheit ist,

Der Durchschnittswert des untersuchten Merkmals.

Veröffentlicht am http://www.allbest.ru/

LVeröffentlicht am http://www.allbest.ru/

Geldeinheit

Standardabweichung:

Streuung:

Relative Schwankungsbreite (Schwingungskoeffizient): c=R:,

Relative lineare Abweichung: q = L:

Der Variationskoeffizient: V = y:

Der Oszillationskoeffizient zeigt die relative Schwankung der Extremwerte des Merkmals um das arithmetische Mittel, und der Variationskoeffizient charakterisiert den Grad und die Homogenität der Population.

c \u003d R: \u003d 83 / 159,485 * 100 % \u003d 52,043 %

Somit liegt die Differenz zwischen den Extremwerten um 5,16 % (=94,84 %-100 %) unter dem Durchschnittsgehalt der Beschäftigten im Unternehmen.

q \u003d L: \u003d 17,765 / 159,485 * 100% \u003d 11,139%

V \u003d y: \u003d 21,704 / 159,485 * 100% \u003d 13,609%

Der Variationskoeffizient beträgt weniger als 33 %, was auf eine schwache Variation der Löhne der Arbeitnehmer im Unternehmen hinweist, d. h. dass der Durchschnitt ein typisches Merkmal der Löhne von Arbeitern ist (homogenes Aggregat).

In der Intervallverteilungsreihe Mode wird durch die Formel bestimmt -

Die Häufigkeit des modalen Intervalls, d. h. das Intervall mit der größten Anzahl von Optionen;

Die Häufigkeit des Intervalls vor dem Modal;

Die Häufigkeit des Intervalls nach dem Modal;

Die Länge des modalen Intervalls;

Die untere Grenze des modalen Intervalls.

Zum Bestimmen Mediane in der Intervallreihe verwenden wir die Formel

wo ist die kumulative (kumulative) Häufigkeit des Intervalls vor dem Median;

Die untere Grenze des Medianintervalls;

Häufigkeit des Medianintervalls;

Die Länge des Medianintervalls.

Mittleres Intervall- Intervall, dessen kumulierte Häufigkeit (=3+3+5+7) die Hälfte der Summe der Häufigkeiten übersteigt - (153,49; 167,32).

Lassen Sie uns die Schiefe und Kurtosis berechnen, für die wir ein neues Arbeitsblatt erstellen werden:

Tabelle 1.4

Sachliche Daten

Geschätzte Daten

Berechnen Sie das Moment dritter Ordnung

Daher ist die Asymmetrie

Seit 0,3553 0,25 wird die Asymmetrie als signifikant erkannt.

Berechnen Sie das Moment der vierten Ordnung

Daher ist die Kurtosis

Als< 0, то эксцесс является плосковершинным.

Der Grad der Schiefe kann unter Verwendung des Schiefekoeffizienten von Pearson (As) bestimmt werden: Oszillationsabtastwert-Kostenumsatz

wo ist das arithmetische Mittel der Verteilungsreihe; - Mode; -- Standardabweichung.

Bei einer symmetrischen (normalen) Verteilung = Mo ist der Asymmetriekoeffizient also Null. Wenn Аs > 0, dann gibt es mehr Mode, also gibt es eine rechtsseitige Asymmetrie.

Als ob< 0, то меньше моды, следовательно, имеется левосторонняя асимметрия. Коэффициент асимметрии может изменяться от -3 до +3.

Die Verteilung ist nicht symmetrisch, sondern weist eine linksseitige Asymmetrie auf.

AUFGABE 2

Wie groß sollte der Stichprobenumfang sein, damit der Stichprobenfehler mit einer Wahrscheinlichkeit von 0,954 0,04 nicht überschreitet, wenn die Varianz aus früheren Erhebungen mit 0,24 bekannt ist?

Lösung

Der Stichprobenumfang für nicht wiederholte Stichproben wird nach folgender Formel berechnet:

t - Vertrauenskoeffizient (mit einer Wahrscheinlichkeit von 0,954 ist es gleich 2,0; bestimmt aus den Tabellen der Wahrscheinlichkeitsintegrale),

y2=0,24 - Standardabweichung;

10000 Menschen - Stichprobengröße;

Dx =0,04 - marginaler Fehler des Stichprobenmittelwerts.

Mit einer Wahrscheinlichkeit von 95,4 % kann argumentiert werden, dass die Stichprobengröße mit einem relativen Fehler von nicht mehr als 0,04 mindestens 566 Familien betragen sollte.

AUFGABE3

Die folgenden Daten sind über das Einkommen aus der Haupttätigkeit des Unternehmens in Millionen Rubel verfügbar.

Um eine Reihe von Dynamiken zu analysieren, bestimmen Sie die folgenden Indikatoren:

1) Kette und Basis:

Absolute Gewinne;

Wachstumsraten;

Geburtsraten;

2) mittel

Dynamikumfang;

Absolutes Wachstum;

Wachstumsrate;

Zunahme;

3) der absolute Wert von 1 % Wachstum.

Lösung

1. Absolutes Wachstum (Dj)- Dies ist der Unterschied zwischen dem nächsten Level der Serie und dem vorherigen (oder Basic):

Kette: Du \u003d yi - yi-1,

einfach: Du \u003d yi - y0,

yi - Zeilenebene,

i - Nummer der Zeilenebene,

y0 - Basisjahr Ebene.

2. Wachstumsrate (Tu) ist das Verhältnis der nächsten Ebene der Reihe und der vorherigen (oder des Basisjahres 2001):

Kette: Tu = ;

Grundlegend: Tu =

3. Wachstumsrate (TD) - Dies ist das Verhältnis des absoluten Wachstums zum vorherigen Niveau, ausgedrückt in %.

Kette: Tu = ;

Grundlegend: Tu =

4. Absoluter Wert von 1 % Anstieg (A)- ist das Verhältnis des absoluten Wachstums der Kette zur Wachstumsrate, ausgedrückt in %.

EIN =

Mittlere Reihenebene nach der arithmetischen Mittelformel berechnet.

Durchschnittliche Einkommenshöhe aus Kerntätigkeiten für 4 Jahre:

Durchschnittliches absolutes Wachstum berechnet nach der Formel:

wobei n die Anzahl der Ebenen in der Reihe ist.

Im Jahresdurchschnitt stiegen die Einnahmen aus Kerntätigkeiten um 3,333 Millionen Rubel.

Durchschnittliche jährliche Wachstumsrate berechnet nach der geometrischen Mittelformel:

уn - das letzte Level der Serie,

y0 - Erste Ebene Reihe.

Tu \u003d 100% \u003d 102,174%

Durchschnittliche jährliche Wachstumsrate berechnet nach der Formel:

T? \u003d Tu - 100 % \u003d 102,74 % - 100 % \u003d 2,74 %.

Somit stiegen die Einkünfte aus der Haupttätigkeit des Unternehmens im Jahresdurchschnitt um 2,74 %.

AUFGABENEIN4

Berechnung:

1. Individuelle Preisindizes;

2. Allgemeiner Umsatzindex;

3. Gesamtpreisindex;

4. Gesamtindex des physischen Volumens des Warenverkaufs;

5. Die absolute Wertsteigerung des Umsatzes und Zerlegung nach Faktoren (aufgrund von Preisänderungen und der Anzahl der verkauften Waren);

6. Ziehen Sie kurze Schlussfolgerungen zu allen erhaltenen Indikatoren.

Lösung

1. Gemäß der Bedingung beliefen sich die einzelnen Preisindizes für die Produkte A, B, C auf -

ipA=1,20; ipB=1,15; iрВ=1,00.

2. Der Gesamtumsatzindex wird nach folgender Formel berechnet:

Ich w \u003d \u003d 1470/1045 * 100% \u003d 140,67%

Der Handelsumsatz stieg um 40,67 % (140,67 % -100 %).

Im Durchschnitt stiegen die Rohstoffpreise um 10,24 %.

Die Höhe der Mehrkosten für Käufer aus Preiserhöhungen:

w(p) = ? p1q1-? p0q1 \u003d 1470 - 1333,478 \u003d 136,522 Millionen Rubel.

Infolge steigender Preise mussten Käufer zusätzlich 136,522 Millionen Rubel ausgeben.

4. Allgemeiner Index des physischen Handelsvolumens:

Das physische Handelsvolumen stieg um 27,61 %.

5. Definieren allgemeine Änderung Umsatz im zweiten Zeitraum im Vergleich zum ersten Zeitraum:

w \u003d 1470- 1045 \u003d 425 Millionen Rubel.

aufgrund von Preisänderungen:

W(p) \u003d 1470 - 1333,478 \u003d 136,522 Millionen Rubel.

durch Ändern des physikalischen Volumens:

w(q) \u003d 1333,478 - 1045 \u003d 288,478 Millionen Rubel.

Der Warenumsatz stieg um 40,67 %. Die durchschnittlichen Preise für 3 Waren stiegen um 10,24 %. Das physische Handelsvolumen stieg um 27,61 %.

Im Allgemeinen stieg das Umsatzvolumen um 425 Millionen Rubel, unter anderem aufgrund steigender Preise um 136,522 Millionen Rubel und aufgrund eines Anstiegs des Verkaufsvolumens um 288,478 Millionen Rubel.

AUFGABE5

Für 10 Anlagen einer Branche liegen folgende Daten vor.

Fabrik-Nr.

Ausgabe, tausend Stück (X)

Basierend auf den angegebenen Daten:

I) um die Bestimmungen zu bestätigen logische Analyseüber das Vorhandensein einer geradlinigen Korrelation zwischen dem Faktorindikator (Ausgangsvolumen) und dem effektiven Indikator (Stromverbrauch), zeichnen Sie die Anfangsdaten in das Korrelationsfelddiagramm auf und ziehen Sie Schlussfolgerungen über die Form der Beziehung, geben Sie ihre Formel an;

2) bestimme die Parameter der Verbindungsgleichung und trage die resultierende theoretische Linie in den Graphen des Korrelationsfeldes ein;

3) Berechnen Sie den linearen Korrelationskoeffizienten,

4) die Werte der in den Absätzen 2) und 3 erhaltenen Indikatoren erläutern;

5) Erstellen Sie anhand des erhaltenen Modells eine Prognose über den möglichen Stromverbrauch in einer Anlage mit einem Produktionsvolumen von 4,5 Tausend Einheiten.

Lösung

Zeichendaten - das Ausgabevolumen (Faktor), bezeichnet mit хi; Vorzeichen - Stromverbrauch (Ergebnis) durch ui; Punkte mit Koordinaten (x, y) werden auf dem OXY-Korrelationsfeld aufgetragen.

Die Punkte des Korrelationsfeldes liegen entlang einer geraden Linie. Der Zusammenhang ist also linear, wir suchen die Regressionsgleichung in Form einer Geraden Yx=ax+b. Um es zu finden, verwenden wir das System der Normalgleichungen:

Lassen Sie uns eine Tabelle erstellen.

Basierend auf den gefundenen Mittelwerten stellen wir das System zusammen und lösen es bezüglich der Parameter a und b:

Wir erhalten also die Regressionsgleichung für y auf x: \u003d 3,57692 x + 3,19231

Wir bauen eine Regressionsgerade auf dem Korrelationsfeld auf.

Wenn wir die x-Werte aus Spalte 2 in die Regressionsgleichung einsetzen, erhalten wir die berechneten (Spalte 7) und vergleichen sie mit den y-Daten, die sich in Spalte 8 widerspiegeln. Übrigens wird auch die Richtigkeit der Berechnungen bestätigt durch das Zusammenfallen der Mittelwerte von y und.

Koeffizientlinearer Zusammenhang wertet die Enge der Beziehung zwischen den Merkmalen x und y aus und wird durch die Formel berechnet

Der Winkelkoeffizient der direkten Regression a (bei x) charakterisiert die Richtung des IdentifiziertenAbhängigkeitenZeichen: für a>0 sind sie gleich, für a<0- противоположны. Sein Absolut Wert - ein Maß für die Änderung des resultierenden Vorzeichens, wenn sich das Fakultätszeichen pro Maßeinheit ändert.

Das freie Mitglied der direkten Regression offenbart die Richtung und ihren absoluten Wert – ein quantitatives Maß für den Einfluss auf das effektive Vorzeichen aller anderen Faktoren.

Wenn< 0, dann wird die Ressource des Faktorattributs eines einzelnen Objekts mit weniger verwendet, und wann>0 Mithöhere Leistung als der Durchschnitt für den gesamten Satz von Objekten.

Lassen Sie uns eine Post-Regressionsanalyse durchführen.

Der Koeffizient bei x der direkten Regression ist 3,57692 > 0, daher steigt (fällt) der Stromverbrauch mit einer Erhöhung (Verringerung) der Leistung. Produktionssteigerung um 1 Tausend Stück. ergibt eine durchschnittliche Erhöhung des Stromverbrauchs um 3,57692 Tausend kWh.

2. Der freie Term der direkten Regression ist gleich 3,19231, daher erhöht der Einfluss anderer Faktoren den Einfluss der Leistung auf den Stromverbrauch in absoluten Zahlen um 3,19231 Tausend kWh.

3. Der Korrelationskoeffizient von 0,8235 zeigt eine sehr enge Abhängigkeit des Stromverbrauchs von der Leistung.

Es ist einfach, Vorhersagen mit der Regressionsmodellgleichung zu treffen. Dazu werden die x-Werte als Ausgangsvolumen in die Regressionsgleichung eingesetzt und der Stromverbrauch prognostiziert. In diesem Fall können die Werte von x nicht nur innerhalb eines bestimmten Bereichs, sondern auch außerhalb davon genommen werden.

Lassen Sie uns eine Prognose über den möglichen Stromverbrauch in einem Werk mit einem Produktionsvolumen von 4,5 Tausend Einheiten erstellen.

3,57692*4,5 + 3,19231= 19,288 45 Tausend kWh.

LISTE DER VERWENDETEN QUELLEN

1. Sacharenkow S.N. Sozioökonomische Statistik: Studienführer. - Minsk: BSEU, 2002.

2. Efimova M.R., Petrova E.V., Rumyantsev V.N. Allgemeine Theorie der Statistik. - M.: INFRA - M., 2000.

3. Eliseeva I.I. Statistiken. - M.: Prospekt, 2002.

4. Allgemeine Theorie der Statistik / Ed. ed. OE Bashina, A.A. Spirin. - M.: Finanzen und Statistik, 2000.

5. Sozioökonomische Statistik: Lehrbuch.-Praxis. Zulage / Zakharenkov S.N. usw. - Minsk: YSU, 2004.

6. Sozioökonomische Statistiken: Proc. Beihilfe. / Ed. Nesterowitsch S.R. - Minsk: BSEU, 2003.

7. Teslyuk I. E., Tarlovskaya V. A., Terlizhenko N. Statistics – Minsk, 2000.

8. Kharchenko L.P. Statistiken. -M.: INFRA-M, 2002.

9. Kharchenko L.P., Dolzhenkova V.G., Ionin V.G. Statistiken. -M.: INFRA-M, 1999.

10. Wirtschaftsstatistik / Ed. Yu.N. Ivanova-M., 2000.

Gehostet auf Allbest.ru

...

Ähnliche Dokumente

    Berechnung des arithmetischen Mittels der Intervallverteilungsreihe. Bestimmung des allgemeinen Index des physischen Handelsvolumens. Analyse der absoluten Änderung der Gesamtproduktionskosten aufgrund von Änderungen des physischen Volumens. Berechnung des Variationskoeffizienten.

    Test, hinzugefügt am 19.07.2010

    Die Essenz des Groß- und Einzelhandels und des öffentlichen Handels. Formeln zur Berechnung einzelner, aggregierter Umsatzindizes. Berechnung der Merkmale der Intervallverteilungsreihe - arithmetisches Mittel, Modus und Median, Variationskoeffizient.

    Seminararbeit, hinzugefügt am 10.05.2013

    Berechnung des geplanten und tatsächlichen Umsatzvolumens, des Prozentsatzes des Plans, der absoluten Umsatzänderung. Bestimmung des absoluten Wachstums, der durchschnittlichen Wachstumsraten und des Wachstums der Bareinnahmen. Berechnung struktureller Mittelwerte: Modi, Mediane, Quartile.

    Test, hinzugefügt am 24.02.2012

    Intervallreihe der Verteilung der Banken nach Gewinnvolumen. Ermitteln des Modus und Medians der erhaltenen Intervallverteilungsreihen durch ein grafisches Verfahren und durch Berechnung. Berechnung der Merkmale der Intervallverteilungsreihe. Berechnung des arithmetischen Mittels.

    Test, hinzugefügt am 15.12.2010

    Formeln zur Bestimmung der Durchschnittswerte der Intervallreihen - Modi, Mediane, Varianzen. Berechnung analytischer Indikatoren von Zeitreihen nach Ketten- und Grundschemata, Wachstumsraten und Wachstum. Das Konzept eines zusammengesetzten Index aus Kosten, Preisen, Kosten und Umsatz.

    Seminararbeit, hinzugefügt am 27.02.2011

    Das Konzept und der Zweck, die Reihenfolge und die Regeln für den Aufbau einer Variationsreihe. Analyse der Datenhomogenität in Gruppen. Indikatoren für die Variation (Fluktuation) eines Merkmals. Bestimmung der mittleren linearen und quadratischen Abweichung, des Oszillationskoeffizienten und der Streuung.

    Test, hinzugefügt am 26.04.2010

    Das Konzept von Modus und Median als typische Merkmale, die Reihenfolge und Kriterien für ihre Bestimmung. Ermitteln des Modus und des Medians in einer diskreten und Intervall-Variationsserie. Quartile und Dezile als zusätzliche Merkmale der variationellen statistischen Reihen.

    Test, hinzugefügt am 11.09.2010

    Aufbau einer Intervallreihenverteilung auf Gruppierungsbasis. Charakterisierung der Häufigkeitsverteilungsabweichung von der symmetrischen Form, Berechnung von Kurtosis- und Asymmetrieindikatoren. Analyse von Indikatoren Bilanz oder Einkommensnachweis.

    Kontrollarbeiten, hinzugefügt am 19.10.2014

    Transformation der empirischen Reihe in diskret und Intervall. Definition mittlere Größe in einer diskreten Reihe unter Verwendung ihrer Eigenschaften. Berechnung einer diskreten Reihe von Moden, Medianen, Variationsindikatoren (Streuung, Abweichung, Oszillationskoeffizient).

    Test, hinzugefügt am 17.04.2011

    Aufbau einer statistischen Reihe zur Verteilung von Organisationen. Grafische Definition von Moduswert und Median. Die Enge der Korrelation mit der Verwendung des Bestimmtheitsmaßes. Definition von Stichprobenfehler durchschnittliche Mitarbeiterzahl Arbeitskräfte.

In vielen Fällen umfasst diese statistische Grundgesamtheit eine große oder sogar noch mehr Unendliche Nummer Variante, die meistens bei kontinuierlicher Variation auftritt, ist es praktisch unmöglich und unpraktisch, für jede Variante eine Gruppe von Einheiten zu bilden. In solchen Fällen ist die Zuordnung von statistischen Einheiten zu Gruppen nur auf der Grundlage des Intervalls möglich, d. h. eine solche Gruppe, die bestimmte Grenzen der Werte des variierenden Attributs hat. Diese Grenzen werden durch zwei Zahlen angezeigt, die die Ober- und Untergrenze jeder Gruppe angeben. Die Verwendung von Intervallen führt zur Bildung einer Intervallverteilungsreihe.

Intervall rad ist eine Variationsreihe, deren Varianten als Intervalle dargestellt werden.

Die Intervallreihen können mit gleichen und ungleichen Intervallen gebildet werden, wobei die Wahl des Prinzips zur Konstruktion dieser Reihen hauptsächlich vom Grad der Repräsentativität und Bequemlichkeit der statistischen Grundgesamtheit abhängt. Ist die Menge hinsichtlich der Anzahl der Einheiten ausreichend groß (repräsentativ) und recht homogen zusammengesetzt, so empfiehlt es sich, bei der Bildung der Intervallreihen auf gleiche Intervalle abzustellen. Üblicherweise wird nach diesem Prinzip eine Intervallreihe für Populationen gebildet, bei denen die Schwankungsbreite relativ gering ist, d.h. die Maximum- und Minimum-Varianten unterscheiden sich meist um ein Vielfaches voneinander. In diesem Fall wird der Wert gleicher Intervalle durch das Verhältnis der Bandbreite der Merkmalsvariation zur gegebenen Anzahl gebildeter Intervalle berechnet. Gleich zu bestimmen und Intervall kann die Sturgess-Formel verwendet werden (normalerweise mit einer kleinen Variation der Intervallmerkmale und einer großen Anzahl von Einheiten in der statistischen Grundgesamtheit):

wo x i - der Wert eines gleichen Intervalls; X max, X min - maximale und minimale Optionen in der statistischen Grundgesamtheit; n . - die Anzahl der Einheiten in der Bevölkerung.

Beispiel. Es ist ratsam, die Größe eines gleichen Intervalls entsprechend der Dichte der radioaktiven Kontamination mit Cäsium - 137 in 100 Siedlungen des Bezirks Krasnopolsky des Gebiets Mogilev zu berechnen, wenn bekannt ist, dass die anfängliche (minimale) Variante gleich 1 km ist / km 2, das Finale ( maximal) - 65 ki / km 2. Mit der Formel 5.1. wir bekommen:

Um eine Intervallreihe mit gleichen Intervallen für die Dichte der Cäsiumverschmutzung zu bilden - 137 Siedlungen des Krasnopolsky-Bezirks, kann die Größe eines gleichen Intervalls 8 ki/km 2 betragen.

Bei ungleichmäßiger Verteilung, d.h. Wenn die maximalen und minimalen Optionen hundertfach sind, können Sie beim Bilden der Intervallreihen das Prinzip anwenden ungleich Intervalle. Ungleiche Intervalle nehmen normalerweise zu, wenn Sie zu größeren Werten des Merkmals wechseln.

Die Form der Intervalle kann geschlossen und offen sein. Abgeschlossen Es ist üblich, Intervalle zu nennen, für die sowohl die untere als auch die obere Grenze angegeben sind. offen Intervalle haben nur eine Grenze: im ersten Intervall - die obere, im letzten - die untere Grenze.

Es empfiehlt sich, Intervallreihen, insbesondere solche mit ungleichen Intervallen, zu berücksichtigen Verteilungsdichte, Der einfachste Weg, um zu berechnen, welches das Verhältnis der lokalen Frequenz (oder Frequenz) zur Größe des Intervalls ist.

Für die praktische Bildung der Intervallreihen können Sie das Layout der Tabelle verwenden. 5.3.

T a b e l 5.3. Die Reihenfolge der Bildung der Intervallreihen Siedlungen Bezirk Krasnopolsky nach der Dichte der radioaktiven Kontamination mit Cäsium -137

Der Hauptvorteil der Intervallreihe ist ihre Grenze Kompaktheit. gleichzeitig werden in den Intervallreihen der Verteilung die einzelnen Varianten des Merkmals in den entsprechenden Intervallen ausgeblendet

Bei einer graphischen Darstellung einer Intervallreihe in einem rechtwinkligen Koordinatensystem sind die oberen Grenzen der Intervalle auf der Abszissenachse und die Ortshäufigkeiten der Reihe auf der Ordinatenachse aufgetragen. Die grafische Konstruktion einer Intervallreihe unterscheidet sich von der Konstruktion eines Verteilungspolygons dadurch, dass jedes Intervall eine untere und eine obere Grenze hat und zwei Abszissen einem beliebigen Wert der Ordinate entsprechen. Daher wird in der Grafik der Intervallreihe nicht wie bei einem Polygon ein Punkt markiert, sondern eine Linie, die zwei Punkte verbindet. Diese horizontalen Linien werden durch vertikale Linien miteinander verbunden, und es wird eine Figur eines abgestuften Polygons erhalten, die üblicherweise als "abgestuftes Polygon" bezeichnet wird Histogramm Verteilungen (Abbildung 5.3).

Bei der grafischen Konstruktion einer Intervallreihe für eine ausreichend große Grundgesamtheit nähert sich das Histogramm an symmetrisch Verteilungsform. In den Fällen, in denen die statistische Grundgesamtheit klein ist, wird sie in der Regel gebildet asymmetrisch Balkendiagramm.

In einigen Fällen ist es zweckmäßig, mehrere akkumulierte Frequenzen zu bilden, d. h. kumulativ Reihe. Eine kumulative Reihe kann auf der Grundlage einer diskreten oder Intervallverteilungsreihe gebildet werden. Wenn eine kumulative Reihe graphisch in einem System von rechtwinkligen Koordinaten angezeigt wird, werden Optionen auf der Abszissenachse aufgetragen und akkumulierte Häufigkeiten (Frequenzen) werden auf der Ordinatenachse aufgetragen. Die resultierende gekrümmte Linie wird aufgerufen kumulativ Verteilungen (Abbildung 5.4).

Gestaltung und grafische Darstellung verschiedene Sorten Variationsreihen tragen zu einer vereinfachten Berechnung der wichtigsten statistischen Merkmale bei, die in Thema 6 ausführlich behandelt werden, und helfen, das Wesen der Verteilungsgesetze einer statistischen Grundgesamtheit besser zu verstehen. Die Analyse der Variantenreihen ist insbesondere dann von Bedeutung, wenn es darum geht, den Zusammenhang zwischen Varianten und Häufigkeiten (Häufigkeiten) zu erkennen und nachzuvollziehen. Diese Abhängigkeit äußert sich darin, dass die Fallzahl für jede Variante in gewissem Zusammenhang mit dem Wert dieser Variante steht, d.h. mit einer Erhöhung der Werte des variierenden Vorzeichens der Häufigkeit (Frequenz) dieser Werte erfahren sie bestimmte, systematische Veränderungen. Das bedeutet, dass die Zahlen in der Spalte der Häufigkeiten (Frequenzen) keinen chaotischen Schwankungen unterliegen, sondern sich in eine bestimmte Richtung, in einer bestimmten Reihenfolge und Abfolge ändern.

Zeigen die Häufigkeiten in ihren Veränderungen eine gewisse Systematik, dann sind wir auf dem Weg, Muster zu erkennen. Das System, die Reihenfolge, die Reihenfolge in sich ändernden Frequenzen ist ein Spiegelbild gemeinsamer Ursachen, Allgemeine Bedingungen charakteristisch für die gesamte Bevölkerung.

Es sollte nicht davon ausgegangen werden, dass das Verteilungsmuster immer vorgegeben ist fertig. Es gibt ziemlich viele Variationsreihen, in denen die Frequenzen bizarr springen, entweder steigend oder fallend. In solchen Fällen ist es ratsam herauszufinden, mit welcher Art von Verteilung der Forscher es zu tun hat: Entweder ist diese Verteilung den Mustern überhaupt nicht inhärent, oder ihre Art wurde noch nicht identifiziert: Der erste Fall ist selten, während der zweite, der zweite Fall ist ein ziemlich häufiges und sehr häufiges Phänomen.

Wenn Sie also eine Intervallreihe bilden, kann die Gesamtzahl der statistischen Einheiten gering sein, und eine kleine Anzahl von Optionen fällt in jedes Intervall (z. B. 1-3 Einheiten). In solchen Fällen ist es nicht notwendig, mit der Manifestation einer Regelmäßigkeit zu rechnen. Damit aufgrund von Zufallsbeobachtungen ein regelmäßiges Ergebnis erzielt werden kann, ist das Inkrafttreten des Gesetzes erforderlich große Zahlen, d.h. so dass es für jedes Intervall nicht mehrere, sondern Dutzende und Hunderte von statistischen Einheiten gäbe. Zu diesem Zweck müssen wir versuchen, die Zahl der Beobachtungen so weit wie möglich zu erhöhen. Das ist das meiste der richtige Weg Erkennung von Mustern in Massenprozessen. Wenn es nicht erscheint echte Chance die Anzahl der Beobachtungen erhöhen, dann kann die Identifizierung von Mustern erreicht werden, indem die Anzahl der Intervalle in der Verteilungsreihe reduziert wird. Reduzieren der Anzahl der Intervalle in der Variationsreihe, wodurch die Anzahl der Frequenzen in jedem Intervall erhöht wird. Das bedeutet, dass sich die zufälligen Schwankungen jeder statistischen Einheit überlagern, „glätten“ und zu einem Muster werden.

Die Bildung und Konstruktion von Variationsreihen ermöglicht nur ein allgemeines, ungefähres Bild der Verteilung der statistischen Grundgesamtheit. Beispielsweise stellt ein Histogramm die Beziehung zwischen den Werten eines Merkmals und seinen Häufigkeiten (Häufigkeiten) nur grob dar. Daher sind Variationsreihen im Wesentlichen nur die Grundlage für eine weitere, eingehende Untersuchung der internen Regelmäßigkeit einer statischen Verteilung.

THEMA 5 FRAGEN

1. Was ist Variation? Was verursacht die Variation eines Merkmals in einer statistischen Grundgesamtheit?

2. Welche Arten von Wechselzeichen können in der Statistik vorkommen?

3. Was ist eine Variationsserie? Welche Arten von Variationsreihen gibt es?

4. Was ist eine Rangliste? Was sind seine Vor- und Nachteile?

5. Was ist eine diskrete Reihe und was sind ihre Vor- und Nachteile?

6. In welcher Reihenfolge werden die Intervallreihen gebildet, was sind ihre Vor- und Nachteile?

7. Was ist eine grafische Darstellung einer geordneten, diskreten Intervallverteilungsreihe?

8. Was ist Verteilung kumulieren und was charakterisiert es?