Verteilungs- und Gruppierungsreihen. Konstruktion einer diskreten Variationsreihe

Labor arbeit №1

Von mathematische Statistik

Thema: Primäre Verarbeitung experimenteller Daten

3. Bewertung in Punkten. ein

5. Testfragen.. 2

6. Methodik zur Durchführung von Laborarbeiten .. 3

Zielsetzung

Erwerb von Fähigkeiten zur Primärverarbeitung empirischer Daten mit Methoden der mathematischen Statistik.

Führen Sie auf der Grundlage einer Reihe experimenteller Daten die folgenden Aufgaben aus:

Übung 1. Konstruieren Sie eine Intervallvariationsreihe der Verteilung.

Aufgabe 2. Erstellen Sie ein Histogramm der Häufigkeiten der Intervallvariationsreihen.

Aufgabe 3. Erstellen Sie eine empirische Verteilungsfunktion und zeichnen Sie sie auf.

a) Modus und Median;

b) bedingte Anfangsmomente;

c) Stichprobenmittelwert;

d) Stichprobenvarianz, korrigierte Grundgesamtheitsvarianz, korrigierter Mittelwert Standardabweichung;

e) Variationskoeffizient;

e) Asymmetrie;

g) Kurtosis;

Aufgabe 5. Grenzen definieren wahre Werte numerische Merkmale, die untersuchte Zufallsvariable mit einer gegebenen Zuverlässigkeit.

Aufgabe 6. Aussagekräftige Interpretation der Ergebnisse der Primärverarbeitung entsprechend der Problemstellung.

Punkte sammeln

Aufgaben 1-56 Punkte

Aufgabe 62 Punkte

Laborschutz(mündliches Interview zu Kontrollfragen und Laborarbeiten) - 2 Punkte

Die Arbeit wird schriftlich auf A4-Blättern eingereicht und beinhaltet:

1) Titelblatt(Anhang 1)

2) Anfangsdaten.

3) Präsentation der Arbeit nach vorgegebenem Muster.

4) Berechnungsergebnisse (manuell und/oder mit MS Excel durchgeführt) in der angegebenen Reihenfolge.

5) Schlussfolgerungen - eine sinnvolle Interpretation der Ergebnisse der Primärverarbeitung entsprechend der Problembedingung.

6) Mündliches Gespräch über Arbeits- und Kontrollfragen.



5. Sicherheitsfragen


Methodik zur Durchführung von Laborarbeiten

Aufgabe 1. Konstruieren Sie eine Intervallvariationsreihe der Verteilung

Um statistische Daten in Form einer Variationsreihe mit gleichabständigen Varianten darzustellen, ist Folgendes erforderlich:

1. Suchen Sie in der ursprünglichen Datentabelle die kleinsten und größten Werte.

2. Bestimmen Variationsbreite :

3. Bestimmen Sie die Länge des Intervalls h, wenn die Stichprobe bis zu 1000 Daten enthält, verwenden Sie die Formel: , wobei n - Stichprobengröße - die Datenmenge in der Stichprobe; lgn wird für Berechnungen verwendet).

Das berechnete Verhältnis wird aufgerundet praktischer ganzzahliger Wert .

4. Um den Beginn des ersten Intervalls für eine gerade Anzahl von Intervallen zu bestimmen, empfiehlt es sich, den Wert zu nehmen; und für eine ungerade Anzahl von Intervallen .

5. Gruppierungsintervalle aufzeichnen und in aufsteigender Reihenfolge der Grenzen anordnen

, ,………., ,

wo ist die untere Grenze des ersten Intervalls. Eine bequeme Zahl wird für nicht mehr als genommen, die Obergrenze des letzten Intervalls darf nicht kleiner sein als . Es wird empfohlen, dass die Intervalle die Anfangswerte der Zufallsvariablen enthalten und von diesen getrennt werden 5 bis 20 Intervalle.

6. Schreiben Sie die Anfangsdaten zu den Gruppierungsintervallen auf, d.h. Berechnen Sie aus der Originaltabelle die Anzahl der Werte einer Zufallsvariablen, die in die angegebenen Intervalle fallen. Wenn einige Werte mit den Grenzen der Intervalle übereinstimmen, dann werden sie entweder nur dem vorherigen oder nur dem nachfolgenden Intervall zugeschrieben.

Bemerkung 1. Die Intervalle müssen nicht gleich lang genommen werden. In Bereichen, in denen die Werte dichter sind, ist es bequemer, kleinere kurze Intervalle zu nehmen, und wo seltener - größere.

Bemerkung 2.Wenn für einige Werte „Null“ oder kleine Frequenzwerte erhalten werden, müssen die Daten neu gruppiert und die Intervalle vergrößert werden (Erhöhung des Schritts ).

Laborarbeit №1. Primäre Verarbeitung statistischer Daten

Aufbau von Vertriebsserien

Die geordnete Verteilung von Bevölkerungseinheiten in Gruppen nach einem beliebigen Attribut wird genannt Nahverteilung . In diesem Fall kann das Vorzeichen sowohl quantitativ sein, als auch die Reihe genannt wird variabel , und qualitativ, dann heißt die Reihe attributiv . Beispielsweise kann die Einwohnerzahl einer Stadt entsprechend verteilt werden Altersgruppen in eine Variationsreihe, oder je nach Berufszugehörigkeit in eine Merkmalsreihe (natürlich können noch viele weitere qualitative und quantitative Merkmale zum Aufbau von Verteilungsreihen angeboten werden, die Auswahl eines Merkmals richtet sich nach der Aufgabenstellung statistische Forschung).

Jede Vertriebsreihe ist durch zwei Elemente gekennzeichnet:

- Möglichkeit(x ich) - Dies sind einzelne Werte des Attributs der Einheiten der Stichprobenpopulation. Bei einer Variationsreihe nimmt die Variante numerische Werte an, bei einer attributiven Reihe - qualitative (z. B. x = "Beamter");

- Frequenz(n ich) ist eine Zahl, die angibt, wie oft dieser oder jener Merkmalswert vorkommt. Wenn die Häufigkeit als relative Zahl ausgedrückt wird (d. h. der Anteil der Bevölkerungselemente, die einem bestimmten Wert von Optionen am Gesamtvolumen der Bevölkerung entsprechen), dann wird sie aufgerufen relative Frequenz oder Frequenz.

Variationsreihe kann sein:

- diskret wenn das untersuchte Merkmal durch eine bestimmte Zahl (normalerweise eine ganze Zahl) gekennzeichnet ist.

- Intervall wenn die Grenzen "von" und "bis" für ein kontinuierlich variables Merkmal definiert sind. Intervallserie auch bauen, wenn die Wertemenge eines diskret variablen Attributs groß ist.

Eine Intervallreihe kann sowohl mit gleich langen Intervallen (gleiche Intervallreihen) als auch mit ungleichen Intervallen gebildet werden, wenn es die Bedingungen der statistischen Untersuchung erfordern. Beispielsweise kann eine Reihe von Einkommensverteilungen der Bevölkerung mit folgenden Intervallen betrachtet werden:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



wobei k die Anzahl der Intervalle und n die Stichprobengröße ist. (Natürlich ergibt die Formel normalerweise eine Bruchzahl, und die der resultierenden Zahl am nächsten liegende ganze Zahl wird als Anzahl der Intervalle gewählt.) Die Länge des Intervalls wird in diesem Fall durch die Formel bestimmt

.

Grafisch können Variationsreihen dargestellt werden als Histogramme(Über jedem Intervall der Intervallreihe wird eine der Häufigkeit in diesem Intervall entsprechende "Säule" der Höhe errichtet), Verbreitungsgebiet(gestrichelte Linie Verbindungspunkte ( x ich;n ich) oder kumuliert(konstruiert nach den akkumulierten Häufigkeiten, d.h. für jeden Wert des Attributs wird die Häufigkeit des Auftretens in der Menge der Objekte mit einem Wert des Attributs kleiner als der angegebene genommen).

Beim Arbeiten in Excel können die folgenden Funktionen zum Erstellen von Variationsreihen verwendet werden:

ÜBERPRÜFEN( Datenarray) – zur Bestimmung des Stichprobenumfangs. Das Argument ist der Zellbereich, der die Beispieldaten enthält.

ZÄHLENWENN( Angebot; Kriterium) - kann verwendet werden, um eine Attribut- oder Variationsserie zu erstellen. Die Argumente sind der Bereich des Attribut-Beispielwerte-Arrays und das Kriterium - der numerische oder Textwert des Attributs oder die Nummer der Zelle, in der es sich befindet. Das Ergebnis ist die Häufigkeit des Auftretens dieses Werts in der Probe.

FREQUENZ( Datenarray; Intervall-Array) – zum Aufbau einer Variationsreihe. Die Argumente sind der Bereich des Beispieldatenarrays und die Intervallspalte. Wenn es erforderlich ist, eine diskrete Reihe zu erstellen, werden hier die Werte der Optionen angegeben, wenn es sich um ein Intervall handelt, dann die oberen Grenzen der Intervalle (sie werden auch "Taschen" genannt). Da das Ergebnis eine Häufigkeitsspalte ist, muss die Einführung der Funktion mit der Tastenkombination STRG+SHIFT+ENTER abgeschlossen werden. Beachten Sie, dass beim Festlegen eines Arrays von Intervallen beim Einführen einer Funktion der letzte Wert darin weggelassen werden kann - alle Werte, die nicht in die vorherigen "Taschen" gefallen sind, werden in der entsprechenden "Tasche" platziert. Dies hilft manchmal, den Fehler zu vermeiden, dass der größte Abtastwert nicht automatisch in die letzte „Tasche“ platziert wird.

Darüber hinaus wird für komplexe Gruppierungen (nach mehreren Kriterien) das Tool „Pivot-Tabellen“ verwendet. Sie können auch verwendet werden, um Attribut- und Variationsserien zu erstellen, aber das verkompliziert die Aufgabe unnötigerweise. Um eine Variationsreihe und ein Histogramm zu erstellen, gibt es außerdem ein „Histogramm“-Verfahren aus dem Add-In „Analysis Package“ (um Add-Ins in Excel zu verwenden, müssen Sie sie zuerst herunterladen, sie werden nicht standardmäßig installiert).

Wir veranschaulichen den Prozess der primären Datenverarbeitung mit den folgenden Beispielen.

Beispiel 1.1. es gibt Daten über die quantitative Zusammensetzung von 60 Familien.

Erstellen Sie eine Variationsreihe und ein Verteilungspolygon

Entscheidung.

Lassen Sie uns die Excel-Tabellen öffnen. Lassen Sie uns ein Array von Daten im Bereich A1:L5 eingeben. Wenn Sie ein Dokument in elektronischer Form (z. B. im Word-Format) studieren, müssen Sie lediglich eine Tabelle mit Daten auswählen und in die Zwischenablage kopieren, dann Zelle A1 auswählen und die Daten einfügen - sie werden automatisch belegt entsprechende Reichweite. Berechnen wir die Stichprobengröße n - die Anzahl der Stichprobendaten. Geben Sie dazu in Zelle B7 die Formel = ANZAHL (A1: L5) ein. Beachten Sie, dass es zur Eingabe des gewünschten Bereichs in die Formel nicht erforderlich ist, seine Bezeichnung über die Tastatur einzugeben, es reicht aus, sie auszuwählen. Lassen Sie uns die Mindest- und Höchstwerte in der Probe bestimmen, indem Sie die Formel =MIN(A1:L5) in Zelle B8 und in Zelle B9 eingeben: =MAX(A1:L5).

Abb.1.1 Beispiel 1. Primäre Verarbeitung statistischer Daten in Excel-Tabellen

Als Nächstes bereiten wir eine Tabelle zum Erstellen einer Variationsreihe vor, indem wir Namen für die Intervallspalte (Variantenwerte) und die Häufigkeitsspalte eingeben. Geben Sie in der Spalte der Intervalle die Werte des Attributs vom Minimum (1) bis zum Maximum (6) ein und belegen Sie den Bereich B12:B17. Wählen Sie die Häufigkeitsspalte aus, geben Sie die Formel =HÄUFIGKEIT(A1:L5;B12:B17) ein und drücken Sie die Tastenkombination STRG+UMSCHALT+EINGABETASTE

Abb.1.2 Beispiel 1. Konstruktion einer Variationsreihe

Zur Kontrolle berechnen wir die Summe der Häufigkeiten mit der SUM-Funktion (Funktionssymbol S in der Gruppe Bearbeiten auf der Registerkarte Start), die berechnete Summe muss mit dem zuvor berechneten Stichprobenumfang in Zelle B7 übereinstimmen.

Lassen Sie uns nun ein Polygon erstellen: Nachdem Sie den resultierenden Frequenzbereich ausgewählt haben, wählen Sie den Befehl "Grafik" auf der Registerkarte "Einfügen". Standardmäßig sind die Werte auf der horizontalen Achse Ordnungszahlen - in unserem Fall von 1 bis 6, was mit den Werten der Optionen (Anzahl der Tarifkategorien) übereinstimmt.

Der Name der Serie des Diagramms „Serie 1“ kann entweder über die gleiche Option „Daten auswählen“ auf der Registerkarte „Designer“ geändert oder einfach gelöscht werden.

Abb.1.3. Beispiel 1. Erstellen eines Frequenzpolygons

Beispiel 1.2. Es liegen Daten zu Schadstoffemissionen aus 50 Quellen vor:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Stellen Sie eine Serie mit gleichen Intervallen zusammen, erstellen Sie ein Histogramm

Entscheidung

Fügen wir einer Excel-Tabelle ein Datenarray hinzu, das den Bereich A1:J5 belegt. Wie in der vorherigen Aufgabe werden wir die Stichprobengröße n sowie die Mindest- und Höchstwerte in der Stichprobe bestimmen. Da wir nun keine diskrete, sondern eine Intervallreihe benötigen und die Anzahl der Intervalle im Problem nicht angegeben ist, berechnen wir die Anzahl der Intervalle k mit der Sturgess-Formel. Geben Sie dazu in Zelle B10 die Formel =1+3,322*LOG10(B7) ein.

Abb.1.4. Beispiel 2. Konstruktion einer Reihe gleicher Intervalle

Der resultierende Wert ist keine ganze Zahl, er beträgt ungefähr 6,64. Da für k=7 die Länge der Intervalle als ganze Zahl ausgedrückt wird (im Gegensatz zu k=6), wählen wir k=7, indem wir diesen Wert in Zelle C10 eingeben. Wir berechnen die Länge des Intervalls d in Zelle B11, indem wir die Formel = (B9-B8) / C10 eingeben.

Lassen Sie uns ein Array von Intervallen definieren und die Obergrenze für jedes der 7 Intervalle angeben. Berechnen Sie dazu in Zelle E8 die Obergrenze des ersten Intervalls, indem Sie die Formel =B8+B11 eingeben; in Zelle E9 die Obergrenze des zweiten Intervalls durch Eingabe der Formel =E8+B11. Um die verbleibenden Werte der Obergrenzen der Intervalle zu berechnen, fixieren wir die Nummer der Zelle B11 in der eingegebenen Formel mit dem $-Zeichen, sodass die Formel in Zelle E9 zu =E8+B$11 wird, und kopieren den Inhalt von Zelle E9 zu den Zellen E10-E14. Der letzte erhaltene Wert ist gleich dem Maximalwert in der Stichprobe, der zuvor in Zelle B9 berechnet wurde.

Abb.1.5. Beispiel 2. Konstruktion einer Reihe gleicher Intervalle


Lassen Sie uns nun das Array von "Taschen" mit der FREQUENCY-Funktion füllen, wie es in Beispiel 1 getan wurde.

Abb.1.6. Beispiel 2. Konstruktion einer Reihe gleicher Intervalle

Basierend auf der resultierenden Variationsreihe erstellen wir ein Histogramm: Wählen Sie die Häufigkeitsspalte aus und wählen Sie „Histogramm“ auf der Registerkarte „Einfügen“. Nachdem wir das Histogramm erhalten haben, ändern wir die Beschriftungen der horizontalen Achse darin in Werte im Intervallbereich. Dazu wählen wir die Option „Daten auswählen“ auf der Registerkarte „Designer“. Wählen Sie im erscheinenden Fenster den Befehl "Ändern" für den Abschnitt "Beschriftung der horizontalen Achse" und geben Sie den Wertebereich der Varianten ein, indem Sie ihn mit der "Maus" auswählen.

Abb.1.7. Beispiel 2. Erstellen eines Histogramms

Abb.1.8. Beispiel 2. Erstellen eines Histogramms

Was die Gruppierung statistischer Daten ist und wie sie mit den Verteilungsreihen zusammenhängt, wurde in dieser Vorlesung betrachtet, in der Sie auch lernen können, was eine diskrete und eine Variationsverteilungsreihe sind.

Verteilungsreihen sind eine der Arten von statistischen Reihen (außerdem werden dynamische Reihen in der Statistik verwendet), sie werden verwendet, um Daten zu den Phänomenen des sozialen Lebens zu analysieren. Die Konstruktion von Variationsreihen ist durchaus eine machbare Aufgabe für jedermann. Es gibt jedoch Regeln, an die Sie sich erinnern sollten.

Wie man eine diskrete Variationsverteilungsreihe erstellt

Beispiel 1 In 20 befragten Familien liegen Daten zur Anzahl der Kinder vor. Konstruieren Sie eine diskrete Variationsreihe Verteilung der Familien nach Anzahl der Kinder.

0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2

Entscheidung:

  1. Beginnen wir mit dem Layout der Tabelle, in die wir dann die Daten eintragen. Da die Verteilungszeilen zwei Elemente haben, besteht die Tabelle aus zwei Spalten. Die erste Spalte ist immer eine Variante - was wir studieren - wir nehmen seinen Namen von der Aufgabe (das Ende des Satzes mit der Aufgabe in den Bedingungen) - nach Anzahl der Kinder- unsere Version ist also die Anzahl der Kinder.

Die zweite Spalte ist die Häufigkeit - wie oft unsere Variante bei dem untersuchten Phänomen vorkommt - wir nehmen auch den Namen der Spalte aus der Aufgabe - Verteilung der Familien - unsere Frequenz ist also die Anzahl der Familien mit der entsprechenden Anzahl an Kindern.

  1. Nun wählen wir aus den Anfangsdaten diejenigen Werte aus, die mindestens einmal vorkommen. In unserem Fall diese

Und ordnen wir diese Daten in der ersten Spalte unserer Tabelle in einer logischen Reihenfolge an, in diesem Fall von 0 auf 4 aufsteigend. Wir bekommen

Lassen Sie uns abschließend berechnen, wie oft jeder Wert der Optionen vorkommt.

0 1 2 3 1

2 1 2 1 0

4 3 2 1 1

1 0 1 0 2

Als Ergebnis erhalten wir eine vollständige Tabelle oder die erforderliche Reihe der Verteilung der Familien nach der Anzahl der Kinder.

Die Übung . Es gibt Daten zu den Tarifkategorien von 30 Arbeitnehmern des Unternehmens. Konstruieren Sie eine diskrete Variationsreihe für die Verteilung der Arbeiter nach Lohnkategorien. 2 3 2 4 4 5 5 4 6 3

1 4 4 5 5 6 4 3 2 3

4 5 4 5 5 6 6 3 3 4

So erstellen Sie eine Intervallvariationsreihe der Verteilung

Lassen Sie uns eine Intervallverteilungsreihe erstellen und sehen, wie sich ihre Konstruktion von einer diskreten Reihe unterscheidet.

Beispiel 2 Es gibt Daten über die Höhe des Gewinns von 16 Unternehmen in Millionen Rubel. — 23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63. Erstellen Sie eine Intervallvariationsreihe für die Verteilung von Unternehmen nach Gewinnvolumen, indem Sie 3 Gruppen in gleichen Abständen auswählen.

Das allgemeine Prinzip der Reihenbildung bleibt natürlich erhalten, dieselben zwei Spalten, dieselben Varianten und Häufigkeiten, aber in diesem Fall werden die Varianten im Intervall angesiedelt und die Häufigkeiten unterschiedlich gezählt.

Entscheidung:

  1. Beginnen wir ähnlich wie bei der vorherigen Aufgabe mit dem Aufbau eines Tabellenlayouts, in das wir dann Daten eingeben. Da die Verteilungszeilen zwei Elemente haben, besteht die Tabelle aus zwei Spalten. Die erste Spalte ist immer eine Variante - was wir studieren - wir nehmen seinen Namen von der Aufgabe (das Ende des Satzes mit der Aufgabe in den Bedingungen) - nach der Höhe des Gewinns - was bedeutet, dass unsere Variante die Höhe des Gewinns ist empfangen.

Die zweite Spalte ist die Häufigkeit – wie oft unsere Variante bei dem untersuchten Phänomen vorkommt – den Namen der Spalte nehmen wir auch aus der Zuordnung – die Verteilung der Unternehmen – das heißt unsere Häufigkeit ist die Anzahl der Unternehmen mit dem entsprechenden Gewinn, in dieser Fall fällt in das Intervall.

Als Ergebnis sieht das Layout unserer Tabelle wie folgt aus:

wobei i der Wert oder die Länge des Intervalls ist,

Xmax und Xmin - der maximale und minimale Wert des Merkmals,

n ist die erforderliche Anzahl von Gruppen gemäß der Bedingung des Problems.

Lassen Sie uns den Intervallwert für unser Beispiel berechnen. Dazu finden wir unter den Anfangsdaten die größten und kleinsten

23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63 - der Höchstwert beträgt 118 Millionen Rubel und der Mindestwert 9 Millionen Rubel. Lassen Sie uns die Formel berechnen.

Bei der Berechnung haben wir die Zahl 36, (3) drei im Zeitraum erhalten, in solchen Situationen muss der Wert des Intervalls auf einen größeren aufgerundet werden, damit nach den Berechnungen die maximalen Daten nicht verloren gehen, weshalb der Wert des Intervalls in der Berechnung beträgt 36,4 Millionen Rubel.

  1. Lassen Sie uns nun die Intervalle erstellen - unsere Optionen in diesem Problem. Das erste Intervall wird vom Minimalwert aus gestartet, der Wert des Intervalls dazu addiert und die obere Grenze des ersten Intervalls erhalten. Dann wird die obere Grenze des ersten Intervalls zur unteren Grenze des zweiten Intervalls, der Wert des Intervalls wird dazu addiert und das zweite Intervall wird erhalten. Und so oft wie nötig, um Intervalle entsprechend der Kondition aufzubauen.

Achtung, wenn wir den Wert des Intervalls nicht auf 36,4 runden, sondern bei 36,3 belassen würden, dann wäre der letzte Wert 117,9. Um einen Datenverlust zu vermeiden, ist es notwendig, den Wert des Intervalls auf einen größeren Wert zu runden.

  1. Zählen wir die Anzahl der Unternehmen, die in jedes spezifische Intervall fallen. Bei der Verarbeitung von Daten muss beachtet werden, dass der obere Wert des Intervalls in diesem Intervall nicht berücksichtigt wird (nicht in diesem Intervall enthalten ist), aber im nächsten Intervall berücksichtigt wird (die untere Grenze des Intervalls wird enthalten in diesem Intervall, und das obere ist nicht enthalten), mit Ausnahme des letzten Intervalls.

Bei der Durchführung der Datenverarbeitung ist es am besten, die ausgewählten Daten mit herkömmlichen Symbolen oder Farbe zu kennzeichnen, um die Verarbeitung zu vereinfachen.

23 48 57 12 118 9 16 22

27 48 56 87 45 98 88 63

Wir werden das erste Intervall gelb markieren - und bestimmen, wie viele Daten in das Intervall von 9 bis 45,4 fallen, während dieses 45,4 im zweiten Intervall berücksichtigt wird (sofern es in den Daten enthalten ist) - als Ergebnis wir Holen Sie sich 7 Unternehmen im ersten Intervall. Und so weiter für alle Intervalle.

  1. (zusätzliche Aktion) Berechnen wir den Gesamtbetrag des Gewinns, den Unternehmen für jedes Intervall und im Allgemeinen erhalten. Addieren Sie dazu die mit unterschiedlichen Farben markierten Daten und erhalten Sie den Gesamtwert des Gewinns.

Für das erste Intervall 23 + 12 + 9 + 16 + 22 + 27 + 45 = 154 Millionen Rubel

Für das zweite Intervall - 48 + 57 + 48 + 56 + 63 = 272 Millionen Rubel.

Für das dritte Intervall - 118 + 87 + 98 + 88 = 391 Millionen Rubel.

Die Übung . Es gibt Daten über die Größe der Einzahlung bei der Bank von 30 Einlegern, Tausend Rubel. 150, 120, 300, 650, 1500, 900, 450, 500, 380, 440,

600, 80, 150, 180, 250, 350, 90, 470, 1100, 800,

500, 520, 480, 630, 650, 670, 220, 140, 680, 320

Bauen Reihe von Intervallvariationen Verteilung der Einleger nach Höhe des Beitrags, wobei 4 Gruppen in gleichen Abständen hervorgehoben werden. Berechnen Sie für jede Gruppe die Gesamthöhe der Beiträge.

Der einfachste Weg, statistisches Material zu verallgemeinern, besteht darin, Reihen zu bilden. Das Ergebnis einer Zusammenfassung einer statistischen Studie können Verteilungsreihen sein.

Nach der Bestimmung des Gruppierungsmerkmals, der Anzahl der Gruppen und Gruppierungsintervalle werden die Summen- und Gruppierungsdaten in Form von Verteilungsreihen dargestellt und in Form von statistischen Tabellen dargestellt.

Eine Verteilungsserie ist eine Art der Gruppierung.

Nahverteilung in der Statistik wird die geordnete Verteilung von Bevölkerungseinheiten in Gruppen nach einem beliebigen Merkmal genannt: qualitativ oder quantitativ.

  1. Arten von Vertriebsserien

Je nach Merkmal, das der Bildung einer Verteilungsreihe zugrunde liegt, werden Attribut- und Variationsverteilungsreihen unterschieden:

    attributiv genannte Verteilungsreihen, die aus qualitativen Gründen erstellt wurden;

    Verteilungsreihen werden als Variationsreihen bezeichnet, die in aufsteigender oder absteigender Reihenfolge der Werte eines quantitativen Merkmals aufgebaut sind.

Die Variationsreihe der Distribution besteht aus zwei Spalten. Die erste Spalte enthält die quantitativen Werte des variablen Merkmals, die als Varianten bezeichnet und bezeichnet werden. Diskrete Variante - ausgedrückt als ganze Zahl. Die Intervalloption liegt im Bereich von und bis. Je nach Art der Varianten ist es möglich, eine diskrete oder intervallartige Variationsreihe zu konstruieren. Die zweite Spalte enthält die Anzahl der spezifischen Varianten, ausgedrückt in Häufigkeiten oder Häufigkeiten:

    Häufigkeiten sind absolute Zahlen, die angeben, wie oft ein bestimmter Merkmalswert insgesamt vorkommt; die Summe aller Häufigkeiten sollte gleich der Anzahl der Einheiten der gesamten Population sein;

    Häufigkeiten sind Häufigkeiten, ausgedrückt als Prozentsatz der Gesamtzahl; die prozentuale Summe aller Häufigkeiten muss in Bruchteilen von eins gleich 100 % sein.

Variationsreihe gekennzeichnet durch zwei Elemente: Variante (X) und Frequenz (f). Eine Variante ist ein separater Wert eines Zeichens einer separaten Einheit oder Bevölkerungsgruppe. Die Zahl, die angibt, wie oft ein bestimmter Merkmalswert vorkommt, wird aufgerufen Frequenz. Wenn die Häufigkeit als relative Zahl ausgedrückt wird, wird sie als Häufigkeit bezeichnet.

Variationsreihen können sein:

    Intervall, wenn die Grenzen "von" und "bis" definiert sind, kann die Intervallverteilungsreihe grafisch in Form eines Histogramms dargestellt werden;

    diskret, wenn das untersuchte Merkmal durch eine bestimmte Zahl gekennzeichnet ist.

  1. Grafische Darstellung von Vertriebsserien

Die Verbreitungsreihen werden mit grafischen Bildern visualisiert.

Die Verteilungsserien werden wie folgt angezeigt:

    Vieleck;

    Histogramme;

    kumuliert;

Beim Bauen Deponie Auf der horizontalen Achse (Abszisse) sind die Werte des variierenden Attributs aufgetragen und auf der vertikalen Achse (y-Achse) - Frequenzen oder Frequenzen.

Zum Bauen Histogramme Die Abszissenachse gibt die Werte der Grenzen der Intervalle an und auf ihrer Grundlage werden Rechtecke gebaut, deren Höhe proportional zu den Frequenzen (oder Frequenzen) ist.

Die Verteilung eines Merkmals in einer Variationsreihe nach den kumulierten Häufigkeiten (Häufigkeiten) wird mit der Kumulierung dargestellt.

Kumulieren oder die Summenkurve ist im Gegensatz zum Polygon auf den akkumulierten Häufigkeiten bzw. Frequenzen aufgebaut. Dabei sind auf der Abszissenachse die Kennwerte und auf der Ordinatenachse die kumulierten Frequenzen bzw. Frequenzen aufgetragen.

Ogiva ist ähnlich aufgebaut wie die Kumulierung mit dem einzigen Unterschied, dass die akkumulierten Häufigkeiten auf der Abszissenachse und die Merkmalswerte auf der Ordinatenachse platziert sind.

Eine Variation der Kumulierung ist die Konzentrationskurve oder das Lorenz-Diagramm. Zur Darstellung der Konzentrationskurve werden beide Achsen des rechtwinkligen Koordinatensystems prozentual von 0 bis 100 skaliert. Dabei geben die Abszissenachsen die kumulierten Häufigkeiten und die Ordinatenachsen die kumulierten Werte des Anteils (in Prozent) nach Volumen des Features.

Höhere Berufsausbildung

„RUSSISCHE AKADEMIE DER VOLKSWIRTSCHAFT UND

ÖFFENTLICHER DIENST UNTER DEM PRÄSIDENTEN

RUSSISCHE FÖDERATION"

(Niederlassung Kaluga)

Fachbereich Naturwissenschaftliche und Mathematische Fächer

PRÜFUNG

Thema "Statistik"

Studentin ___ Mayboroda Galina Yurievna _____

Korrespondenzabteilung Fakultät Landes- und Kommunalverwaltungsgruppe G-12-V

Dozent ____________________ Hamer G.V.

PhD, außerordentlicher Professor

Kaluga-2013

Aufgabe 1.

Aufgabe 1.1. 4

Aufgabe 1.2. Sechszehn

Aufgabe 1.3. 24

Aufgabe 1.4. 33

Aufgabe 2.

Aufgabe 2.1. 43

Aufgabe 2.2. 48

Aufgabe 2.3. 53

Aufgabe 2.4. 58

Aufgabe 3.

Aufgabe 3.1. 63

Aufgabe 3.2. 68

Aufgabe 3.3. 73

Aufgabe 3.4. 79

Aufgabe 4.

Aufgabe 4.1. 85

Aufgabe 4.2. 88

Aufgabe 4.3. 90

Aufgabe 4.4. 93

Liste der verwendeten Quellen. 96

Aufgabe 1.

Aufgabe 1.1.

Es gibt die folgenden Daten über die Produktion und die Höhe des Gewinns der Unternehmen der Region (Tabelle 1).

Tabelle 1

Daten zur Produktionsleistung und zur Höhe des Gewinns der Unternehmen

Firmennummer Ausgabe, Millionen Rubel Gewinn, Millionen Rubel Firmennummer Ausgabe, Millionen Rubel Gewinn, Millionen Rubel
63,0 6,7 56,0 7,2
48,0 6,2 81,0 9,6
39,0 6,5 55,0 6,3
28,0 3,0 76,0 9,1
72,0 8,2 54,0 6,0
61,0 7,6 53,0 6,4
47,0 5,9 68,0 8,5
37,0 4,2 52,0 6,5
25,0 2,8 44,0 5,0
60,0 7,9 51,0 6,4
46,0 5,5 50,0 5,8
34,0 3,8 65,0 6,7
21,0 2,1 49,0 6,1
58,0 8,0 42,0 4,8
45,0 5,7 32,0 4,6

Nach den Originaldaten:

1. Erstellen Sie eine statistische Reihe der Verteilung von Unternehmen nach Output, indem Sie fünf Gruppen in gleichen Abständen bilden.

Diagramme für Verteilungsreihen erstellen: Polygon, Histogramm, kumulieren. Bestimmen Sie grafisch den Wert von Modus und Median.

2. Berechnen Sie die Merkmale einer Reihe von Unternehmensverteilungen nach Output: arithmetisches Mittel, Streuung, Standardabweichung, Variationskoeffizient.

Machen Sie eine Schlussfolgerung.

3. Stellen Sie anhand der Methode der analytischen Gruppierung das Vorhandensein und die Art der Korrelation zwischen den Kosten der hergestellten Produkte und der Höhe des Gewinns pro Unternehmen fest.

4. Messen Sie die Enge der Korrelation zwischen den Produktionskosten und der Höhe des Gewinns anhand der empirischen Korrelation.

Allgemeine Schlussfolgerungen ziehen.

Entscheidung:

Lassen Sie uns eine statistische Verteilungsreihe erstellen

Um eine Intervallvariationsreihe zu erstellen, die die Verteilung der Unternehmen in Bezug auf die Produktion charakterisiert, müssen der Wert und die Grenzen der Intervalle der Reihe berechnet werden.

Beim Aufbau einer Reihe mit gleichen Intervallen der Wert des Intervalls h wird durch die Formel bestimmt:

x max und x min- die größten und kleinsten Werte des Attributs in der untersuchten Gruppe von Unternehmen;

k- Anzahl der Intervallseriengruppen.

Anzahl der Gruppen k im Auftrag angegeben. k= 5.

x max= 81 Millionen Rubel, x min= 21 Millionen Rubel

Berechnung des Intervallwertes:

Millionen Rubel

Durch sukzessives Addieren des Werts des Intervalls h = 12 Millionen Rubel. bis zur unteren Grenze des Intervalls erhalten wir die folgenden Gruppen:

1 Gruppe: 21 - 33 Millionen Rubel.

2. Gruppe: 33 - 45 Millionen Rubel;

Gruppe 3: 45 - 57 Millionen Rubel.

Gruppe 4: 57 - 69 Millionen Rubel.

Gruppe 5: 69 - 81 Millionen Rubel.

Um eine Intervallreihe zu erstellen, muss die Anzahl der Unternehmen berechnet werden, die in jeder Gruppe enthalten sind ( Gruppenfrequenzen).

Der Prozess der Gruppierung von Unternehmen nach Produktionsvolumen ist in Hilfstabelle 2 dargestellt. Spalte 4 dieser Tabelle ist erforderlich, um eine analytische Gruppierung zu erstellen (Absatz 3 der Aufgabe).

Tabelle 2

Tabelle zum Aufbau einer Intervallverteilungsreihe und

Analytische Gruppierung

Unternehmensgruppen nach Output, Millionen Rubel Firmennummer Ausgabe, Millionen Rubel Gewinn, Millionen Rubel
21-33 21,0 2,1
25,0 2,8
28,0 3,0
32,0 4,6
Gesamt 106,0 12,5
33-45 34,0 3,8
37,0 4,2
39,0 6,5
42,0 4,8
44,0 5,0
Gesamt 196,0 24,3
45-57 45,0 5,7
46,0 5,5
47,0 5,9
48,0 6,2
49,0 6,1
50,0 5,8
51,0 6,4
52,0 6,5
53,0 6,4
54,0 6,0
55,0 6,3
56,0 7,2
Gesamt 606,0 74,0
57-69 58,0 8,0
60,0 7,9
61,0 7,6
63,0 6,7
65,0 6,7
68,0 8,5
Gesamt 375,0 45,4
69-81 72,0 8,2
76,0 9,1
81,0 9,6
Gesamt 229,0 26,9
Gesamt 183,1

Basierend auf den Gruppenzusammenfassungszeilen der „Gesamt“-Tabelle 3 wird eine abschließende Tabelle 3 gebildet, die die Intervallreihen der Verteilung der Unternehmen nach Output darstellt.

Tisch 3

Eine Reihe von Unternehmen nach Produktionsvolumen

Fazit. Die konstruierte Gruppierung zeigt, dass die Verteilung der Unternehmen hinsichtlich des Outputs nicht einheitlich ist. Die häufigsten Unternehmen mit einem Produktionsvolumen von 45 bis 57 Millionen Rubel. (12 Unternehmen). Am seltensten sind Unternehmen mit einer Leistung von 69 bis 81 Millionen Rubel. (3 Unternehmen).

Lassen Sie uns Diagramme der Verteilungsreihe erstellen.

Vieleck oft verwendet, um diskrete Reihen darzustellen. Um ein Polygon in einem rechteckigen Koordinatensystem zu konstruieren, werden die Werte des Arguments auf der Abszissenachse aufgetragen, d. H. Optionen (für Intervallvariationsreihen wird die Mitte des Intervalls als Argument genommen) und auf der Ordinatenachse - Frequenz Werte. Ferner werden in diesem Koordinatensystem Punkte aufgebaut, deren Koordinaten Paare entsprechender Zahlen aus der Variationsreihe sind. Die resultierenden Punkte werden in Reihe durch gerade Liniensegmente verbunden. Das Polygon ist in Abbildung 1 dargestellt.

Balkendiagramm - Balkendiagramm. Damit können Sie die Symmetrie der Verteilung auswerten. Das Histogramm ist in Abbildung 2 dargestellt.

Abbildung 1 – Polygonverteilung von Unternehmen nach Volumen

Ausgang

Mode

Abbildung 2 - Histogramm der Verteilung der Unternehmen nach Volumen

Ausgang

Mode- der Wert des Merkmals, das in der Studienpopulation am häufigsten vorkommt.

Für eine Intervallreihe kann der Modus grafisch aus dem Histogramm bestimmt werden (Abbildung 2). Dazu wird das höchste Rechteck ausgewählt, das in diesem Fall modal ist (45–57 Millionen Rubel). Dann wird der rechte Eckpunkt des modalen Rechtecks ​​mit der oberen rechten Ecke des vorherigen Rechtecks ​​verbunden. Und der linke Eckpunkt des modalen Rechtecks ​​ist mit der oberen linken Ecke des nachfolgenden Rechtecks. Ferner wird von ihrem Schnittpunkt eine Senkrechte auf die Abszissenachse abgesenkt. Die Abszisse des Schnittpunkts dieser Linien ist der Verteilungsmodus.

Million reiben.

Fazit. In der betrachteten Gruppe von Unternehmen sind die Unternehmen mit einer Leistung von 52 Millionen Rubel am weitesten verbreitet.

Kumulieren - gebrochene Kurve. Es basiert auf den akkumulierten Frequenzen (berechnet in Tabelle 4). Die Kumulierung beginnt an der unteren Grenze des ersten Intervalls (21 Millionen Rubel), die kumulierte Frequenz wird an der oberen Grenze des Intervalls hinterlegt. Die Kumulierung ist in Abbildung 3 dargestellt.

Median

Abbildung 3 – Kumulierte Verteilung der Unternehmen nach Volumen

Ausgang

Mittleres Ich ist der Wert des Merkmals, das in die Mitte der Rangfolge fällt. Auf beiden Seiten des Medians gibt es die gleiche Anzahl von Bevölkerungseinheiten.

Bei einer Intervallreihe kann der Median grafisch aus einer Summenkurve bestimmt werden. Um den Median von einem Punkt auf der Summenhäufigkeitsskala zu bestimmen, der 50 % (30:2 = 15) entspricht, wird eine gerade Linie parallel zur Abszissenachse gezogen, bis sie sich mit der Summe schneidet. Dann wird vom Schnittpunkt der angegebenen Geraden mit der Kumulierung eine Senkrechte auf die Abszissenachse abgesenkt. Die Abszisse des Schnittpunktes ist der Median.

Million reiben.

Fazit. In der betrachteten Gruppe von Unternehmen hat die Hälfte der Unternehmen ein Produktionsvolumen von nicht mehr als 52 Millionen Rubel und die andere Hälfte - nicht weniger als 52 Millionen Rubel.


Ähnliche Informationen.