Zuverlässigkeit ist statistisch. Grad der statistischen Signifikanz

Die Hauptmerkmale jeder Beziehung zwischen Variablen.

Zwei der meisten einfache Eigenschaften Beziehungen zwischen Variablen: (a) die Größe der Beziehung und (b) die Zuverlässigkeit der Beziehung.

- Wert . Das Ausmaß der Abhängigkeit ist einfacher zu verstehen und zu messen als die Zuverlässigkeit. Wenn beispielsweise ein Mann in der Stichprobe eine höhere Anzahl weißer Blutkörperchen (WCC) hatte als eine Frau, dann können Sie sagen, dass die Beziehung zwischen den beiden Variablen (Geschlecht und WCC) sehr hoch ist. Mit anderen Worten, Sie könnten die Werte einer Variablen aus den Werten einer anderen vorhersagen.

- Verlässlichkeit ("Wahrheit"). Die Zuverlässigkeit der gegenseitigen Abhängigkeit ist ein weniger visuelles Konzept als das Ausmaß der Abhängigkeit, aber es ist äußerst wichtig. Die Zuverlässigkeit der Abhängigkeit steht in direktem Zusammenhang mit der Repräsentativität einer bestimmten Stichprobe, auf deren Grundlage Schlussfolgerungen gezogen werden. Mit anderen Worten, die Zuverlässigkeit bezieht sich darauf, wie wahrscheinlich es ist, dass die Beziehung anhand von Daten aus einer anderen Stichprobe aus derselben Population wiederentdeckt (mit anderen Worten bestätigt) wird.

Es sollte daran erinnert werden, dass das Endziel fast nie das Studium dieser bestimmten Stichprobe von Werten ist; eine Stichprobe ist nur insofern interessant, als sie Informationen über die Gesamtbevölkerung liefert. Wenn die Studie einige spezielle Kriterien erfüllt, kann die Zuverlässigkeit der gefundenen Beziehungen zwischen den Stichprobenvariablen quantifiziert und mit einem statistischen Standardmaß dargestellt werden.

Abhängigkeitsgröße und Zuverlässigkeit sind zwei verschiedene Eigenschaften Abhängigkeiten zwischen Variablen. Es kann jedoch nicht gesagt werden, dass sie völlig unabhängig sind. Je größer die Beziehung (Beziehung) zwischen Variablen in einer normal großen Stichprobe ist, desto zuverlässiger ist sie (siehe nächster Abschnitt).

Die statistische Signifikanz eines Ergebnisses (p-Niveau) ist ein geschätztes Maß für das Vertrauen in seine „Wahrheit“ (im Sinne von „Repräsentativität der Stichprobe“). Technisch gesehen ist der p-Wert ein Maß, das eine abnehmende Beziehung zur Zuverlässigkeit des Ergebnisses hat. Mehr hoher p-level entspricht einem geringeren Vertrauensniveau in die Abhängigkeit zwischen den in der Stichprobe gefundenen Variablen. Das p-Niveau stellt nämlich die Fehlerwahrscheinlichkeit dar, die mit der Verteilung des beobachteten Ergebnisses auf die gesamte Population verbunden ist.

Zum Beispiel, p-Level = 0,05(d. h. 1/20) zeigt, dass eine Wahrscheinlichkeit von 5 % besteht, dass die Beziehung zwischen den in der Stichprobe gefundenen Variablen nur ein zufälliges Merkmal dieser Stichprobe ist. In vielen Studien wird ein p-Level von 0,05 als „akzeptable Grenze“ für das Fehlerniveau betrachtet.

Willkür bei der Entscheidung, welches Signifikanzniveau wirklich als „signifikant“ anzusehen ist, lässt sich nicht vermeiden. Die Wahl eines bestimmten Signifikanzniveaus, oberhalb dessen die Ergebnisse als falsch zurückgewiesen werden, ist eher willkürlich.



In der Praxis hängt die endgültige Entscheidung in der Regel davon ab, ob das Ergebnis a priori (d. h. vor der Durchführung des Experiments) vorhergesagt oder durch viele Analysen und Vergleiche mit vielen Daten nachträglich entdeckt wurde, sowie davon, Tradition auf diesem Forschungsgebiet.

Normalerweise ist in vielen Bereichen das Ergebnis p 0,05 eine akzeptable Grenze statistische Signifikanz allerdings ist zu bedenken, dass diese Stufe noch eine recht große Irrtumswahrscheinlichkeit (5 %) beinhaltet.

Signifikante Ergebnisse bei p 0,01 werden normalerweise als statistisch signifikant angesehen, während Ergebnisse bei p 0,005 oder p . 001 als hochsignifikant. Es sollte jedoch verstanden werden, dass diese Klassifizierung von Signifikanzniveaus ziemlich willkürlich ist und nur eine informelle Konvention basierend auf praktischer Erfahrung darstellt. in einem bestimmten Studienfach.

Es ist klar, dass je mehr Analysen mit dem gesammelten Datensatz durchgeführt werden, desto mehr signifikante (auf der ausgewählten Ebene) Ergebnisse werden rein zufällig gefunden.

Etwas statistische Methoden, die viele Vergleiche erfordern und daher eine erhebliche Wahrscheinlichkeit haben, dass diese Art von Fehlern wiederholt werden, eine spezielle Anpassung oder Korrektur vornehmen Gesamtzahl Vergleiche. Viele statistische Methoden (insbesondere einfache Methoden explorative Datenanalyse) bieten keine Möglichkeit, dieses Problem zu lösen.

Wenn die Beziehung zwischen den Variablen "objektiv" schwach ist, gibt es keine andere Möglichkeit, eine solche Beziehung zu testen, als eine große Stichprobe zu untersuchen. Selbst wenn die Stichprobe vollkommen repräsentativ ist, ist der Effekt bei einer kleinen Stichprobe statistisch nicht signifikant. Ebenso, wenn eine Abhängigkeit "objektiv" sehr stark ist, dann kann sie mit erkannt werden ein hohes Maß selbst bei einer sehr kleinen Stichprobe signifikant.

Je schwächer die Beziehung zwischen Variablen ist, desto größer ist die Stichprobe, die erforderlich ist, um sie signifikant zu erkennen.

Viele verschiedene Verknüpfungen zwischen Variablen. Die Wahl eines bestimmten Maßes in einer bestimmten Studie hängt von der Anzahl der Variablen, den verwendeten Messskalen, der Art der Abhängigkeiten usw. ab.

Die meisten dieser Maßnahmen unterliegen jedoch allgemeines Prinzip: Sie versuchen, die beobachtete Beziehung zu bewerten, indem sie sie mit der "maximal denkbaren Beziehung" zwischen den betreffenden Variablen vergleichen. Technisch ausgedrückt, der übliche Weg Um solche Schätzungen vorzunehmen, muss man sich ansehen, wie die Werte der Variablen variieren, und dann berechnen, wie viel der Gesamtvariation durch das Vorhandensein einer "gemeinsamen" ("gemeinsamen") Variation von zwei (oder mehr) Variablen erklärt werden kann.

Die Signifikanz hängt hauptsächlich von der Stichprobengröße ab. Wie bereits erläutert, sind in sehr großen Stichproben sogar sehr schwache Beziehungen zwischen Variablen signifikant, während in kleinen Stichproben selbst sehr starke Beziehungen nicht zuverlässig sind.

Um das Niveau der statistischen Signifikanz zu bestimmen, wird daher eine Funktion benötigt, die die Beziehung zwischen der "Größe" und der "Signifikanz" der Beziehung zwischen Variablen für jede Stichprobengröße darstellt.

Eine solche Funktion würde genau angeben, "wie wahrscheinlich es ist, eine Abhängigkeit eines bestimmten Werts (oder mehr) in einer Stichprobe einer bestimmten Größe zu erhalten, vorausgesetzt, dass es keine solche Abhängigkeit in der Population gibt". Mit anderen Worten, diese Funktion würde ein Signifikanzniveau ergeben
(p-Niveau) und damit die Wahrscheinlichkeit, fälschlicherweise die Annahme zurückzuweisen, dass diese Beziehung in der Population nicht existiert.

Diese "alternative" Hypothese (dass es keine Abhängigkeit in der Bevölkerung gibt) wird normalerweise genannt Nullhypothese.

Ideal wäre es, wenn die Funktion, die die Fehlerwahrscheinlichkeit berechnet, linear wäre und nur unterschiedliche Steigungen für unterschiedliche Stichprobenumfänge hätte. Leider ist diese Funktion viel komplexer und nicht immer exakt gleich. In den meisten Fällen ist seine Form jedoch bekannt und kann verwendet werden, um Signifikanzniveaus zu bestimmen, wenn Stichproben einer bestimmten Größe untersucht werden. Die meisten dieser Funktionen beziehen sich auf eine Klasse von Distributionen namens normal .

Aufgabe 3. Fünf Vorschulkinder werden einem Test unterzogen. Die Zeit für die Lösung jeder Aufgabe ist festgelegt. Gibt es statistisch signifikante Unterschiede zwischen den Lösungszeiten? die ersten drei Testgegenstände?

Anzahl der Fächer

Referenzmaterial

Diese Aufgabe basiert auf der Theorie der Varianzanalyse. Im allgemeinen Fall besteht die Aufgabe der Varianzanalyse darin, diejenigen Faktoren zu identifizieren, die einen signifikanten Einfluss auf das Ergebnis des Experiments haben. Die Varianzanalyse kann verwendet werden, um die Mittelwerte mehrerer Stichproben zu vergleichen, wenn die Anzahl der Stichproben mehr als zwei beträgt. Dazu dient die Einweg-Varianzanalyse.

Zur Lösung der gestellten Aufgaben wird folgendes angenommen. Wenn die Varianzen der erhaltenen Werte des Optimierungsparameters im Falle des Einflusses von Faktoren von den Varianzen der Ergebnisse ohne Einfluss von Faktoren abweichen, wird ein solcher Faktor als signifikant anerkannt.

Wie der Problemstellung zu entnehmen ist, werden hier Verfahren zur Prüfung statistischer Hypothesen verwendet, nämlich das Problem der Prüfung zweier empirischer Varianzen. Daher basiert die Varianzanalyse auf der Überprüfung von Varianzen durch das Fisher-Kriterium. Bei dieser Aufgabe ist zu prüfen, ob die Unterschiede in der Zeit zur Lösung der ersten drei Aufgaben des Tests von jedem der sechs Vorschulkinder statistisch signifikant sind.

Die Nullhypothese (Grundhypothese) heißt H o. Das Wesen von e wird auf die Annahme reduziert, dass die Differenz zwischen den verglichenen Parametern Null ist (daher der Name der Hypothese - Null) und dass die beobachteten Unterschiede zufällig sind.

Eine konkurrierende (alternative) Hypothese heißt H 1 , die der Null-Hypothese widerspricht.

Entscheidung:

Unter Verwendung der Methode der Varianzanalyse auf einem Signifikanzniveau von α = 0,05 testen wir die Nullhypothese (Hо) über das Vorhandensein statistisch signifikanter Unterschiede zwischen dem Zeitpunkt der Lösung der ersten drei Aufgaben des Tests bei sechs Vorschulkindern.

Betrachten Sie die Aufgabenbedingungstabelle, in der wir die durchschnittliche Zeit finden, um jede der drei Testaufgaben zu lösen

Anzahl der Fächer

Faktorstufen

Zeit zum Lösen der ersten Aufgabe des Tests (in Sek.).

Zeit zum Lösen der zweiten Aufgabe des Tests (in Sek.).

Zeit zum Lösen der dritten Aufgabe des Tests (in Sek.).

Gruppendurchschnitt

Ermittlung des Gesamtdurchschnitts:

Um die Signifikanz der Zeitunterschiede jedes Tests zu berücksichtigen, wird die gesamte Stichprobenvarianz in zwei Teile unterteilt, von denen der erste als Faktor und der zweite als Residuum bezeichnet wird

Berechnen Sie mithilfe der Formel die Gesamtsumme der quadrierten Abweichungen der Variante vom Gesamtdurchschnitt

oder , wobei p die Anzahl der Zeitmessungen zum Lösen von Testaufgaben ist, q die Anzahl der Probanden. Dazu erstellen wir eine Option für eine Tabelle mit Quadraten

Anzahl der Fächer

Faktorstufen

Zeit zum Lösen der ersten Aufgabe des Tests (in Sek.).

Zeit zum Lösen der zweiten Aufgabe des Tests (in Sek.).

Zeit zum Lösen der dritten Aufgabe des Tests (in Sek.).

Das Signifikanzniveau in der Statistik ist ein wichtiger Indikator, der den Grad des Vertrauens in die Genauigkeit und Wahrheit der erhaltenen (vorhergesagten) Daten widerspiegelt. Das Konzept ist in verschiedenen Bereichen weit verbreitet: von der soziologischen Forschung bis zum statistischen Testen wissenschaftlicher Hypothesen.

Definition

Das Niveau der statistischen Signifikanz (oder statistisch signifikantes Ergebnis) zeigt, wie hoch die Wahrscheinlichkeit des zufälligen Auftretens der untersuchten Indikatoren ist. Die statistische Gesamtsignifikanz des Phänomens wird durch den p-Wert (p-Level) ausgedrückt. Bei jedem Experiment oder jeder Beobachtung besteht die Möglichkeit, dass die erhaltenen Daten aufgrund von Stichprobenfehlern entstanden sind. Dies gilt insbesondere für die Soziologie.

Das heißt, ein Wert ist statistisch signifikant, dessen Wahrscheinlichkeit des zufälligen Auftretens äußerst gering ist oder zu Extremen tendiert. Das Extrem ist in diesem Zusammenhang der Grad der Abweichung der Statistik von der Nullhypothese (einer Hypothese, die auf Konsistenz mit den erhaltenen Stichprobendaten getestet wird). In der wissenschaftlichen Praxis wird das Signifikanzniveau vor der Datenerhebung gewählt und sein Koeffizient beträgt in der Regel 0,05 (5 %). Für Systeme, wo es kritisch ist genaue Werte, dieser Indikator kann 0,01 (1%) oder weniger betragen.

Hintergrund

Das Konzept des Signifikanzniveaus wurde 1925 vom britischen Statistiker und Genetiker Ronald Fisher eingeführt, als er eine Technik zum Testen statistischer Hypothesen entwickelte. Bei der Analyse eines Prozesses gibt es eine gewisse Wahrscheinlichkeit für bestimmte Phänomene. Schwierigkeiten treten auf, wenn mit kleinen (oder nicht offensichtlichen) Prozentsätzen von Wahrscheinlichkeiten gearbeitet wird, die unter den Begriff „Messfehler“ fallen.

Bei der Arbeit mit Statistiken, die nicht spezifisch genug waren, um getestet zu werden, standen Wissenschaftler vor dem Problem der Nullhypothese, die das Arbeiten mit kleinen Werten „verhindert“. Fisher schlug für solche Systeme vor, die Wahrscheinlichkeit von Ereignissen bei 5 % (0,05) als bequemen Stichprobengrenzwert zu bestimmen, der es einem ermöglicht, die Nullhypothese in den Berechnungen abzulehnen.

Einführung eines festen Koeffizienten

1933 Jerzy Wissenschaftler Neumann und Egon Pearson empfahlen in ihren Arbeiten, vorab (vor der Datenerhebung) ein bestimmtes Signifikanzniveau festzulegen. Beispiele für die Anwendung dieser Regeln sind während der Wahlen deutlich sichtbar. Angenommen, es gibt zwei Kandidaten, von denen einer sehr beliebt und der andere nicht sehr bekannt ist. Es ist offensichtlich, dass der erste Kandidat die Wahl gewinnen wird, und die Chancen des zweiten tendieren gegen Null. Streben – aber nicht gleich: Es besteht immer die Möglichkeit höherer Gewalt, sensationeller Informationen, unerwarteter Entscheidungen, die die prognostizierten Wahlergebnisse verändern können.

Neumann und Pearson stimmten darin überein, dass das von Fisher vorgeschlagene Signifikanzniveau von 0,05 (gekennzeichnet durch das Symbol α) das bequemste ist. Fischer selbst widersetzte sich jedoch 1956 einer Festlegung dieses Wertes. Er glaubte, dass das Niveau von α in Übereinstimmung mit spezifischen Umständen festgelegt werden sollte. In der Teilchenphysik ist er beispielsweise 0,01.

p-Wert

Der Begriff p-Wert wurde erstmals 1960 von Brownlee verwendet. P-Level (p-Wert) ist ein Indikator, der in umgekehrtem Verhältnis zur Wahrheit der Ergebnisse steht. Der höchste p-Wert entspricht dem niedrigsten Konfidenzniveau in der Stichprobenbeziehung zwischen Variablen.

Dieser Wert spiegelt die Wahrscheinlichkeit von Fehlern wider, die mit der Interpretation der Ergebnisse verbunden sind. Angenommen p-Wert = 0,05 (1/20). Es zeigt eine Wahrscheinlichkeit von fünf Prozent, dass die Beziehung zwischen den in der Stichprobe gefundenen Variablen nur ein zufälliges Merkmal der Stichprobe ist. Das heißt, wenn diese Abhängigkeit nicht vorhanden ist, kann man bei wiederholten ähnlichen Experimenten im Durchschnitt in jeder zwanzigsten Studie die gleiche oder größere Abhängigkeit zwischen den Variablen erwarten. Oft wird der p-Pegel als "Grenze" des Fehlerpegels betrachtet.

Übrigens spiegelt der p-Wert möglicherweise nicht die wirkliche Beziehung zwischen den Variablen wider, sondern zeigt nur einen bestimmten Durchschnittswert innerhalb der Annahmen. Insbesondere die endgültige Analyse der Daten hängt auch von den gewählten Werten dieses Koeffizienten ab. Bei p-Level = 0,05 gibt es einige Ergebnisse, bei einem Koeffizienten von 0,01 andere.

Testen statistischer Hypothesen

Das Niveau der statistischen Signifikanz ist besonders wichtig, wenn Hypothesen getestet werden. Wenn Sie beispielsweise einen zweiseitigen Test berechnen, wird der Ablehnungsbereich an beiden Enden der Stichprobenverteilung (relativ zur Nullkoordinate) gleichmäßig aufgeteilt und die Wahrheit der erhaltenen Daten berechnet.

Angenommen, bei der Überwachung eines bestimmten Prozesses (Phänomens) stellte sich heraus, dass neue statistische Informationen kleine Änderungen im Vergleich zu früheren Werten anzeigen. Gleichzeitig sind die Abweichungen in den Ergebnissen klein, nicht offensichtlich, aber wichtig für die Studie. Der Fachmann steht vor einem Dilemma: Treten die Veränderungen wirklich auf oder handelt es sich um Stichprobenfehler (Messungenauigkeiten)?

In diesem Fall wird entweder die Nullhypothese angewandt oder verworfen (alles wird einem Irrtum zugeschrieben, oder die Systemänderung wird als vollendete Tatsache erkannt). Der Lösungsprozess basiert auf dem Verhältnis von statistischer Gesamtsignifikanz (p-Wert) und Signifikanzniveau (α). Wenn p-Level< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Gebrauchte Werte

Das Signifikanzniveau hängt vom analysierten Material ab. In der Praxis werden folgende Festwerte verwendet:

  • α = 0,1 (oder 10%);
  • α = 0,05 (oder 5%);
  • α = 0,01 (oder 1%);
  • α = 0,001 (oder 0,1 %).

Je genauer die Berechnungen erforderlich sind, desto kleiner wird der Koeffizient α verwendet. Natürlich erfordern statistische Vorhersagen in Physik, Chemie, Pharmazie und Genetik eine größere Genauigkeit als in Politikwissenschaft und Soziologie.

Signifikanzschwellen in bestimmten Bereichen

In Hochpräzisionsgebieten wie der Teilchenphysik u Produktionstätigkeit, wird die statistische Signifikanz oft als das Verhältnis der Standardabweichung (bezeichnet durch den Koeffizienten Sigma - σ) relativ zu einer normalen Wahrscheinlichkeitsverteilung (Gauß-Verteilung) ausgedrückt. σ ist ein statistischer Indikator, der die Streuung von Werten einer bestimmten Größe relativ zu bestimmt mathematische Erwartungen. Wird verwendet, um die Wahrscheinlichkeit von Ereignissen darzustellen.

Je nach Wissensgebiet variiert der Koeffizient σ stark. Beispielsweise ist bei der Vorhersage der Existenz des Higgs-Bosons der Parameter σ gleich fünf (σ=5), was dem p-Wert=1/3,5 Mio. Flächen entspricht.

Effizienz

Dabei ist zu berücksichtigen, dass die Koeffizienten α und p-Wert keine exakten Kenngrößen sind. Unabhängig vom Signifikanzniveau in der Statistik des untersuchten Phänomens ist dies keine unbedingte Grundlage für die Annahme der Hypothese. Je kleiner beispielsweise der Wert von α ist, desto größer ist die Wahrscheinlichkeit, dass die aufgestellte Hypothese signifikant ist. Es besteht jedoch ein Fehlerrisiko, das die statistische Aussagekraft (Signifikanz) der Studie verringert.

Forscher, die sich ausschließlich auf statistisch signifikante Ergebnisse konzentrieren, können falsche Schlussfolgerungen ziehen. Gleichzeitig ist es schwierig, ihre Arbeit zu überprüfen, da sie Annahmen anwenden (die tatsächlich die Werte von α und p-Wert sind). Daher wird immer empfohlen, neben der Berechnung der statistischen Signifikanz einen weiteren Indikator zu bestimmen - die Größe des statistischen Effekts. Die Effektgröße ist ein quantitatives Maß für die Stärke eines Effekts.

Statistische Gültigkeit ist in der Abwicklungspraxis der FCC von erheblicher Bedeutung. Es wurde bereits erwähnt, dass viele Stichproben aus derselben Grundgesamtheit ausgewählt werden können:

Wenn sie richtig ausgewählt werden, unterscheiden sich ihre durchschnittlichen Indikatoren und Indikatoren der allgemeinen Bevölkerung unter Berücksichtigung der akzeptierten Zuverlässigkeit in der Größe des Repräsentativitätsfehlers geringfügig voneinander.

Wenn sie aus verschiedenen Allgemeinpopulationen ausgewählt werden, erweist sich der Unterschied zwischen ihnen als signifikant. Der Vergleich von Stichproben wird üblicherweise in der Statistik berücksichtigt;

Wenn sie sich unwesentlich, unbedeutend, unwesentlich unterscheiden, also tatsächlich derselben Grundgesamtheit angehören, wird der Unterschied zwischen ihnen als statistisch unzuverlässig bezeichnet.

statistisch signifikant ein Stichprobenunterschied ist eine Stichprobe, die sich signifikant und grundlegend unterscheidet, d. h. zu unterschiedlichen Grundgesamtheiten gehört.

In der FCC bedeutet die Bewertung der statistischen Signifikanz von Stichprobenunterschieden die Lösung vieler praktischer Probleme. Zum Beispiel die Einführung neuer Lehrmethoden, Programme, Übungsreihen, Tests, Kontrollübungen verbunden mit ihrer experimentellen Überprüfung, die zeigen soll, dass sich die Testgruppe grundlegend von der Kontrolle unterscheidet. Daher werden spezielle statistische Methoden verwendet, die als statistische Signifikanzkriterien bezeichnet werden, um das Vorhandensein oder Nichtvorhandensein eines statistisch signifikanten Unterschieds zwischen Stichproben festzustellen.

Alle Kriterien sind in zwei Gruppen unterteilt: parametrisch und nichtparametrisch. Parametrische Kriterien sehen das zwingende Vorhandensein eines Normalverteilungsgesetzes vor, d.h. dies bezieht sich auf die verpflichtende Bestimmung der Hauptkennzahlen des Normalrechts - des arithmetischen Mittels und der Standardabweichung s. Parametrische Kriterien sind die genauesten und korrekten. Nichtparametrische Kriterien basieren auf Rangunterschieden (Ordnungsdifferenzen) zwischen den Elementen der Stichproben.

Hier sind die Hauptkriterien für die statistische Signifikanz, die in der Praxis der FCC verwendet werden: Student's Test und Fisher's Test.

Schülerkriterium benannt nach dem englischen Wissenschaftler C. Gosset (Student ist ein Pseudonym), der diese Methode entdeckt hat. Der Student's t-Test ist parametrisch und wird zum Vergleich verwendet absolute Indikatoren Proben. Proben können in der Größe variieren.

Schülerkriterium ist so definiert.

1. Wir finden das Student-Kriterium t nach folgender Formel:


wo sind die arithmetischen Mittel der verglichenen Proben; t 1 , t 2 - Repräsentativitätsfehler, die auf der Grundlage der Indikatoren der verglichenen Stichproben identifiziert wurden.

2. Die Praxis in der FCC hat gezeigt, dass es für die Sportarbeit ausreicht, die Zuverlässigkeit der Punktzahl P = 0,95 zu akzeptieren.

Für die Berechnungssicherheit: P = 0,95 (a = 0,05), mit der Anzahl der Freiheitsgrade

k \u003d n 1 + p 2 - 2 Gemäß der Tabelle in Anhang 4 finden wir den Wert des Grenzwerts des Kriteriums ( t gr).

3. Basierend auf den Eigenschaften des Normalverteilungsgesetzes vergleicht das Student-Kriterium t und tgr.

Wir ziehen Schlussfolgerungen:

wenn t t gr, dann ist der Unterschied zwischen den verglichenen Stichproben statistisch signifikant;

wenn t t gr, dann ist der Unterschied statistisch nicht signifikant.

Für Forscher im Bereich FCC ist die Bewertung der statistischen Signifikanz der erste Schritt zur Lösung eines konkreten Problems: ob sich die verglichenen Stichproben grundlegend unterscheiden oder nicht. Der nächste Schritt besteht darin, diesen Unterschied aus pädagogischer Sicht zu bewerten, die von der Situation des Problems bestimmt wird.

Betrachten Sie die Anwendung des Schülerkriteriums auf ein bestimmtes Beispiel.

Beispiel 2.14. Eine Gruppe von Probanden in der Menge von 18 Personen wurde auf Herzfrequenz (bpm) vor x i und danach untersucht y ich Aufwärmen.

Bewerten Sie die Effektivität des Aufwärmens in Bezug auf die Herzfrequenz. Die Anfangsdaten und Berechnungen sind in der Tabelle dargestellt. 2.30 und 2.31.

Tabelle 2.30

Verarbeitung von Herzfrequenzdaten vor dem Aufwärmen


Die Fehler für beide Gruppen fielen zusammen, da die Stichprobenumfänge gleich sind (es wird dieselbe Gruppe untersucht verschiedene Bedingungen) und der Durchschnitt Standardabweichungen betrug s x \u003d s y \u003d 3 Schläge / min. Kommen wir zur Definition des Student-Kriteriums:

Wir setzen die Zuverlässigkeit des Kontos: Р= 0,95.

Die Anzahl der Freiheitsgrade k 1 \u003d n 1 + p 2 - 2 \u003d 18 + 18-2 \u003d 34. Gemäß der Tabelle in Anhang 4 finden wir t gr= 2,02.

Statistische Inferenz. Da t \u003d 11,62 und die Grenze t gr \u003d 2,02, dann 11,62\u003e 2,02, d.h. t > tgr, also ist der Unterschied zwischen den Stichproben statistisch signifikant.

Pädagogischer Abschluss. Es wurde festgestellt, dass in Bezug auf die Herzfrequenz der Unterschied zwischen dem Zustand der Gruppe vor und nach dem Aufwärmen statistisch signifikant ist, d.h. bedeutend, wichtig. Anhand der Herzfrequenzanzeige können wir also schlussfolgern, dass das Aufwärmen effektiv ist.

Fishers Kriterium ist parametrisch. Es wird verwendet, wenn die Streuraten von Proben verglichen werden. Dies bedeutet in der Regel einen Vergleich in Bezug auf die Stabilität der Sportarbeit oder die Stabilität funktionaler und technischer Indikatoren in der Ausübung von Körperkultur und Sport. Proben können unterschiedliche Größen haben.

Das Fisher-Kriterium wird in der folgenden Sequenz definiert.

1. Ermitteln Sie das Fisher-Kriterium F anhand der Formel


wobei , die Varianzen der verglichenen Stichproben sind.

Die Bedingungen des Fisher-Kriteriums liefern dies im Zähler der Formel F Es gibt eine große Varianz, d.h. F ist immer größer als eins.

Wir legen die Zuverlässigkeit des Kontos fest: P = 0,95 - und bestimmen die Anzahl der Freiheitsgrade für beide Stichproben: k 1 = n 1 - 1, k 2 = n 2 - 1.

Gemäß der Tabelle in Anhang 4 finden wir den Grenzwert des Kriteriums F GR.

Vergleich der Kriterien F und F GR lässt uns folgende Schlussfolgerungen ziehen:

wenn F > Fgr, dann ist der Unterschied zwischen den Proben statistisch signifikant;

wenn f< F гр, то различие между выборками статически недо­стоверно.

Nehmen wir ein konkretes Beispiel.

Beispiel 2.15. Analysieren wir zwei Gruppen von Handballspielern: x ich (n 1= 16 Personen) und y i (n 2 = 18 Personen). Diese Sportlergruppen wurden auf die Abstoßzeit(en) beim Werfen des Balls ins Tor untersucht.

Sind die Abstoßungsraten gleich?

Anfangsdaten und grundlegende Berechnungen sind in der Tabelle dargestellt. 2.32 und 2.33.

Tabelle 2.32

Verarbeitung von Abstoßungsindikatoren der ersten Handballergruppe


Lassen Sie uns das Fisher-Kriterium definieren:





Gemäß den in der Tabelle von Anhang 6 präsentierten Daten finden wir Fgr: Fgr = 2,4

Achten wir darauf, dass in der Tabelle des Anhangs 6 die Aufzählung der Anzahl der Freiheitsgrade sowohl größerer als auch geringerer Streuung beim Annähern erfolgt große Zahlen wird rauer. Die Anzahl der Freiheitsgrade einer größeren Dispersion folgt also in dieser Reihenfolge: 8, 9, 10, 11, 12, 14, 16, 20, 24 usw. und einer kleineren - 28, 29, 30, 40, 50 usw. d.

Dies erklärt sich dadurch, dass mit zunehmendem Stichprobenumfang die Unterschiede im F-Test abnehmen und Tabellenwerte, die nahe an den Originaldaten liegen, verwendet werden können. Also fehlt in Beispiel 2.15 =17 und wir können den nächstliegenden Wert k = 16 nehmen, woraus wir Fgr = 2.4 erhalten.

Statistische Inferenz. Da der Fisher-Test F = 2,5 > F = 2,4 ist, sind die Stichproben statistisch signifikant.

Pädagogischer Abschluss. Die Werte der Abstoßzeit(en) beim Einwurf des Balles ins Tor der Handballer beider Gruppen unterscheiden sich deutlich. Diese Gruppen sollten als unterschiedlich betrachtet werden.

Weitere Untersuchungen sollten zeigen, was der Grund für diesen Unterschied ist.

Beispiel 2.20.(über die statistische Signifikanz der Stichprobe ). Hat sich die Qualifikation des Fußballers erhöht, wenn die Zeit(en) von der Signalgabe bis zum Treten des Balls zu Beginn des Trainings x i und am Ende i war.

Die Anfangsdaten und Grundberechnungen sind in der Tabelle angegeben. 2.40 und 2.41.

Tabelle 2.40

Verarbeitung von Zeitindikatoren vom Signalgeben bis zum Schlagen des Balls zu Beginn eines Trainings


Lassen Sie uns den Unterschied zwischen Gruppen von Indikatoren nach dem Student-Kriterium bestimmen:

Mit Zuverlässigkeit P \u003d 0,95 und Freiheitsgraden k \u003d n 1 + n 2 - 2 \u003d 22 + 22 - 2 \u003d 42 finden wir gemäß der Tabelle in Anhang 4 t gr= 2,02. Da t = 8,3 > t gr= 2,02 - der Unterschied ist statistisch signifikant.

Bestimmen wir den Unterschied zwischen den Indikatorengruppen nach dem Fisher-Kriterium:


Gemäß der Tabelle in Anhang 2 ist bei Zuverlässigkeit P = 0,95 und Freiheitsgraden k = 22-1 = 21 der Wert von F gr = 21. Da F = 1,53< F гр = = 2,1, различие в рассеивании исходных данных статистически недостоверно.

Statistische Inferenz. Nach dem arithmetischen Mittel ist der Unterschied zwischen den Indikatorengruppen statistisch signifikant. Hinsichtlich der Streuung (Streuung) ist der Unterschied zwischen den Indikatorengruppen statistisch nicht signifikant.

Pädagogischer Abschluss. Die Qualifikation des Fußballspielers hat sich deutlich verbessert, aber es sollte auf die Stabilität seiner Aussage geachtet werden.

Vorbereitung auf die Arbeit

Vor dem Labor arbeit in der Disziplin "Sportmesstechnik" Alle Studierenden der Studiengruppe müssen Arbeitsgruppen von jeweils 3-4 Studierenden bilden, den Arbeitsauftrag aller Laborarbeiten gemeinsam zu erledigen.

In Vorbereitung auf die Arbeit lesen Sie die relevanten Abschnitte der empfohlenen Literatur (siehe Abschnitt 6 der Daten). Richtlinien) und Vorlesungsunterlagen. Studieren Sie die Abschnitte 1 und 2 für dieses Praktikum sowie die Arbeitsaufgabe dafür (Abschnitt 4).

Bereiten Sie ein Berichtsformular vor auf der Standardblätter Schreibpapier im A4-Format und legen Sie die für die Arbeit notwendigen Materialien hinein.

Der Bericht muss enthalten :

Titelblatt mit Angabe des Fachbereichs (UK und TR), Studiengruppe, Nachname, Vorname, Patronym des Studierenden, Nummer und Name der Laborarbeit, Datum ihrer Fertigstellung sowie Nachname, akademischer Grad, akademischer Titel und Position der Lehrer, der die Arbeit annimmt;

Zielsetzung;

Formeln mit Zahlenwerten, die die Zwischen- und Endergebnisse von Berechnungen erklären;

Tabellen gemessener und berechneter Werte;

Erforderliches Bildmaterial für die Aufgabe;

Kurze Schlussfolgerungen zu den Ergebnissen der einzelnen Phasen des Arbeitsauftrags und allgemein zu den durchgeführten Arbeiten.

Alle Grafiken und Tabellen werden mit Zeichenwerkzeugen genau gezeichnet. Bedingte grafische und alphabetische Bezeichnungen müssen GOSTs entsprechen. Es ist erlaubt, einen Bericht unter Verwendung von Computer-(Computer-)Technologie zu erstellen.

Arbeitsaufgabe

Vor der Durchführung aller Messungen muss jedes Teammitglied die Regeln für die Verwendung einer Sportart studieren Dart-Spiele, angegeben in Anhang 7, die für die folgenden Forschungsschritte erforderlich sind.

I - te Phase der Forschung"Untersuchung der Ergebnisse von Treffern auf das Ziel Sportspiel Darts von jedem Mitglied der Brigade für die Einhaltung des normalen Verteilungsgesetzes gemäß dem Kriterium x 2 Pearson und der Drei-Sigma-Test“

1. messen (testen) Sie Ihre (persönliche) Schnelligkeit und Handlungskoordination, durch 30- bis 40-maliges Werfen von Dartpfeilen auf die kreisförmige Zielscheibe des Sportspiels Darts.

2. Messergebnisse (Tests) x ich(in Gläsern) in der Form anordnen Variationsreihe und tragen Sie in Tabelle 4.1 ein (Spalten , do all notwendige Berechnungen, füllen Sie die erforderlichen Tabellen aus und ziehen Sie die entsprechenden Schlussfolgerungen über die Übereinstimmung der erhaltenen empirischen Verteilung mit dem Normalverteilungsgesetz, analog zu ähnlichen Berechnungen, Tabellen und Schlussfolgerungen von Beispiel 2.12, die in Abschnitt 2 dieser Richtlinien auf den Seiten 7-10 angegeben sind .

Tabelle 4.1

Entsprechung der Geschwindigkeit und Koordination der Handlungen der Subjekte mit dem normalen Verteilungsgesetz

Nr. p / p gerundet
Gesamt

II - Stufe der Forschung

"Schätzung der durchschnittlichen Indikatoren der Gesamtbevölkerung von Treffern auf das Ziel des Sportspiels Darts aller Schüler der Bildungsgruppe basierend auf den Ergebnissen der Messungen von Mitgliedern einer Brigade"

Bewerten Sie die durchschnittlichen Indikatoren für die Geschwindigkeit und Koordination der Aktionen aller Schüler der Lerngruppe (gemäß der Liste der Lerngruppe der Klassenzeitschrift) basierend auf den Ergebnissen des Treffens des Ziels des Sportspiels Darts durch alle Mitglieder der Team, erhalten in der ersten Phase der Forschung dieser Laborarbeit.

1. Dokumentieren Sie die Ergebnisse von Geschwindigkeitsmessungen und Koordination von Aktionen beim Werfen von Dartpfeilen auf eine kreisförmige Zielscheibe des Sportspiels Darts aller Mitglieder Ihres Teams (2 - 4 Personen), die eine Auswahl von Messergebnissen aus der Allgemeinbevölkerung sind (Messergebnisse aller Studierenden der Studiengruppe - z. 15 Personen), Eintragung in die zweite und dritte Spalte Tabelle 4.2.

Tabelle 4.2

Verarbeitung von Geschwindigkeitsindikatoren und Koordination von Aktionen

Brigademitglieder

Nr. p / p
Gesamt

Tabelle 4.2 unten sollte verstanden werden , übereinstimmende Durchschnittsnote (siehe Berechnungsergebnisse nach Tabelle 4.1) Mitglieder Ihres Teams , in der ersten Phase der Forschung erhalten. Es ist darauf hinzuweisen, dass, allgemein, In Tabelle 4.2 ist ein berechneter Mittelwert der Messergebnisse aufgeführt, die von einem Mitglied des Teams in der ersten Phase der Untersuchung erzielt wurden , da die Wahrscheinlichkeit, dass die Messergebnisse verschiedener Teammitglieder übereinstimmen, sehr gering ist. Dann, normalerweise Werte in einer Spalte Tabellen 4.2 für jede der Zeilen - sind gleich 1, a in der Zeile „Gesamt » Spalten « », geschrieben wird die Anzahl der Mitglieder Ihres Teams.

2. Führen Sie alle notwendigen Berechnungen durch, um Tabelle 4.2 auszufüllen, sowie andere Berechnungen und Schlussfolgerungen ähnlich den Berechnungen und Schlussfolgerungen von Beispiel 2.13, die im 2. Abschnitt dieses Dokuments angegeben sind methodische Entwicklung auf den Seiten 13-14. Dies sollte bei der Berechnung des Repräsentativitätsfehlers berücksichtigt werden "m" Es ist notwendig, Formel 2.4 zu verwenden, die auf Seite 13 dieser methodologischen Entwicklung angegeben ist, da die Stichprobe klein ist (n, und die Anzahl der Elemente der Allgemeinbevölkerung N bekannt ist und gleich der Anzahl der Studenten in der Studiengruppe ist , gemäß der Liste der Zeitschrift der Studiengruppe.

III - Stufe der Forschung

Bewertung der Wirksamkeit des Aufwärmens in Bezug auf "Geschwindigkeit und Koordination der Aktionen" durch jedes Teammitglied anhand des Student-Kriteriums

Um die Wirksamkeit des Aufwärmens zum Werfen von Darts auf das Ziel des Sportspiels "Darts" zu bewerten, das in der ersten Phase der Forschung dieser Laborarbeit von jedem Mitglied des Teams in Bezug auf "Geschwindigkeit und Koordination von Aktionen", unter Verwendung des Student-Kriteriums - ein parametrisches Kriterium der statistischen Zuverlässigkeit des empirischen Verteilungsgesetzes zum normalen Verteilungsgesetz.

… Gesamt

2. Streuung und Nordkasachstan , die Ergebnisse der Messungen des Indikators "Geschwindigkeit und Koordination von Aktionen" basierend auf den Ergebnissen des Aufwärmens, in Tabelle 4.3 angegeben, (siehe ähnliche Berechnungen unmittelbar nach Tabelle 2.30 von Beispiel 2.14 auf Seite 16 dieser methodologischen Entwicklung).

3. Jedes Mitglied des Arbeitsteams messen (testen) Sie Ihre (persönliche) Schnelligkeit und Handlungskoordination nach dem Aufwärmen,

… Gesamt

5. Führen Sie Durchschnittsberechnungen durch Streuung und Nordkasachstan ,die Ergebnisse der Messungen des Indikators "Geschwindigkeit und Koordination von Aktionen" nach dem Aufwärmen, in Tabelle 4.4 angegeben, Schreiben Sie das Gesamtergebnis der Messungen auf der Grundlage der Ergebnisse des Aufwärmens auf (siehe ähnliche Berechnungen unmittelbar nach Tabelle 2.31 von Beispiel 2.14 auf Seite 17 dieser methodologischen Entwicklung).

6. Führen Sie alle notwendigen Berechnungen und Schlussfolgerungen durch, ähnlich den Berechnungen und Schlussfolgerungen von Beispiel 2.14, die im 2. Abschnitt dieser methodologischen Entwicklung auf den Seiten 16-17 angegeben sind. Dies sollte bei der Berechnung des Repräsentativitätsfehlers berücksichtigt werden "m" Es ist notwendig, Formel 2.1 zu verwenden, die auf Seite 12 dieser methodischen Entwicklung angegeben ist, da die Stichprobe n ist und die Anzahl der Elemente der Grundgesamtheit N ( unbekannt ist.

IV - Stufe der Forschung

Bewertung der Einheitlichkeit (Stabilität) der Indikatoren "Geschwindigkeit und Koordination von Aktionen" von zwei Teammitgliedern anhand des Fisher-Kriteriums

Bewerten Sie die Einheitlichkeit (Stabilität) der Indikatoren "Geschwindigkeit und Koordination der Aktionen" von zwei Teammitgliedern anhand des Fisher-Kriteriums gemäß den Messergebnissen, die in der dritten Phase der Forschung dieser Laborarbeit erhalten wurden.

Gehen Sie dazu wie folgt vor.

Unter Verwendung der Daten der Tabellen 4.3 und 4.4, der Ergebnisse der Berechnung der Streuungen für diese Tabellen, die in der dritten Forschungsphase erhalten wurden, sowie der Methodik zur Berechnung und Anwendung des Fisher-Kriteriums zur Bewertung der Einheitlichkeit (Stabilität) von Sportindikatoren, die in Beispiel 2.15 auf den Seiten 18-19 dieser methodologischen Entwicklung gegeben sind, geeignete statistische und pädagogische Schlussfolgerungen ziehen.

V - Stufe der Forschung

Bewertung der Indikatorengruppen "Geschwindigkeit und Koordination der Aktionen" eines Teammitglieds vor und nach dem Aufwärmen

Hypothesentests werden anhand statistischer Analysen durchgeführt. Die statistische Signifikanz wird anhand des P-Werts ermittelt, der der Wahrscheinlichkeit eines bestimmten Ereignisses unter der Annahme entspricht, dass eine Aussage (Nullhypothese) wahr ist. Wenn der P-Wert unter einem bestimmten statistischen Signifikanzniveau liegt (normalerweise 0,05), kann der Experimentator sicher schlussfolgern, dass die Nullhypothese falsch ist, und mit der Betrachtung der Alternativhypothese fortfahren. Mit dem Student-t-Test können Sie den p-Wert berechnen und die Signifikanz für zwei Datensätze bestimmen.

Schritte

Teil 1

Aufbau eines Experiments

    Definiere deine Hypothese. Der erste Schritt bei der Bewertung der statistischen Signifikanz besteht darin, die zu beantwortende Frage auszuwählen und eine Hypothese zu formulieren. Eine Hypothese ist eine Aussage über experimentelle Daten, deren Verteilung und Eigenschaften. Für jedes Experiment gibt es sowohl eine Null- als auch eine Alternativhypothese. Im Allgemeinen müssen Sie zwei Datensätze vergleichen, um festzustellen, ob sie ähnlich oder unterschiedlich sind.

    • Die Nullhypothese (H 0) besagt normalerweise, dass es keinen Unterschied zwischen den beiden Datensätzen gibt. Zum Beispiel: Die Schüler, die den Stoff vor dem Unterricht gelesen haben, bekommen keine besseren Noten.
    • Die Alternativhypothese (H a) ist das Gegenteil der Nullhypothese und eine Aussage, die durch experimentelle Daten bestätigt werden muss. Zum Beispiel: Die Schüler, die den Stoff vor dem Unterricht gelesen haben, bekommen bessere Noten.
  1. Legen Sie das Signifikanzniveau fest, um festzulegen, wie stark die Verteilung der Daten von der üblichen abweichen muss, um als signifikantes Ergebnis zu gelten. Signifikanzniveau (auch genannt α (\displaystyle \alpha)-Level) ist der Schwellenwert, den Sie für die statistische Signifikanz definieren. Wenn der P-Wert kleiner oder gleich dem Signifikanzniveau ist, gelten die Daten als statistisch signifikant.

    • In der Regel ist das Signifikanzniveau (Wert α (\displaystyle \alpha)) gleich 0,05 genommen, in diesem Fall beträgt die Wahrscheinlichkeit, einen zufälligen Unterschied zwischen verschiedenen Datensätzen zu entdecken, nur 5 %.
    • Je höher das Signifikanzniveau (und dementsprechend kleiner der P-Wert), desto zuverlässiger sind die Ergebnisse.
    • Wenn Sie mehr wollen zuverlässige Ergebnisse, senken Sie den P-Wert auf 0,01. Typischerweise werden niedrigere P-Werte in der Produktion verwendet, wenn Fehler in Produkten erkannt werden müssen. In diesem Fall ist eine hohe Wiedergabetreue erforderlich, um sicherzustellen, dass alle Teile wie erwartet funktionieren.
    • Für die meisten Hypothesenexperimente ist ein Signifikanzniveau von 0,05 ausreichend.
  2. Entscheiden Sie, welche Kriterien Sie verwenden werden: einseitig oder zweiseitig. Eine der Annahmen im Student-t-Test ist, dass die Daten normalverteilt sind. Die Normalverteilung ist eine glockenförmige Kurve mit die maximale Anzahl ergibt sich in der Mitte der Kurve. Student's t-Test ist mathematische Methode Datenvalidierung, mit der Sie feststellen können, ob die Daten außerhalb der Normalverteilung liegen (mehr, weniger oder in den „Schwänzen“ der Kurve).

    • Wenn Sie sich nicht sicher sind, ob die Daten über oder unter der Kontrollgruppe liegen, verwenden Sie einen zweiseitigen Test. Dadurch können Sie die Signifikanz in beide Richtungen bestimmen.
    • Wenn Sie wissen, in welche Richtung die Daten außerhalb der Normalverteilung fallen könnten, verwenden Sie einen einseitigen Test. Im obigen Beispiel erwarten wir, dass die Noten der Schüler steigen, sodass ein einseitiger Test verwendet werden kann.
  3. Bestimmen Sie die Stichprobengröße mit statistischer Power. Die statistische Aussagekraft einer Studie ist die Wahrscheinlichkeit, dass eine bestimmte Stichprobengröße das erwartete Ergebnis liefert. Eine übliche Leistungsschwelle (oder β) ist 80 %. Eine Leistungsanalyse ohne vorherige Daten kann schwierig sein, da einige Informationen über die erwarteten Mittelwerte in jedem Datensatz und ihre Standardabweichungen erforderlich sind. Verwenden Sie den statistischen Online-Power-Rechner, um die optimale Stichprobengröße für Ihre Daten zu bestimmen.

    • In der Regel führen Forscher eine kleine Pilotstudie durch, die Daten für die Leistungsanalyse liefert und die für eine größere und vollständigere Studie erforderliche Stichprobengröße bestimmt.
    • Wenn Sie keine Möglichkeit haben, eine Pilotstudie durchzuführen, versuchen Sie, mögliche Durchschnittswerte anhand der Literaturdaten und der Ergebnisse anderer Personen abzuschätzen. Dies kann Ihnen helfen, die optimale Stichprobengröße zu bestimmen.

    Teil 2

    Berechnung Standardabweichung
    1. Schreiben Sie die Formel für die Standardabweichung auf. Die Standardabweichung gibt an, wie groß die Streuung der Daten ist. Daraus können Sie schließen, wie nah die an einer bestimmten Probe erhaltenen Daten sind. Auf den ersten Blick erscheint die Formel ziemlich kompliziert, aber die folgenden Erklärungen helfen Ihnen, sie zu verstehen. Die Formel lautet wie folgt: s = √∑((x i – µ) 2 /(N – 1)).

      • s - Standardabweichung;
      • das ∑-Zeichen zeigt an, dass alle in der Stichprobe erhaltenen Daten hinzugefügt werden sollten;
      • x i entspricht dem i-ten Wert, d. h. einem getrennt erhaltenen Ergebnis;
      • µ ist der Durchschnittswert für diese Gruppe;
      • N ist die Gesamtzahl der Daten in der Stichprobe.
    2. Finden Sie den Durchschnitt in jeder Gruppe. Um die Standardabweichung zu berechnen, müssen Sie zunächst den Mittelwert für jede Studiengruppe finden. Der Mittelwert wird mit dem griechischen Buchstaben µ (mu) bezeichnet. Um den Durchschnitt zu finden, addieren Sie einfach alle resultierenden Werte und dividieren sie durch die Datenmenge (Stichprobengröße).

      • Um beispielsweise die Durchschnittsnote in einer Gruppe von Schülern zu ermitteln, die sich vor dem Unterricht mit Stoff befassen, betrachten Sie einen kleinen Datensatz. Der Einfachheit halber verwenden wir einen Satz von fünf Punkten: 90, 91, 85, 83 und 94.
      • Addieren wir alle Werte zusammen: 90 + 91 + 85 + 83 + 94 = 443.
      • Teilen Sie die Summe durch die Anzahl der Werte, N = 5: 443/5 = 88,6.
      • Somit liegt der Durchschnittswert für diese Gruppe bei 88,6.
    3. Subtrahieren Sie jeden erhaltenen Wert vom Durchschnitt. Nächster Schritt ist die Differenz (x i - µ) zu berechnen. Subtrahieren Sie dazu jeden erhaltenen Wert vom gefundenen Mittelwert. In unserem Beispiel müssen wir fünf Unterschiede finden:

      • (90–88,6), (91–88,6), (85–88,6), (83–88,6) und (94–88,6).
      • Als Ergebnis erhalten wir folgende Werte: 1,4, 2,4, -3,6, -5,6 und 5,4.
    4. Quadriere jeden erhaltenen Wert und addiere sie zusammen. Jede der gerade gefundenen Größen sollte quadriert werden. Dieser Schritt entfernt alle negativen Werte. Wenn Sie nach diesem Schritt immer noch negative Zahlen haben, dann haben Sie vergessen, sie zu quadrieren.

      • Für unser Beispiel erhalten wir 1,96, 5,76, 12,96, 31,36 und 29,16.
      • Wir addieren die erhaltenen Werte: 1,96 + 5,76 + 12,96 + 31,36 + 29,16 = 81,2.
    5. Teilen Sie durch die Stichprobengröße minus 1. In der Formel wird die Summe durch N - 1 dividiert, da wir nicht die Grundgesamtheit berücksichtigen, sondern eine Stichprobe aller Studierenden zur Auswertung heranziehen.

      • Subtrahiere: N - 1 = 5 - 1 = 4
      • Teilen: 81,2/4 = 20,3
    6. Extrakt Quadratwurzel. Nachdem Sie die Summe durch den Stichprobenumfang minus eins dividiert haben, ziehen Sie die Quadratwurzel des gefundenen Werts. Dies ist der letzte Schritt zur Berechnung der Standardabweichung. Es gibt Statistikprogramme, die nach Eingabe der Ausgangsdaten alle notwendigen Berechnungen durchführen.

      • In unserem Beispiel beträgt die Standardabweichung der Noten der Schüler, die den Stoff vor dem Unterricht gelesen haben, s = √20,3 = 4,51.

      Teil 3

      Bestimmen Sie die Bedeutung
      1. Berechnen Sie die Varianz zwischen den beiden Datengruppen. Bis zu diesem Schritt haben wir das Beispiel nur für eine Gruppe von Daten betrachtet. Wenn Sie zwei Gruppen vergleichen möchten, sollten Sie natürlich die Daten beider Gruppen nehmen. Berechnen Sie die Standardabweichung für die zweite Datengruppe und finden Sie dann die Varianz zwischen den beiden experimentellen Gruppen. Die Streuung wird nach folgender Formel berechnet: s d = √((s 1 /N 1) + (s 2 /N 2)).