Das Niveau der statistischen Signifikanz. Grad der statistischen Signifikanz

Aufgabe 3. Fünf Vorschulkinder werden einem Test unterzogen. Die Zeit für die Lösung jeder Aufgabe ist festgelegt. Gibt es statistisch signifikante Unterschiede zwischen den Lösungszeiten? die ersten drei Testgegenstände?

Anzahl der Fächer

Referenzmaterial

Diese Aufgabe basiert auf der Theorie der Varianzanalyse. Im allgemeinen Fall besteht die Aufgabe der Varianzanalyse darin, diejenigen Faktoren zu identifizieren, die einen signifikanten Einfluss auf das Ergebnis des Experiments haben. Die Varianzanalyse kann verwendet werden, um die Mittelwerte mehrerer Stichproben zu vergleichen, wenn die Anzahl der Stichproben mehr als zwei beträgt. Dazu dient die Einweg-Varianzanalyse.

Zur Lösung der gestellten Aufgaben wird folgendes angenommen. Wenn die Varianzen der erhaltenen Werte des Optimierungsparameters im Falle des Einflusses von Faktoren von den Varianzen der Ergebnisse ohne Einfluss von Faktoren abweichen, wird ein solcher Faktor als signifikant anerkannt.

Wie der Problemstellung zu entnehmen ist, werden hier Verfahren zur Prüfung statistischer Hypothesen verwendet, nämlich das Problem der Prüfung zweier empirischer Varianzen. Daher basiert die Varianzanalyse auf der Überprüfung von Varianzen durch das Fisher-Kriterium. Bei dieser Aufgabe ist zu prüfen, ob die Unterschiede zwischen der Zeit für die Lösung der ersten drei Aufgaben des Tests durch jeden der sechs Vorschulkinder statistisch signifikant sind.

Die Nullhypothese (Grundhypothese) heißt H o. Das Wesen von e wird auf die Annahme reduziert, dass die Differenz zwischen den verglichenen Parametern Null ist (daher der Name der Hypothese - Null) und dass die beobachteten Unterschiede zufällig sind.

Eine konkurrierende (alternative) Hypothese heißt H 1 , die der Null-Hypothese widerspricht.

Lösung:

Unter Verwendung der Methode der Varianzanalyse auf einem Signifikanzniveau von α = 0,05 testen wir die Nullhypothese (Hо) über das Vorhandensein statistisch signifikanter Unterschiede zwischen dem Zeitpunkt der Lösung der ersten drei Aufgaben des Tests bei sechs Vorschulkindern.

Betrachten Sie die Aufgabenbedingungstabelle, in der wir die durchschnittliche Zeit finden, um jede der drei Testaufgaben zu lösen

Anzahl der Fächer

Faktorstufen

Zeit zum Lösen der ersten Aufgabe des Tests (in Sek.).

Zeit zum Lösen der zweiten Aufgabe des Tests (in Sek.).

Zeit zum Lösen der dritten Aufgabe des Tests (in Sek.).

Gruppendurchschnitt

Ermittlung des Gesamtdurchschnitts:

Um die Signifikanz der Zeitunterschiede jedes Tests zu berücksichtigen, wird die gesamte Stichprobenvarianz in zwei Teile unterteilt, von denen der erste als Faktorvarianz und der zweite als Residuum bezeichnet wird

Berechnen Sie mithilfe der Formel die Gesamtsumme der quadrierten Abweichungen der Variante vom Gesamtdurchschnitt

oder , wobei p die Anzahl der Zeitmessungen zum Lösen von Testaufgaben ist, q die Anzahl der Probanden. Dazu erstellen wir eine Option für eine Tabelle mit Quadraten

Anzahl der Fächer

Faktorstufen

Zeit zum Lösen der ersten Aufgabe des Tests (in Sek.).

Zeit zum Lösen der zweiten Aufgabe des Tests (in Sek.).

Zeit zum Lösen der dritten Aufgabe des Tests (in Sek.).

Statistik ist seit langem ein fester Bestandteil des Lebens. Die Menschen sind überall damit konfrontiert. Anhand von Statistiken werden Rückschlüsse gezogen, wo und welche Krankheiten verbreitet sind, was in einer bestimmten Region oder bei einem bestimmten Bevölkerungssegment stärker nachgefragt wird. Sogar die Konstruktion politischer Programme von Kandidaten für Regierungsgremien basiert darauf. Sie werden auch von Einzelhandelsketten beim Wareneinkauf verwendet, und Hersteller orientieren sich bei ihren Vorschlägen an diesen Daten.

Statistiken spielen wichtige Rolle im Leben der Gesellschaft und betrifft jedes einzelne ihrer Mitglieder, auch im Kleinen. Wenn zum Beispiel die meisten Menschen in einer bestimmten Stadt oder Region dunkle Farben in der Kleidung bevorzugen, dann wird es äußerst schwierig sein, einen leuchtend gelben Regenmantel mit Blumendruck in lokalen Geschäften zu finden. Aber was sind die Mengen, aus denen diese Daten bestehen, die eine solche Wirkung haben? Was ist zum Beispiel „statistisch signifikant“? Was genau ist mit dieser Definition gemeint?

Was ist das?

Die Statistik als Wissenschaft besteht aus einer Kombination verschiedener Größen und Konzepte. Eines davon ist das Konzept der „statistischen Signifikanz“. Dies ist der Name des Wertes von Variablen, bei denen die Wahrscheinlichkeit des Auftretens anderer Indikatoren vernachlässigbar ist.

Zum Beispiel ziehen 9 von 10 Menschen während eines morgendlichen Spaziergangs auf der Suche nach Pilzen Gummischuhe an ihren Füßen an Herbstwald nach einer regnerischen Nacht. Die Wahrscheinlichkeit, dass irgendwann 8 von ihnen Leinwandmokassins anziehen, ist vernachlässigbar. Also in diesem konkretes Beispiel die Zahl 9 ist ein Wert, der als „statistische Signifikanz“ bezeichnet wird.

Dementsprechend, wenn wir das Obige weiterentwickeln praktisches Beispiel, kaufen Schuhgeschäfte Gummistiefel bis zum Ende der Sommersaison in größeren Mengen als zu anderen Jahreszeiten. Die Größe des statistischen Werts hat also Auswirkungen auf das gewöhnliche Leben.

Bei komplexen Berechnungen, beispielsweise bei der Vorhersage der Ausbreitung von Viren, große Nummer Variablen. Das Wesen der Bestimmung eines signifikanten Indikators für statistische Daten ist jedoch ähnlich, unabhängig von der Komplexität der Berechnungen und der Anzahl nicht konstanter Werte.

Wie wird es berechnet?

Wird bei der Berechnung des Werts des Indikators "statistische Signifikanz" der Gleichung verwendet. Das heißt, man kann argumentieren, dass in diesem Fall alles von der Mathematik entschieden wird. bei den meisten einfache Möglichkeit Berechnung ist eine Kette von mathematischen Operationen, an denen folgende Parameter beteiligt sind:

  • zwei Arten von Ergebnissen, die aus Umfragen oder dem Studium objektiver Daten gewonnen werden, zum Beispiel die Beträge, für die Einkäufe getätigt werden, bezeichnet mit a und b;
  • Indikator für beide Gruppen - n;
  • der Wert des Anteils der kombinierten Stichprobe - p;
  • Konzept " Standart Fehler» - SE.

Der nächste Schritt besteht darin, den Gesamttestindikator zu bestimmen - t, sein Wert wird mit der Zahl 1,96 verglichen. 1,96 ist ein Durchschnittswert, der einen Bereich von 95 % gemäß der Student-t-Verteilung darstellt.

Oft stellt sich die Frage, was der Unterschied zwischen den Werten von n und p ist. Diese Nuance lässt sich leicht an einem Beispiel verdeutlichen. Angenommen, die statistische Signifikanz der Loyalität gegenüber einem Produkt oder einer Marke von Männern und Frauen wird berechnet.

In diesem Fall folgt auf die Buchstaben Folgendes:

  • n ist die Anzahl der Befragten;
  • p - die Anzahl der mit dem Produkt zufriedenen Personen.

Die Anzahl der befragten Frauen wird in diesem Fall mit n1 bezeichnet. Dementsprechend Männer - n2. Derselbe Wert hat die Nummern "1" und "2" beim Symbol p.

Der Vergleich des Testindikators mit den Durchschnittswerten der Berechnungstabellen von Student wird zu einer sogenannten "statistischen Signifikanz".

Was versteht man unter Verifizierung?

Die Ergebnisse jeder mathematischen Berechnung können jederzeit überprüft werden, Kindern wird dies in den Grundschulklassen beigebracht. Es ist logisch anzunehmen, dass, da die statistischen Indikatoren anhand einer Kette von Berechnungen ermittelt werden, diese überprüft werden.

Allerdings Überprüfung statistische Signifikanz- nicht nur Mathematik. Statistiken behandeln große Menge Variablen und verschiedene Wahrscheinlichkeiten, die nicht immer einer Berechnung zugänglich sind. Das heißt, wenn wir auf das am Anfang des Artikels angegebene Beispiel von Gummischuhen zurückkommen, kann die logische Konstruktion statistischer Daten, auf die sich Käufer von Waren für Geschäfte verlassen, durch trockenes und heißes Wetter gestört werden, was nicht typisch ist Herbst. Als Ergebnis dieses Phänomens, die Zahl der Erwerbenden Gummistiefel, wird abnehmen, und Verkaufsstellen wird Verluste erleiden. Natürlich ist eine mathematische Formel nicht in der Lage, eine Wetteranomalie vorherzusagen. Dieser Moment heißt - "Fehler".

Gerade die Wahrscheinlichkeit solcher Fehler wird bei der Überprüfung des berechneten Signifikanzniveaus berücksichtigt. Es berücksichtigt sowohl berechnete Indikatoren und akzeptierte Signifikanzniveaus als auch Größen, die herkömmlicherweise als Hypothesen bezeichnet werden.

Was ist ein Signifikanzniveau?

Das Konzept des "Niveaus" ist in den Hauptkriterien für die statistische Signifikanz enthalten. Es wird in der angewandten und praktischen Statistik verwendet. Das ist eine Art Wert, der die Wahrscheinlichkeit möglicher Abweichungen oder Fehler berücksichtigt.

Das Niveau basiert auf der Identifizierung von Unterschieden in vorgefertigten Proben und ermöglicht es Ihnen, deren Signifikanz oder umgekehrt die Zufälligkeit festzustellen. Dieses Konzept hat nicht nur digitale Bedeutungen, sondern auch ihre eigentümlichen Interpretationen. Sie erklären, wie der Wert zu verstehen ist, und das Niveau selbst wird bestimmt, indem das Ergebnis mit dem Durchschnittsindex verglichen wird. Dies zeigt den Grad der Zuverlässigkeit der Unterschiede.

Daher kann das Konzept eines Niveaus einfach dargestellt werden - es ist ein Indikator für einen akzeptablen, wahrscheinlichen Fehler oder Fehler in den Schlussfolgerungen, die aus den erhaltenen statistischen Daten gezogen werden.

Welche Signifikanzniveaus werden verwendet?

Die statistische Signifikanz der Irrtumsin der Praxis basiert auf drei Grundebenen.

Die erste Stufe ist die Schwelle, bei der der Wert 5 % beträgt. Das heißt, die Irrtumswahrscheinlichkeit überschreitet nicht das Signifikanzniveau von 5 %. Das bedeutet, dass das Vertrauen in die Eindeutigkeit und Unfehlbarkeit der auf Basis statistischer Forschungsdaten getroffenen Schlussfolgerungen 95 % beträgt.

Die zweite Stufe ist die 1%-Schwelle. Dementsprechend bedeutet diese Zahl, dass man sich mit 99%iger Sicherheit an den Daten orientieren kann, die bei statistischen Berechnungen gewonnen wurden.

Die dritte Stufe liegt bei 0,1 %. Bei diesem Wert liegt die Fehlerwahrscheinlichkeit bei einem Bruchteil eines Prozents, dh Fehler sind praktisch ausgeschlossen.

Was ist eine Hypothese in der Statistik?

Fehler als Konzept werden in zwei Bereiche bezüglich der Annahme oder Ablehnung der Nullhypothese unterteilt. Eine Hypothese ist ein Konzept, hinter dem sich laut Definition eine Menge anderer Daten oder Aussagen verbirgt. Das heißt, eine Beschreibung der Wahrscheinlichkeitsverteilung von etwas, das mit dem Thema der statistischen Buchführung zusammenhängt.

Bei einfachen Berechnungen gibt es zwei Hypothesen - Null und Alternative. Der Unterschied zwischen ihnen besteht darin, dass die Nullhypothese auf der Idee basiert, dass es keine grundlegenden Unterschiede zwischen den Stichproben gibt, die an der Bestimmung der statistischen Signifikanz beteiligt sind, und die Alternative dazu völlig entgegengesetzt ist. Das heißt, die Alternativhypothese basiert auf dem Vorhandensein eines signifikanten Unterschieds in diesen Stichproben.

Was sind die Fehler?

Fehler als Begriff in der Statistik sind direkt abhängig von der Annahme der einen oder anderen Hypothese als wahr. Sie können in zwei Richtungen oder Typen unterteilt werden:

  • der erste Typ ist auf die Annahme der Nullhypothese zurückzuführen, die sich als falsch herausstellte;
  • der zweite wird durch das Befolgen der Alternative verursacht.

Die erste Art von Fehler wird falsch positiv genannt und ist in allen Bereichen, in denen Statistiken verwendet werden, recht häufig. Dementsprechend wird der Fehler der zweiten Art falsch negativ genannt.

Warum ist Regression in der Statistik wichtig?

Die statistische Signifikanz der Regression liegt darin, dass mit ihr festgestellt werden kann, wie sehr das anhand der Daten berechnete Modell verschiedener Abhängigkeiten der Realität entspricht; ermöglicht es Ihnen, die Angemessenheit oder das Fehlen von Faktoren für die Rechnungslegung und Schlussfolgerungen zu identifizieren.

Der Regressionswert wird bestimmt, indem die Ergebnisse mit den in den Fisher-Tabellen aufgeführten Daten verglichen werden. Oder mit Varianzanalyse. Regressionsindikatoren sind von großer Bedeutung in komplexen statistischen Studien und Berechnungen, in denen große Menge Variablen, zufällige Daten und wahrscheinliche Änderungen.

Hypothesentests werden anhand statistischer Analysen durchgeführt. Die statistische Signifikanz wird anhand des P-Werts ermittelt, der der Wahrscheinlichkeit eines bestimmten Ereignisses unter der Annahme entspricht, dass eine Aussage (Nullhypothese) wahr ist. Wenn der P-Wert unter einem bestimmten statistischen Signifikanzniveau liegt (normalerweise 0,05), kann der Experimentator sicher schlussfolgern, dass die Nullhypothese falsch ist, und mit der Betrachtung der Alternativhypothese fortfahren. Mit dem Student-t-Test können Sie den p-Wert berechnen und die Signifikanz für zwei Datensätze bestimmen.

Schritte

Teil 1

Aufbau eines Experiments

    Definiere deine Hypothese. Der erste Schritt bei der Bewertung der statistischen Signifikanz besteht darin, die zu beantwortende Frage auszuwählen und eine Hypothese zu formulieren. Eine Hypothese ist eine Aussage über experimentelle Daten, deren Verteilung und Eigenschaften. Für jedes Experiment gibt es sowohl eine Null- als auch eine Alternativhypothese. Im Allgemeinen müssen Sie zwei Datensätze vergleichen, um festzustellen, ob sie ähnlich oder unterschiedlich sind.

    • Die Nullhypothese (H 0) besagt normalerweise, dass es keinen Unterschied zwischen den beiden Datensätzen gibt. Zum Beispiel: Die Schüler, die den Stoff vor dem Unterricht gelesen haben, bekommen keine besseren Noten.
    • Die Alternativhypothese (H a) ist das Gegenteil der Nullhypothese und eine Aussage, die durch experimentelle Daten bestätigt werden muss. Zum Beispiel: Die Schüler, die den Stoff vor dem Unterricht gelesen haben, bekommen bessere Noten.
  1. Legen Sie das Signifikanzniveau fest, um festzulegen, wie stark die Verteilung der Daten von der üblichen abweichen muss, um als signifikantes Ergebnis zu gelten. Signifikanzniveau (auch genannt α (\displaystyle \alpha)-Level) ist der Schwellenwert, den Sie für die statistische Signifikanz definieren. Wenn der P-Wert kleiner oder gleich dem Signifikanzniveau ist, gelten die Daten als statistisch signifikant.

    • In der Regel ist das Signifikanzniveau (Wert α (\displaystyle \alpha)) gleich 0,05 genommen, in diesem Fall beträgt die Wahrscheinlichkeit, einen zufälligen Unterschied zwischen verschiedenen Datensätzen zu entdecken, nur 5 %.
    • Je höher das Signifikanzniveau (und dementsprechend kleiner der P-Wert), desto zuverlässiger sind die Ergebnisse.
    • Wenn Sie mehr wollen zuverlässige Ergebnisse, senken Sie den P-Wert auf 0,01. Typischerweise werden niedrigere P-Werte in der Produktion verwendet, wenn Fehler in Produkten erkannt werden müssen. In diesem Fall ist eine hohe Wiedergabetreue erforderlich, um sicherzustellen, dass alle Teile wie erwartet funktionieren.
    • Für die meisten Hypothesenexperimente ist ein Signifikanzniveau von 0,05 ausreichend.
  2. Entscheiden Sie, welche Kriterien Sie verwenden werden: einseitig oder zweiseitig. Eine der Annahmen im Student-t-Test ist, dass die Daten normalverteilt sind. Die Normalverteilung ist eine glockenförmige Kurve mit die maximale Anzahl ergibt sich in der Mitte der Kurve. Student's t-Test ist mathematische Methode Datenvalidierung, mit der Sie feststellen können, ob die Daten außerhalb der Normalverteilung liegen (mehr, weniger oder in den „Schwänzen“ der Kurve).

    • Wenn Sie sich nicht sicher sind, ob die Daten über oder unter der Kontrollgruppe liegen, verwenden Sie einen zweiseitigen Test. Dadurch können Sie die Signifikanz in beide Richtungen bestimmen.
    • Wenn Sie wissen, in welche Richtung die Daten außerhalb der Normalverteilung fallen könnten, verwenden Sie einen einseitigen Test. Im obigen Beispiel erwarten wir, dass die Noten der Schüler steigen, sodass ein einseitiger Test verwendet werden kann.
  3. Bestimmen Sie die Stichprobengröße mit statistischer Power. Die statistische Aussagekraft einer Studie ist die Wahrscheinlichkeit, dass eine bestimmte Stichprobengröße das erwartete Ergebnis liefert. Eine übliche Leistungsschwelle (oder β) ist 80 %. Die Leistungsanalyse ohne vorherige Daten kann schwierig sein, da einige Informationen über die erwarteten Mittelwerte in jedem Datensatz und ihre Standardabweichungen erforderlich sind. Verwenden Sie den statistischen Online-Power-Rechner, um die optimale Stichprobengröße für Ihre Daten zu bestimmen.

    • In der Regel führen Forscher eine kleine Pilotstudie durch, die Daten für die Leistungsanalyse liefert und die für eine größere und vollständigere Studie erforderliche Stichprobengröße bestimmt.
    • Wenn Sie keine Möglichkeit haben, eine Pilotstudie durchzuführen, versuchen Sie, mögliche Durchschnittswerte anhand der Literaturdaten und der Ergebnisse anderer Personen abzuschätzen. Dies kann Ihnen helfen, die optimale Stichprobengröße zu bestimmen.

    Teil 2

    Berechnung Standardabweichung
    1. Schreiben Sie die Formel für die Standardabweichung auf. Die Standardabweichung gibt an, wie groß die Streuung der Daten ist. Daraus können Sie schließen, wie nah die an einer bestimmten Probe erhaltenen Daten sind. Auf den ersten Blick erscheint die Formel ziemlich kompliziert, aber die folgenden Erklärungen helfen Ihnen, sie zu verstehen. Die Formel lautet wie folgt: s = √∑((x i – µ) 2 /(N – 1)).

      • s - Standardabweichung;
      • das ∑-Zeichen zeigt an, dass alle in der Stichprobe erhaltenen Daten hinzugefügt werden sollten;
      • x i entspricht dem i-ten Wert, d. h. einem getrennt erhaltenen Ergebnis;
      • µ ist der Durchschnittswert für diese Gruppe;
      • N- Gesamtzahl Daten in der Probe.
    2. Finden Sie den Durchschnitt in jeder Gruppe. Um die Standardabweichung zu berechnen, müssen Sie zunächst den Mittelwert für jede Studiengruppe finden. Der Mittelwert wird mit dem griechischen Buchstaben µ (mu) bezeichnet. Um den Durchschnitt zu finden, addieren Sie einfach alle resultierenden Werte und dividieren sie durch die Datenmenge (Stichprobengröße).

      • Um beispielsweise die Durchschnittsnote in einer Gruppe von Schülern zu ermitteln, die sich vor dem Unterricht mit Stoff befassen, betrachten Sie einen kleinen Datensatz. Der Einfachheit halber verwenden wir einen Satz von fünf Punkten: 90, 91, 85, 83 und 94.
      • Addieren wir alle Werte zusammen: 90 + 91 + 85 + 83 + 94 = 443.
      • Teilen Sie die Summe durch die Anzahl der Werte, N = 5: 443/5 = 88,6.
      • Somit liegt der Durchschnittswert für diese Gruppe bei 88,6.
    3. Subtrahieren Sie jeden erhaltenen Wert vom Durchschnitt. Der nächste Schritt ist die Differenz (x i - µ) zu berechnen. Subtrahieren Sie dazu jeden erhaltenen Wert vom gefundenen Mittelwert. In unserem Beispiel müssen wir fünf Unterschiede finden:

      • (90–88,6), (91–88,6), (85–88,6), (83–88,6) und (94–88,6).
      • Als Ergebnis erhalten wir folgende Werte: 1,4, 2,4, -3,6, -5,6 und 5,4.
    4. Quadriere jeden erhaltenen Wert und addiere sie zusammen. Jede der gerade gefundenen Größen sollte quadriert werden. Dieser Schritt entfernt alle negativen Werte. Wenn Sie nach diesem Schritt immer noch negative Zahlen haben, dann haben Sie vergessen, sie zu quadrieren.

      • Für unser Beispiel erhalten wir 1,96, 5,76, 12,96, 31,36 und 29,16.
      • Wir addieren die erhaltenen Werte: 1,96 + 5,76 + 12,96 + 31,36 + 29,16 = 81,2.
    5. Teilen Sie durch die Stichprobengröße minus 1. In der Formel wird die Summe durch N - 1 dividiert, da wir nicht die Grundgesamtheit berücksichtigen, sondern eine Stichprobe aller Studierenden zur Auswertung heranziehen.

      • Subtrahiere: N - 1 = 5 - 1 = 4
      • Teilen: 81,2/4 = 20,3
    6. Extrakt Quadratwurzel. Nachdem Sie die Summe durch den Stichprobenumfang minus eins dividiert haben, ziehen Sie die Quadratwurzel des gefundenen Werts. Dies ist der letzte Schritt zur Berechnung der Standardabweichung. Es gibt Statistikprogramme, die nach Eingabe der Ausgangsdaten alle notwendigen Berechnungen durchführen.

      • In unserem Beispiel beträgt die Standardabweichung der Noten der Schüler, die den Stoff vor dem Unterricht gelesen haben, s = √20,3 = 4,51.

      Teil 3

      Bestimmen Sie die Bedeutung
      1. Berechnen Sie die Varianz zwischen den beiden Datengruppen. Bis zu diesem Schritt haben wir das Beispiel nur für eine Gruppe von Daten betrachtet. Wenn Sie zwei Gruppen vergleichen möchten, sollten Sie natürlich die Daten beider Gruppen nehmen. Berechnen Sie die Standardabweichung für die zweite Datengruppe und finden Sie dann die Varianz zwischen den beiden experimentellen Gruppen. Die Streuung wird nach folgender Formel berechnet: s d = √((s 1 /N 1) + (s 2 /N 2)).

Statistische Gültigkeit ist in der Berechnungspraxis der FCC von wesentlicher Bedeutung. Es wurde bereits erwähnt, dass viele Stichproben aus derselben Grundgesamtheit ausgewählt werden können:

Wenn sie richtig ausgewählt werden, unterscheiden sich ihre durchschnittlichen Indikatoren und Indikatoren der allgemeinen Bevölkerung unter Berücksichtigung der akzeptierten Zuverlässigkeit in der Größe des Repräsentativitätsfehlers geringfügig voneinander.

Wenn sie aus verschiedenen Allgemeinpopulationen ausgewählt werden, erweist sich der Unterschied zwischen ihnen als signifikant. Der Vergleich von Stichproben wird üblicherweise in der Statistik berücksichtigt;

Wenn sie sich unwesentlich, unbedeutend, unwesentlich unterscheiden, also tatsächlich derselben Grundgesamtheit angehören, wird der Unterschied zwischen ihnen als statistisch unzuverlässig bezeichnet.

statistisch signifikant ein Stichprobenunterschied ist eine Stichprobe, die sich signifikant und grundlegend unterscheidet, d. h. zu unterschiedlichen Grundgesamtheiten gehört.

Der FCC-Score statistische Gültigkeit Unterschiede in Proben bedeutet, viele praktische Probleme zu lösen. Zum Beispiel die Einführung neuer Lehrmethoden, Programme, Übungsreihen, Tests, Kontrollübungen verbunden mit ihrer experimentellen Überprüfung, die zeigen soll, dass sich die Testgruppe grundlegend von der Kontrolle unterscheidet. Daher besonders statistische Methoden, die als Kriterien der statistischen Signifikanz bezeichnet werden und es ermöglichen, das Vorhandensein oder Nichtvorhandensein eines statistisch signifikanten Unterschieds zwischen Proben zu erkennen.

Alle Kriterien sind in zwei Gruppen unterteilt: parametrisch und nichtparametrisch. Parametrische Kriterien sehen das zwingende Vorhandensein eines Normalverteilungsgesetzes vor, d.h. dies bezieht sich auf die verpflichtende Bestimmung der Hauptkennzahlen des Normalrechts - des arithmetischen Mittels und der Standardabweichung s. Parametrische Kriterien sind die genauesten und korrekten. Nichtparametrische Kriterien basieren auf Rangunterschieden (Ordnungsdifferenzen) zwischen den Elementen der Stichproben.

Hier sind die Hauptkriterien für die statistische Signifikanz, die in der Praxis der FCC verwendet werden: Student's Test und Fisher's Test.

Schülerkriterium benannt nach dem englischen Wissenschaftler C. Gosset (Student ist ein Pseudonym), der diese Methode entdeckt hat. Der Student's t-Test ist parametrisch und wird zum Vergleich verwendet absolute Indikatoren Proben. Proben können in der Größe variieren.

Schülerkriterium ist so definiert.

1. Wir finden das Student-Kriterium t nach folgender Formel:


wo sind die arithmetischen Mittel der verglichenen Proben; t 1 , t 2 - Repräsentativitätsfehler, die auf der Grundlage der Indikatoren der verglichenen Stichproben identifiziert wurden.

2. Die Praxis in der FCC hat gezeigt, dass es für die Sportarbeit ausreicht, die Zuverlässigkeit der Punktzahl P = 0,95 zu akzeptieren.

Für die Berechnungssicherheit: P = 0,95 (a = 0,05), mit der Anzahl der Freiheitsgrade

k \u003d n 1 + p 2 - 2 Gemäß der Tabelle in Anhang 4 finden wir den Wert des Grenzwerts des Kriteriums ( t gr).

3. Basierend auf den Eigenschaften des Normalverteilungsgesetzes vergleicht das Student-Kriterium t und tgr.

Wir ziehen Schlussfolgerungen:

wenn t t gr, dann ist der Unterschied zwischen den verglichenen Stichproben statistisch signifikant;

wenn t t gr, dann ist der Unterschied statistisch nicht signifikant.

Für Forscher im Bereich FCC ist die Bewertung der statistischen Signifikanz der erste Schritt zur Lösung eines konkreten Problems: ob sich die verglichenen Stichproben grundlegend unterscheiden oder nicht. Der nächste Schritt besteht darin, diesen Unterschied aus pädagogischer Sicht zu bewerten, die von der Situation des Problems bestimmt wird.

Betrachten Sie die Anwendung des Schülerkriteriums auf ein bestimmtes Beispiel.

Beispiel 2.14. Eine Gruppe von Probanden in der Menge von 18 Personen wurde auf Herzfrequenz (bpm) vor x i und danach untersucht y ich Aufwärmen.

Bewerten Sie die Effektivität des Aufwärmens in Bezug auf die Herzfrequenz. Die Anfangsdaten und Berechnungen sind in der Tabelle dargestellt. 2.30 und 2.31.

Tabelle 2.30

Verarbeitung von Herzfrequenzdaten vor dem Aufwärmen


Die Fehler für beide Gruppen fielen zusammen, da die Stichprobenumfänge gleich sind (es wird dieselbe Gruppe untersucht verschiedene Bedingungen) und der Durchschnitt Standardabweichungen betrug s x \u003d s y \u003d 3 Schläge / min. Kommen wir zur Definition des Student-Kriteriums:

Wir setzen die Zuverlässigkeit des Kontos: Р= 0,95.

Die Anzahl der Freiheitsgrade k 1 \u003d n 1 + p 2 - 2 \u003d 18 + 18-2 \u003d 34. Gemäß der Tabelle in Anhang 4 finden wir t gr= 2,02.

Statistische Inferenz. Da t \u003d 11,62 und die Grenze t gr \u003d 2,02, dann 11,62\u003e 2,02, d.h. t > tgr, also ist der Unterschied zwischen den Stichproben statistisch signifikant.

Pädagogischer Abschluss. Es wurde festgestellt, dass in Bezug auf die Herzfrequenz der Unterschied zwischen dem Zustand der Gruppe vor und nach dem Aufwärmen statistisch signifikant ist, d.h. bedeutend, wichtig. Anhand der Herzfrequenzanzeige können wir also schlussfolgern, dass das Aufwärmen effektiv ist.

Fishers Kriterium ist parametrisch. Es wird verwendet, wenn die Streuraten von Proben verglichen werden. Dies bedeutet in der Regel einen Vergleich in Bezug auf die Stabilität der Sportarbeit oder die Stabilität funktionaler und technischer Indikatoren in der Ausübung von Körperkultur und Sport. Proben können unterschiedliche Größen haben.

Das Fisher-Kriterium wird in der folgenden Sequenz definiert.

1. Ermitteln Sie das Fisher-Kriterium F anhand der Formel


wobei , die Varianzen der verglichenen Stichproben sind.

Die Bedingungen des Fisher-Kriteriums liefern dies im Zähler der Formel F Es gibt eine große Varianz, d.h. F ist immer größer als eins.

Wir legen die Zuverlässigkeit des Kontos fest: P = 0,95 - und bestimmen die Anzahl der Freiheitsgrade für beide Stichproben: k 1 = n 1 - 1, k 2 = n 2 - 1.

Gemäß der Tabelle in Anhang 4 finden wir den Grenzwert des Kriteriums F GR.

Vergleich der Kriterien F und F GR lässt uns folgende Schlussfolgerungen ziehen:

wenn F > Fgr, dann ist der Unterschied zwischen den Proben statistisch signifikant;

wenn f< F гр, то различие между выборками статически недо­стоверно.

Nehmen wir ein konkretes Beispiel.

Beispiel 2.15. Analysieren wir zwei Gruppen von Handballspielern: x ich (n 1= 16 Personen) und y i (n 2 = 18 Personen). Diese Sportlergruppen wurden auf die Abstoßzeit(en) beim Werfen des Balls ins Tor untersucht.

Sind die Abstoßungsraten gleich?

Anfangsdaten und grundlegende Berechnungen sind in der Tabelle dargestellt. 2.32 und 2.33.

Tabelle 2.32

Verarbeitung von Abstoßungsindikatoren der ersten Handballergruppe


Lassen Sie uns das Fisher-Kriterium definieren:





Gemäß den in der Tabelle von Anhang 6 präsentierten Daten finden wir Fgr: Fgr = 2,4

Achten wir darauf, dass in der Tabelle des Anhangs 6 die Aufzählung der Anzahl der Freiheitsgrade sowohl größerer als auch geringerer Streuung beim Annähern erfolgt große Zahlen wird rauer. Die Anzahl der Freiheitsgrade einer größeren Dispersion folgt also in dieser Reihenfolge: 8, 9, 10, 11, 12, 14, 16, 20, 24 usw. und einer kleineren - 28, 29, 30, 40, 50 usw. d.

Dies erklärt sich dadurch, dass mit zunehmender Stichprobengröße die Unterschiede im F-Test abnehmen und tabellarische Werte, die nahe an den Originaldaten liegen, verwendet werden können. In Beispiel 2.15 fehlt also =17 und wir können den nächstliegenden Wert k = 16 nehmen, woraus wir Fgr = 2.4 erhalten.

Statistische Inferenz. Da der Fisher-Test F = 2,5 > F = 2,4 ist, sind die Stichproben statistisch signifikant.

Pädagogischer Abschluss. Die Werte der Abstoßzeit(en) beim Einwurf des Balles ins Tor der Handballer beider Gruppen unterscheiden sich deutlich. Diese Gruppen sollten als unterschiedlich betrachtet werden.

Weitere Untersuchungen sollten zeigen, was der Grund für diesen Unterschied ist.

Beispiel 2.20.(über die statistische Signifikanz der Stichprobe ). Hat sich die Qualifikation des Fußballers erhöht, wenn die Zeit(en) von der Signalgabe bis zum Treten des Balls zu Beginn des Trainings x i und am Ende i war.

Die Anfangsdaten und Grundberechnungen sind in der Tabelle angegeben. 2.40 und 2.41.

Tabelle 2.40

Verarbeitung von Zeitindikatoren vom Signalgeben bis zum Schlagen des Balls zu Beginn eines Trainings


Lassen Sie uns den Unterschied zwischen Gruppen von Indikatoren nach dem Student-Kriterium bestimmen:

Mit Zuverlässigkeit P \u003d 0,95 und Freiheitsgraden k \u003d n 1 + n 2 - 2 \u003d 22 + 22 - 2 \u003d 42 finden wir gemäß der Tabelle in Anhang 4 t gr= 2,02. Da t = 8,3 > t gr= 2,02 - der Unterschied ist statistisch signifikant.

Bestimmen wir den Unterschied zwischen den Indikatorengruppen nach dem Fisher-Kriterium:


Gemäß der Tabelle in Anhang 2 ist bei Zuverlässigkeit P = 0,95 und Freiheitsgraden k = 22-1 = 21 der Wert von F gr = 21. Da F = 1,53< F гр = = 2,1, различие в рассеивании исходных данных статистически недостоверно.

Statistische Inferenz. Nach dem arithmetischen Mittel ist der Unterschied zwischen den Indikatorengruppen statistisch signifikant. Hinsichtlich der Streuung (Streuung) ist der Unterschied zwischen den Indikatorengruppen statistisch nicht signifikant.

Pädagogischer Abschluss. Die Qualifikation des Fußballspielers hat sich deutlich verbessert, aber es sollte auf die Stabilität seiner Aussage geachtet werden.

Vorbereitung auf die Arbeit

Vor dem Labor arbeit in der Disziplin "Sportmesstechnik" Alle Studierenden der Studiengruppe müssen Arbeitsgruppen von jeweils 3-4 Studierenden bilden, den Arbeitsauftrag aller Laborarbeiten gemeinsam zu erledigen.

In Vorbereitung auf die Arbeit lesen Sie die relevanten Abschnitte der empfohlenen Literatur (siehe Abschnitt 6 der Daten). Richtlinien) und Vorlesungsunterlagen. Studieren Sie die Abschnitte 1 und 2 für dieses Praktikum sowie die Arbeitsaufgabe dafür (Abschnitt 4).

Bereiten Sie ein Berichtsformular vor auf der Standardblätter Schreibpapier im A4-Format und legen Sie die für die Arbeit notwendigen Materialien hinein.

Der Bericht muss enthalten :

Titelblatt unter Angabe des Fachbereichs (UK und TR), der Studiengruppe, des Nachnamens, des Vornamens, des Vatersnamens des Studierenden, der Nummer und des Namens der Laborarbeit, des Datums ihrer Fertigstellung sowie des Nachnamens, akademischen Grades, akademischen Titels und der Position der Lehrer, der die Arbeit annimmt;

Zielsetzung;

Formeln mit Zahlenwerten, die die Zwischen- und Endergebnisse von Berechnungen erklären;

Tabellen gemessener und berechneter Werte;

Erforderliches Bildmaterial für die Aufgabe;

Kurze Schlussfolgerungen zu den Ergebnissen der einzelnen Phasen des Arbeitsauftrags und allgemein zu den durchgeführten Arbeiten.

Alle Grafiken und Tabellen werden mit Zeichenwerkzeugen genau gezeichnet. Bedingte grafische und alphabetische Bezeichnungen müssen GOSTs entsprechen. Es ist erlaubt, einen Bericht unter Verwendung von Computer-(Computer-)Technologie zu erstellen.

Arbeitsaufgabe

Vor der Durchführung aller Messungen muss jedes Teammitglied die Regeln für die Verwendung einer Sportart studieren Dart-Spiele, angegeben in Anhang 7, die für die folgenden Forschungsschritte erforderlich sind.

I - te Phase der Forschung"Untersuchung der Ergebnisse von Treffern auf das Ziel Sportspiel Darts von jedem Mitglied der Brigade für die Einhaltung des normalen Verteilungsgesetzes gemäß dem Kriterium x 2 Pearson und der Drei-Sigma-Test“

1. messen (testen) Sie Ihre (persönliche) Schnelligkeit und Handlungskoordination, durch 30- bis 40-maliges Werfen von Dartpfeilen auf die kreisförmige Zielscheibe des Sportspiels Darts.

2. Messergebnisse (Tests) x ich(in Gläsern) in der Form anordnen Variationsreihe und tragen Sie in Tabelle 4.1 ein (Spalten , do all notwendige Berechnungen, füllen Sie die erforderlichen Tabellen aus und ziehen Sie die entsprechenden Schlussfolgerungen über die Übereinstimmung der erhaltenen empirischen Verteilung mit dem Normalverteilungsgesetz, analog zu ähnlichen Berechnungen, Tabellen und Schlussfolgerungen von Beispiel 2.12, die in Abschnitt 2 dieser Richtlinien auf den Seiten 7-10 angegeben sind .

Tabelle 4.1

Entsprechung der Geschwindigkeit und Koordination der Handlungen der Subjekte mit dem normalen Verteilungsgesetz

Nr. p / p gerundet
Gesamt

II - Stufe der Forschung

"Schätzung der durchschnittlichen Indikatoren der Gesamtbevölkerung von Treffern auf das Ziel des Sportspiels Darts aller Schüler der Bildungsgruppe basierend auf den Ergebnissen von Messungen von Mitgliedern einer Brigade"

Bewerten Sie die durchschnittlichen Indikatoren für die Geschwindigkeit und Koordination der Aktionen aller Schüler der Lerngruppe (gemäß der Liste der Lerngruppe der Klassenzeitschrift) basierend auf den Ergebnissen des Treffens des Ziels des Sportspiels Darts durch alle Mitglieder der Team, erhalten in der ersten Phase der Forschung dieser Laborarbeit.

1. Dokumentieren Sie die Ergebnisse von Geschwindigkeitsmessungen und Koordination von Aktionen beim Dartwurf auf eine kreisförmige Zielscheibe des Sportspiels Darts aller Mitglieder Ihres Teams (2 - 4 Personen), die eine Auswahl von Messergebnissen aus der Allgemeinbevölkerung sind (Messergebnisse aller Studierenden der Studiengruppe - z. 15 Personen), Eintragung in die zweite und dritte Spalte Tabelle 4.2.

Tabelle 4.2

Verarbeitung von Geschwindigkeitsindikatoren und Koordination von Aktionen

Brigademitglieder

Nr. p / p
Gesamt

Tabelle 4.2 unten sollte verstanden werden , übereinstimmende Durchschnittsnote (siehe Berechnungsergebnisse nach Tabelle 4.1) Mitglieder Ihres Teams , in der ersten Phase der Forschung erhalten. Es sollte erwähnt werden, dass, allgemein, In Tabelle 4.2 ist ein berechneter Mittelwert der Messergebnisse aufgeführt, die von einem Mitglied des Teams in der ersten Phase der Untersuchung erzielt wurden , da die Wahrscheinlichkeit, dass die Messergebnisse verschiedener Teammitglieder übereinstimmen, sehr gering ist. Dann, normalerweise Werte in einer Spalte Tabellen 4.2 für jede der Zeilen - sind gleich 1, a in der Zeile „Gesamt » Spalten « », geschrieben wird die Anzahl der Mitglieder Ihres Teams.

2. Führen Sie alle notwendigen Berechnungen durch, um Tabelle 4.2 auszufüllen, sowie andere Berechnungen und Schlussfolgerungen ähnlich den Berechnungen und Schlussfolgerungen von Beispiel 2.13, die im 2. Abschnitt dieses Dokuments angegeben sind methodische Entwicklung auf den Seiten 13-14. Dies sollte bei der Berechnung des Repräsentativitätsfehlers berücksichtigt werden "m" Es ist notwendig, Formel 2.4 zu verwenden, die auf Seite 13 dieser methodischen Entwicklung angegeben ist, da die Stichprobe klein ist (n, und die Anzahl der Elemente der Allgemeinbevölkerung N bekannt ist und gleich der Anzahl der Studenten in der Studiengruppe ist , gemäß der Liste der Zeitschrift der Studiengruppe.

III - Stufe der Forschung

Bewertung der Wirksamkeit des Aufwärmens in Bezug auf "Geschwindigkeit und Koordination der Aktionen" durch jedes Teammitglied anhand des Student-Kriteriums

Um die Wirksamkeit des Aufwärmens zum Werfen von Darts auf das Ziel des Sportspiels "Darts" zu bewerten, das in der ersten Phase der Forschung dieser Laborarbeit von jedem Mitglied des Teams in Bezug auf "Geschwindigkeit und Koordination von Aktionen", unter Verwendung des Student-Kriteriums - ein parametrisches Kriterium der statistischen Zuverlässigkeit des empirischen Verteilungsgesetzes zum normalen Verteilungsgesetz.

… Gesamt

2. Streuung und Nordkasachstan , die Ergebnisse der Messungen des Indikators "Geschwindigkeit und Koordination von Aktionen" basierend auf den Ergebnissen des Aufwärmens, in Tabelle 4.3 angegeben, (siehe ähnliche Berechnungen unmittelbar nach Tabelle 2.30 von Beispiel 2.14 auf Seite 16 dieser methodologischen Entwicklung).

3. Jedes Mitglied des Arbeitsteams messen (testen) Sie Ihre (persönliche) Schnelligkeit und Handlungskoordination nach dem Aufwärmen,

… Gesamt

5. Führen Sie Durchschnittsberechnungen durch Streuung und Nordkasachstan ,die Ergebnisse der Messungen des Indikators "Geschwindigkeit und Koordination von Aktionen" nach dem Aufwärmen, in Tabelle 4.4 angegeben, Schreiben Sie das Gesamtergebnis der Messungen auf der Grundlage der Ergebnisse des Aufwärmens auf (siehe ähnliche Berechnungen unmittelbar nach Tabelle 2.31 von Beispiel 2.14 auf Seite 17 dieser methodologischen Entwicklung).

6. Führen Sie alle notwendigen Berechnungen und Schlussfolgerungen durch, ähnlich den Berechnungen und Schlussfolgerungen von Beispiel 2.14, die im 2. Abschnitt dieser methodischen Entwicklung auf den Seiten 16-17 angegeben sind. Dies sollte bei der Berechnung des Repräsentativitätsfehlers berücksichtigt werden "m" Es ist notwendig, Formel 2.1 zu verwenden, die auf Seite 12 dieser methodischen Entwicklung angegeben ist, da die Stichprobe n ist und die Anzahl der Elemente der Grundgesamtheit N ( unbekannt ist.

IV - Stufe der Forschung

Bewertung der Einheitlichkeit (Stabilität) der Indikatoren "Geschwindigkeit und Koordination von Aktionen" von zwei Teammitgliedern anhand des Fisher-Kriteriums

Bewerten Sie die Einheitlichkeit (Stabilität) der Indikatoren "Geschwindigkeit und Koordination der Aktionen" von zwei Teammitgliedern anhand des Fisher-Kriteriums gemäß den Messergebnissen, die in der dritten Phase der Forschung dieser Laborarbeit erhalten wurden.

Gehen Sie dazu wie folgt vor.

Unter Verwendung der Daten der Tabellen 4.3 und 4.4, der Ergebnisse der Berechnung der Streuungen für diese Tabellen, die in der dritten Forschungsphase erhalten wurden, sowie der Methodik zur Berechnung und Anwendung des Fisher-Kriteriums zur Bewertung der Einheitlichkeit (Stabilität) von Sportindikatoren, die in Beispiel 2.15 auf den Seiten 18-19 dieser methodologischen Entwicklung gegeben sind, geeignete statistische und pädagogische Schlussfolgerungen ziehen.

V - Stufe der Forschung

Bewertung der Indikatorengruppen "Geschwindigkeit und Koordination der Aktionen" eines Teammitglieds vor und nach dem Aufwärmen

Die statistische Signifikanz eines Ergebnisses (p-Wert) ist ein geschätztes Maß für das Vertrauen in seine „Wahrheit“ (im Sinne von „Repräsentativität der Stichprobe“). Technisch gesehen ist der p-Wert ein Maß, das eine abnehmende Beziehung zur Zuverlässigkeit des Ergebnisses hat. Ein höherer p-Wert entspricht einem geringeren Konfidenzniveau in der Beziehung zwischen den in der Stichprobe gefundenen Variablen. Der p-Wert stellt nämlich die Fehlerwahrscheinlichkeit dar, die mit der Verteilung des beobachteten Ergebnisses auf die gesamte Population verbunden ist. Beispielsweise gibt ein p-Wert = 0,05 (d. h. 1/20) an, dass eine Wahrscheinlichkeit von 5 % besteht, dass die Beziehung zwischen den in der Stichprobe gefundenen Variablen nur ein zufälliges Merkmal dieser Stichprobe ist. Mit anderen Worten, wenn diese Beziehung in der Population nicht existiert und Sie ähnliche Experimente viele Male durchführen würden, dann würden Sie bei etwa einer von zwanzig Wiederholungen des Experiments die gleiche oder stärkere Beziehung zwischen den Variablen erwarten.

In vielen Studien wird ein p-Wert von 0,05 als „akzeptable Grenze“ für die Fehlerquote angesehen.

Willkür bei der Entscheidung, welches Signifikanzniveau wirklich als „signifikant“ anzusehen ist, lässt sich nicht vermeiden. Die Wahl eines bestimmten Signifikanzniveaus, oberhalb dessen die Ergebnisse als falsch verworfen werden, ist eher willkürlich. In der Praxis hängt die endgültige Entscheidung in der Regel davon ab, ob das Ergebnis a priori (d. h. vor der Durchführung des Experiments) vorhergesagt oder durch viele Analysen und Vergleiche mit vielen Daten nachträglich entdeckt wurde, sowie davon, Tradition auf diesem Forschungsgebiet. Typischerweise ist in vielen Bereichen ein Ergebnis von p 0,05 eine akzeptable Spanne von statistischer Signifikanz, es sollte jedoch daran erinnert werden, dass dieses Niveau immer noch eine ziemlich große Fehlerwahrscheinlichkeit (5 %) beinhaltet. Signifikante Ergebnisse bei p 0,01 werden im Allgemeinen als statistisch signifikant und Ergebnisse bei p 0,005 oder p 0,001 als hochsignifikant angesehen. Es sollte jedoch verstanden werden, dass diese Klassifizierung von Signifikanzniveaus eher willkürlich ist und nur eine informelle Vereinbarung darstellt, die auf der Grundlage praktischer Erfahrungen in einem bestimmten Studienbereich getroffen wurde.

Wie bereits erwähnt, sind die Größenordnung von Abhängigkeit und Zuverlässigkeit zwei verschiedene Eigenschaften Abhängigkeiten zwischen Variablen. Es kann jedoch nicht gesagt werden, dass sie völlig unabhängig sind. Allgemein gilt: Je größer die Beziehung (Verbindung) zwischen Variablen in einer Stichprobe normaler Größe ist, desto zuverlässiger ist sie.

Wenn wir davon ausgehen, dass kein Zusammenhang zwischen den entsprechenden Variablen in der Grundgesamtheit besteht, dann ist es sehr wahrscheinlich, dass in der untersuchten Stichprobe auch kein Zusammenhang zwischen diesen Variablen besteht. Je stärker also die Beziehung in der Stichprobe gefunden wird, desto unwahrscheinlicher ist es, dass diese Beziehung nicht in der Grundgesamtheit besteht, aus der sie extrahiert wird.


Die Stichprobengröße wirkt sich auf die Signifikanz der Beziehung aus. Bei wenigen Beobachtungen gibt es entsprechend wenige mögliche Wertekombinationen für diese Variablen und somit ist die Wahrscheinlichkeit, versehentlich eine Wertekombination zu finden, die eine starke Abhängigkeit zeigt, relativ hoch.

Wie das statistische Signifikanzniveau berechnet wird. Angenommen, Sie haben bereits ein Maß für die Beziehung zwischen zwei Variablen berechnet (wie oben erläutert). Die nächste Frage vor Ihnen lautet: „Wie bedeutend ist diese Sucht?“ Reichen beispielsweise 40 % der erklärten Varianz zwischen zwei Variablen aus, damit eine Beziehung signifikant ist? Antwort: "abhängig von den Umständen." Die Signifikanz hängt nämlich hauptsächlich von der Stichprobengröße ab. Wie bereits erläutert, sind in sehr großen Stichproben sogar sehr schwache Beziehungen zwischen Variablen signifikant, während in kleinen Stichproben selbst sehr starke Beziehungen nicht zuverlässig sind. Um also das Niveau der statistischen Signifikanz zu bestimmen, benötigen Sie eine Funktion, die die Beziehung zwischen „Größe“ und „Signifikanz“ der Beziehung zwischen Variablen für jede Stichprobengröße darstellt. Diese Funktion würde Ihnen genau sagen, "wie wahrscheinlich es ist, eine Beziehung mit einem bestimmten Wert (oder mehr) in einer Stichprobe einer bestimmten Größe zu erhalten, vorausgesetzt, es gibt keine solche Beziehung in der Grundgesamtheit". Mit anderen Worten, diese Funktion würde ein Signifikanzniveau (p-Wert) liefern und damit die Wahrscheinlichkeit, fälschlicherweise die Annahme zurückzuweisen, dass es keine gegebene Beziehung in der Grundgesamtheit gibt. Diese "alternative" Hypothese (dass es keine Abhängigkeit in der Population gibt) wird gewöhnlich als Nullhypothese bezeichnet. Ideal wäre es, wenn die Funktion, die die Fehlerwahrscheinlichkeit berechnet, linear wäre und nur unterschiedliche Steigungen für unterschiedliche Stichprobenumfänge hätte. Leider ist diese Funktion viel komplexer und nicht immer exakt gleich. In den meisten Fällen ist seine Form jedoch bekannt und kann verwendet werden, um Signifikanzniveaus zu bestimmen, wenn Stichproben einer bestimmten Größe untersucht werden. Die meisten dieser Funktionen sind mit sehr verbunden wichtige Klasse Normalverteilungen genannt.