پایایی آماری است. سطح معنی داری آماری

ویژگی های اصلی هر رابطه بین متغیرها.

دو تا از بیشترین خواص سادهروابط بین متغیرها: (الف) بزرگی رابطه و (ب) قابلیت اطمینان رابطه.

- مقدار . درک و اندازه گیری اندازه وابستگی آسان تر از قابلیت اطمینان است. به عنوان مثال، اگر تعداد گلبول‌های سفید خون (WCC) در هر یک از مردان نمونه بیشتر از هر زن باشد، می‌توان گفت که رابطه بین دو متغیر (جنسیت و WCC) بسیار بالا است. به عبارت دیگر، شما می توانید مقادیر یک متغیر را از مقادیر متغیر دیگر پیش بینی کنید.

- قابلیت اطمینان ("حقیقت"). قابلیت اطمینان وابستگی متقابل یک مفهوم بصری کمتر از میزان وابستگی است، اما بسیار مهم است. قابلیت اطمینان وابستگی مستقیماً با نمایندگی یک نمونه خاص مرتبط است که بر اساس آن نتیجه گیری می شود. به عبارت دیگر، قابلیت اطمینان به این موضوع اشاره دارد که چقدر احتمال دارد که رابطه مجدداً کشف شود (به عبارت دیگر، تأیید شود) در داده‌های نمونه دیگری که از همان جامعه گرفته شده است.

باید به خاطر داشت که هدف نهایی تقریباً هرگز مطالعه این نمونه خاص از ارزش ها نیست. یک نمونه تنها تا جایی مورد توجه است که اطلاعاتی در مورد کل جمعیت ارائه دهد. اگر مطالعه برخی معیارهای خاص را برآورده کند، می توان پایایی روابط یافت شده بین متغیرهای نمونه را با استفاده از یک معیار آماری استاندارد کمی سازی و ارائه کرد.

مقدار وابستگی و قابلیت اطمینان دو هستند ویژگی های مختلفوابستگی بین متغیرها با این حال نمی توان گفت که آنها کاملا مستقل هستند. هر چه رابطه (رابطه) بین متغیرها در یک نمونه با اندازه نرمال بزرگتر باشد، قابل اعتمادتر است (به بخش بعدی مراجعه کنید).

اهمیت آماری یک نتیجه (سطح p) یک معیار تخمینی برای اطمینان به "واقعی" آن است (به معنای "نمایندگی نمونه"). از نظر فنی تر، p-value معیاری است که رابطه ای کاهشی با قابلیت اطمینان نتیجه دارد. بیشتر سطح p بالامربوط به سطح پایین تری از اطمینان در وابستگی بین متغیرهای موجود در نمونه است. یعنی سطح p نشان دهنده احتمال خطای مرتبط با توزیع نتیجه مشاهده شده در کل جمعیت است.

برای مثال، سطح p = 0.05(یعنی 1/20) نشان می دهد که 5 درصد احتمال دارد که رابطه بین متغیرهای یافت شده در نمونه فقط یک ویژگی تصادفی این نمونه باشد. در بسیاری از مطالعات، سطح p 0.05 به عنوان یک "محدودیت قابل قبول" برای سطح خطا در نظر گرفته شده است.

هیچ راهی برای اجتناب از خودسری در تصمیم گیری اینکه چه سطحی از اهمیت باید واقعاً «مهم» در نظر گرفته شود، وجود ندارد. انتخاب سطح معینی از اهمیت که بالاتر از آن نتایج به‌عنوان نادرست رد می‌شوند، کاملاً دلخواه است.



در عمل، تصمیم نهایی معمولاً به این بستگی دارد که آیا نتیجه از قبل پیش‌بینی شده است (یعنی قبل از انجام آزمایش) یا به‌طور پسینی در نتیجه تجزیه و تحلیل‌ها و مقایسه‌های زیادی که با داده‌های زیادی انجام شده است، و همچنین بر روی سنتی که در این زمینه تحقیقاتی وجود دارد.

معمولاً در بسیاری از مناطق نتیجه p 0.05 حد قابل قبولی است اهمیت آماریبا این حال، باید به خاطر داشت که این سطح همچنان دارای یک احتمال خطای نسبتاً بزرگ (5٪) است.

نتایج معنی دار در p 0.01 معمولاً از نظر آماری معنی دار در نظر گرفته می شوند، در حالی که نتایج در p 0.005 یا p. 001 به عنوان بسیار مهم است. با این حال، باید درک کرد که این طبقه بندی سطوح اهمیت کاملاً دلخواه است و فقط یک قرارداد غیررسمی مبتنی بر تجربه عملی است. در یک رشته تحصیلی خاص.

واضح است که هر چه تعداد تحلیل‌ها با مجموعه داده‌های جمع‌آوری‌شده بیشتر انجام شود، تعداد نتایج قابل توجه (در سطح انتخاب شده) به طور کاملاً تصادفی بیشتر می‌شود.

مقداری روش های آماری، که شامل مقایسه های زیادی است و در نتیجه شانس قابل توجهی برای تکرار این نوع خطا دارد، یک تنظیم یا تصحیح ویژه برای تعداد کلمقایسه ها با این حال، بسیاری از روش های آماری (به ویژه روش های سادهتجزیه و تحلیل داده های اکتشافی) هیچ راهی برای حل این مشکل ارائه نمی دهد.

اگر رابطه بین متغیرها به طور "عینی" ضعیف باشد، هیچ راه دیگری برای آزمایش چنین رابطه ای وجود ندارد مگر با بررسی یک نمونه بزرگ. حتی اگر نمونه کاملا معرف باشد، اگر نمونه کوچک باشد، اثر از نظر آماری معنادار نخواهد بود. به همین ترتیب، اگر یک وابستگی "عینی" بسیار قوی باشد، می توان آن را با آن تشخیص داد درجه بالاحتی در یک نمونه بسیار کوچک قابل توجه است.

هرچه رابطه بین متغیرها ضعیف‌تر باشد، نمونه بزرگ‌تری برای شناسایی آن مورد نیاز است.

بسیار متفاوت پیوندها بین متغیرها انتخاب یک معیار خاص در یک مطالعه خاص به تعداد متغیرها، مقیاس های اندازه گیری مورد استفاده، ماهیت وابستگی ها و غیره بستگی دارد.

با این حال، بسیاری از این اقدامات مشمول اصل کلی: سعی می کنند رابطه مشاهده شده را با مقایسه آن با «حداکثر رابطه قابل تصور» بین متغیرهای مورد نظر ارزیابی کنند. از نظر فنی، به روش معمولبرای انجام چنین تخمین هایی باید به چگونگی تغییر مقادیر متغیرها نگاه کرد و سپس محاسبه کرد که چه مقدار از کل تغییرات را می توان با وجود تغییرات "مشترک" ("مشترک") دو (یا بیشتر) متغیر توضیح داد.

اهمیت به طور عمده به حجم نمونه بستگی دارد. همانطور که قبلا توضیح داده شد، در نمونه های بسیار بزرگ، حتی روابط بسیار ضعیف بین متغیرها معنادار خواهد بود، در حالی که در نمونه های کوچک، حتی روابط بسیار قوی قابل اعتماد نیستند.

بنابراین، برای تعیین سطح معنی‌داری آماری، تابعی مورد نیاز است که نشان‌دهنده رابطه بین «مقدار» و «معنی‌داری» رابطه بین متغیرها برای هر حجم نمونه باشد.

چنین تابعی دقیقاً نشان می‌دهد که «چقدر احتمال دارد که وابستگی یک مقدار معین (یا بیشتر) در نمونه‌ای با اندازه معین به دست آید، با فرض اینکه چنین وابستگی در جامعه وجود ندارد». به عبارت دیگر، این تابع سطح معنی داری می دهد
(سطح p)، و بنابراین، احتمال رد اشتباه این فرض که هیچ رابطه مشخصی در جمعیت وجود ندارد.

این فرضیه «جایگزین» (که وابستگی در جمعیت وجود ندارد) معمولاً نامیده می شود فرضیه صفر.

اگر تابعی که احتمال خطا را محاسبه می‌کند خطی باشد و فقط برای اندازه‌های نمونه مختلف شیب‌های متفاوتی داشته باشد، ایده‌آل خواهد بود. متأسفانه، این عملکرد بسیار پیچیده تر است و همیشه دقیقاً یکسان نیست. با این حال، در بیشتر موارد، شکل آن شناخته شده است و می توان از آن برای تعیین سطوح اهمیت در هنگام بررسی نمونه هایی با اندازه معین استفاده کرد. بیشتر این توابع به دسته ای از توزیع ها به نام مرتبط هستند معمولی .

وظیفه 3.پنج کودک پیش دبستانی با یک آزمون ارائه می شوند. زمان حل هر کار مشخص است. آیا از نظر آماری تفاوت معنی داری بین زمان حل وجود خواهد داشت؟ سه اولموارد تست؟

تعداد موضوعات

مواد مرجع

این کار بر اساس تئوری تحلیل واریانس است. در حالت کلی، وظیفه تحلیل واریانس شناسایی عواملی است که تأثیر بسزایی بر نتیجه آزمایش دارند. در صورتی که تعداد نمونه ها بیش از دو باشد، می توان از تحلیل واریانس برای مقایسه میانگین چند نمونه استفاده کرد. برای این منظور، تحلیل واریانس یک طرفه در خدمت است.

به منظور حل وظایف مجموعه موارد زیر اتخاذ شده است. اگر واریانس مقادیر بدست آمده از پارامتر بهینه سازی در مورد تأثیر عوامل با واریانس نتایج در غیاب تأثیر عوامل متفاوت باشد، چنین عاملی به عنوان مهم شناخته می شود.

همانطور که از فرمول مسئله مشاهده می شود، در اینجا از روش هایی برای آزمون فرضیه های آماری استفاده می شود، یعنی مسئله آزمون دو واریانس تجربی. بنابراین، تحلیل واریانس بر اساس تایید واریانس ها با معیار فیشر است. در این کار باید بررسی شود که آیا تفاوت بین زمان حل سه تکلیف اول آزمون توسط هر یک از شش کودک پیش دبستانی از نظر آماری معنادار است یا خیر.

فرضیه صفر (پایه) H o نامیده می شود. ماهیت e به این فرض کاهش می یابد که تفاوت بین پارامترهای مقایسه شده صفر است (از این رو نام فرضیه - صفر است) و تفاوت های مشاهده شده تصادفی هستند.

یک فرضیه رقیب (جایگزین) H 1 نامیده می شود که با فرضیه صفر در تضاد است.

راه حل:

با استفاده از روش تحلیل واریانس در سطح معناداری 05/0 = α، فرضیه صفر (Ho) را در مورد وجود تفاوت آماری معنی دار بین زمان حل سه تکلیف اول آزمون در شش کودک پیش دبستانی مورد آزمون قرار می دهیم.

جدول شرط تکلیف را در نظر بگیرید که در آن میانگین زمان حل هر یک از سه تکلیف تست را پیدا می کنیم

تعداد موضوعات

سطوح عاملی

زمان حل تکلیف اول آزمون (در ثانیه).

زمان حل تکلیف دوم آزمون (در ثانیه).

زمان حل تکلیف سوم آزمون (در ثانیه).

میانگین گروه

پیدا کردن میانگین کلی:

به منظور در نظر گرفتن اهمیت تفاوت های زمانی هر آزمون، واریانس کل نمونه به دو قسمت تقسیم می شود که قسمت اول فاکتوریل و قسمت دوم باقیمانده نامیده می شود.

مجموع مجذور انحرافات متغیر از میانگین کل را با استفاده از فرمول محاسبه کنید

یا ، که در آن p تعداد اندازه گیری های زمان برای حل تکالیف تست است، q تعداد آزمودنی ها است. برای این کار، گزینه جدول مربع ها را می سازیم

تعداد موضوعات

سطوح عاملی

زمان حل تکلیف اول آزمون (در ثانیه).

زمان حل تکلیف دوم آزمون (در ثانیه).

زمان حل تکلیف سوم آزمون (در ثانیه).

سطح اهمیت در آمار، شاخص مهمی است که میزان اطمینان به صحت و صحت داده های دریافتی (پیش بینی شده) را منعکس می کند. این مفهوم به طور گسترده در زمینه های مختلف استفاده می شود: از تحقیقات جامعه شناختی تا آزمون آماری فرضیه های علمی.

تعریف

سطح معنی داری آماری (یا نتیجه آماری معنی دار) نشان می دهد که احتمال وقوع تصادفی شاخص های مورد مطالعه چقدر است. اهمیت آماری کلی پدیده با مقدار p (p-level) بیان می شود. در هر آزمایش یا مشاهده، این احتمال وجود دارد که داده های به دست آمده به دلیل اشتباهات نمونه گیری به وجود آمده باشد. این امر به ویژه در مورد جامعه شناسی صادق است.

یعنی مقداری از نظر آماری معنادار است که احتمال وقوع تصادفی آن بسیار کوچک است یا به سمت افراط می‌رود. نهایت در این زمینه، درجه انحراف آمار از فرضیه صفر است (فرضیه ای که برای سازگاری با داده های نمونه به دست آمده مورد آزمایش قرار می گیرد). در عمل علمی، سطح معنی داری قبل از جمع آوری داده ها انتخاب می شود و به عنوان یک قاعده، ضریب آن 0.05 (5٪) است. برای سیستم هایی که در آنها حیاتی است مقادیر دقیق، این شاخص می تواند 0.01 (1%) یا کمتر باشد.

زمینه

مفهوم سطح معنی‌داری توسط رونالد فیشر، آماردان و ژنتیک‌دان بریتانیایی در سال 1925، زمانی که در حال توسعه تکنیکی برای آزمایش فرضیه‌های آماری بود، مطرح شد. هنگام تجزیه و تحلیل هر فرآیند، احتمال خاصی از پدیده های خاص وجود دارد. هنگام کار با درصدهای کوچک (یا غیر واضح) احتمالاتی که تحت مفهوم "خطای اندازه گیری" قرار می گیرند، مشکلات ایجاد می شود.

دانشمندان هنگام کار با آمارهایی که به اندازه کافی خاص برای آزمایش نبودند، با مشکل فرضیه صفر مواجه شدند که از عملکرد با مقادیر کوچک "جلوگیری می کند". فیشر برای چنین سیستم‌هایی برای تعیین احتمال رویدادها در 5% (0.05) به عنوان یک برش نمونه مناسب که به فرد اجازه می‌دهد فرضیه صفر را در محاسبات رد کند، پیشنهاد کرد.

معرفی یک ضریب ثابت

در سال 1933 دانشمندان جرزینیومن و اگون پیرسون در مقالات خود توصیه کردند که سطح معنی داری خاصی را از قبل (قبل از جمع آوری داده ها) تعیین کنند. نمونه هایی از استفاده از این قوانین در جریان انتخابات به وضوح قابل مشاهده است. فرض کنید دو نامزد وجود دارد که یکی از آنها بسیار محبوب است و دیگری شناخته شده نیست. بدیهی است که نامزد اول در انتخابات پیروز خواهد شد و شانس دومی به صفر می رسد. تلاش - اما نه برابر: همیشه احتمال فورس ماژور، اطلاعات هیجان انگیز، تصمیمات غیرمنتظره وجود دارد که می تواند نتایج پیش بینی شده انتخابات را تغییر دهد.

نیومن و پیرسون توافق کردند که سطح اهمیت پیشنهادی فیشر 0.05 (که با نماد α مشخص می شود) راحت ترین است. با این حال، خود فیشر در سال 1956 با تثبیت این مقدار مخالفت کرد. او معتقد بود که سطح α باید مطابق با شرایط خاص تنظیم شود. به عنوان مثال، در فیزیک ذرات 0.01 است.

مقدار p

اصطلاح p-value اولین بار توسط براونلی در سال 1960 استفاده شد. سطح P (p-value) شاخصی است که با صحت نتایج رابطه معکوس دارد. بالاترین مقدار p مربوط به پایین ترین سطح اطمینان در رابطه نمونه بین متغیرها است.

این مقدار منعکس کننده احتمال خطاهای مرتبط با تفسیر نتایج است. p-value = 0.05 (1/20) را فرض کنید. پنج درصد احتمال دارد که رابطه بین متغیرهای موجود در نمونه فقط یک ویژگی تصادفی نمونه باشد. یعنی اگر این وابستگی وجود نداشته باشد، با آزمایش های تکراری مشابه، به طور متوسط ​​در هر بیستمین مطالعه، می توان انتظار وابستگی یکسان یا بیشتر بین متغیرها را داشت. غالباً سطح p به عنوان "حاشیه" سطح خطا در نظر گرفته می شود.

به هر حال، p-value ممکن است رابطه واقعی بین متغیرها را منعکس نکند، بلکه فقط یک مقدار متوسط ​​معین را در مفروضات نشان می دهد. به طور خاص، تجزیه و تحلیل نهایی داده ها نیز به مقادیر انتخابی این ضریب بستگی دارد. با p-level = 0.05 برخی از نتایج و با ضریب برابر 0.01 نتایج دیگر وجود خواهد داشت.

آزمون فرضیه های آماری

سطح معنی داری آماری به ویژه هنگام آزمون فرضیه ها اهمیت دارد. به عنوان مثال، هنگام محاسبه یک آزمون دو دنباله، ناحیه رد به طور مساوی در دو انتهای توزیع نمونه گیری (نسبت به مختصات صفر) تقسیم می شود و صحت داده های به دست آمده محاسبه می شود.

فرض کنید، هنگام نظارت بر یک فرآیند (پدیده)، مشخص شد که اطلاعات آماری جدید تغییرات کوچکی را نسبت به مقادیر قبلی نشان می دهد. در عین حال، اختلافات در نتایج کوچک، آشکار نیست، اما برای مطالعه مهم است. متخصص با یک معضل مواجه است: آیا تغییرات واقعاً رخ می دهند یا خطاهای نمونه گیری هستند (عدم دقت اندازه گیری)؟

در این حالت، فرضیه صفر اعمال می شود یا رد می شود (همه چیز به عنوان یک خطا نوشته می شود، یا تغییر در سیستم به عنوان یک عمل انجام شده تشخیص داده می شود). فرآیند حل مسئله بر اساس نسبت اهمیت آماری کلی (p-value) و سطح معناداری (α) است. اگر سطح p< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

مقادیر استفاده شده

سطح اهمیت به مواد مورد تجزیه و تحلیل بستگی دارد. در عمل از مقادیر ثابت زیر استفاده می شود:

  • α = 0.1 (یا 10٪)؛
  • α = 0.05 (یا 5٪)؛
  • α = 0.01 (یا 1٪)؛
  • α = 0.001 (یا 0.1٪).

هرچه محاسبات دقیق تر مورد نیاز باشد، ضریب α کوچکتر استفاده می شود. طبیعتاً پیش‌بینی‌های آماری در فیزیک، شیمی، داروسازی و ژنتیک به دقت بیشتری نسبت به علوم سیاسی و جامعه‌شناسی نیاز دارند.

آستانه های مهم در مناطق خاص

در زمینه های با دقت بالا مانند فیزیک ذرات و فعالیت تولیدیاهمیت آماری اغلب به صورت نسبت انحراف استاندارد (که با ضریب سیگما - σ نشان داده می شود) نسبت به یک توزیع احتمال نرمال (توزیع گاوسی) بیان می شود. σ یک شاخص آماری است که پراکندگی مقادیر یک کمیت معین را نسبت به آن تعیین می کند انتظارات ریاضی. برای ترسیم احتمال رویدادها استفاده می شود.

بسته به حوزه دانش، ضریب σ بسیار متفاوت است. به عنوان مثال، هنگام پیش‌بینی وجود بوزون هیگز، پارامتر σ برابر با پنج (σ=5) است که با p-value=1/3.5 میلیون ناحیه مطابقت دارد.

بهره وری

باید در نظر گرفت که ضرایب α و p-value مشخصه دقیقی نیستند. سطح اهمیت آمار پدیده مورد بررسی هر چه باشد، مبنایی بی قید و شرط برای پذیرش فرضیه نیست. به عنوان مثال، هر چه مقدار α کوچکتر باشد، احتمال اینکه فرضیه با اهمیت باشد بیشتر است. با این حال، خطر خطا وجود دارد که قدرت آماری (معنی‌داری) مطالعه را کاهش می‌دهد.

محققانی که به طور انحصاری بر نتایج آماری معنی دار تمرکز می کنند ممکن است نتیجه گیری های اشتباهی بگیرند. در عین حال، بررسی مجدد کار آنها دشوار است، زیرا آنها مفروضاتی را اعمال می کنند (که در واقع مقادیر α و p-value هستند). بنابراین، همیشه توصیه می شود، همراه با محاسبه اهمیت آماری، شاخص دیگری - بزرگی اثر آماری را تعیین کنید. اندازه اثر یک اندازه گیری کمی از قدرت یک اثر است.

اعتبار آماریدر عمل تسویه حساب FCC از اهمیت قابل توجهی برخوردار است. قبلاً ذکر شد که نمونه های زیادی را می توان از یک جامعه انتخاب کرد:

اگر آنها به درستی انتخاب شوند، میانگین شاخص ها و شاخص های جمعیت عمومی آنها با در نظر گرفتن قابلیت اطمینان پذیرفته شده، از نظر میزان خطای نمایندگی کمی با یکدیگر متفاوت است.

اگر آنها از بین جمعیت های عمومی مختلف انتخاب شوند، تفاوت بین آنها قابل توجه است. مقایسه نمونه ها معمولاً در آمار در نظر گرفته می شود.

اگر تفاوت آنها ناچیز، بی اهمیت، ناچیز باشد، یعنی در واقع متعلق به یک جامعه عمومی باشند، تفاوت بین آنها از نظر آماری غیر قابل اعتماد نامیده می شود.

از نظر آماری معنی دار است تفاوت نمونه نمونه ای است که به طور قابل توجهی و اساسی متفاوت است، یعنی به جمعیت های عمومی مختلف تعلق دارد.

در FCC، ارزیابی اهمیت آماری تفاوت‌های نمونه به معنای حل بسیاری از مسائل عملی است. به عنوان مثال، معرفی روش های جدید تدریس، برنامه ها، مجموعه تمرین ها، تست ها، تمرینات کنترلیمرتبط با تأیید تجربی آنها، که باید نشان دهد که گروه آزمایش اساساً با گروه کنترل متفاوت است. بنابراین برای تشخیص وجود یا عدم وجود اختلاف آماری معنی دار بین نمونه ها از روش های آماری خاصی استفاده می شود که معیارهای معناداری آماری نامیده می شوند.

همه معیارها به دو گروه پارامتری و ناپارامتریک تقسیم می شوند. معیارهای پارامتری برای حضور اجباری یک قانون توزیع نرمال، یعنی. این به تعیین اجباری شاخص های اصلی قانون عادی - میانگین حسابی و انحراف استاندارد اشاره دارد. معیارهای پارامتریک دقیق ترین و صحیح ترین هستند. معیارهای ناپارامتریک بر اساس تفاوت های رتبه ای (ترتیبی) بین عناصر نمونه ها است.

در اینجا معیارهای اصلی برای اهمیت آماری مورد استفاده در عمل FCC آمده است: آزمون دانشجویی و آزمون فیشر.

ملاک دانشجوبه نام دانشمند انگلیسی C. Gosset (Student یک نام مستعار است) که این روش را کشف کرد. آزمون t دانشجویی پارامتری است که برای مقایسه استفاده می شود شاخص های مطلقنمونه ها. اندازه نمونه ها ممکن است متفاوت باشد.

ملاک دانشجو اینگونه تعریف شده است

1. معیار Student t را طبق فرمول زیر پیدا می کنیم:


میانگین های حسابی نمونه های مقایسه شده کجا هستند. t 1 , t 2 - خطاهای نمایندگی شناسایی شده بر اساس شاخص های نمونه های مقایسه شده.

2. تمرین در FCC نشان داده است که برای کارهای ورزشی کافی است که قابلیت اطمینان نمره 0.95 = P را بپذیرید.

برای قابلیت اطمینان محاسبات: P = 0.95 (a = 0.05)، با تعداد درجه آزادی

k \u003d n 1 + p 2 - 2 مطابق جدول ضمیمه 4 ، مقدار مرزی معیار را پیدا می کنیم ( تی گرم).

3. بر اساس ویژگی های قانون توزیع نرمال، معیار Student t و t gr را مقایسه می کند.

ما نتیجه گیری می کنیم:

اگر t t gr، تفاوت بین نمونه های مقایسه شده از نظر آماری معنی دار است.

اگر t t gr باشد، این تفاوت از نظر آماری معنی دار نیست.

برای محققان در زمینه FCC، ارزیابی اهمیت آماری اولین گام در حل یک مشکل خاص است: اینکه آیا نمونه های مقایسه شده اساساً متفاوت هستند یا نه. مرحله بعدی ارزیابی این تفاوت از دیدگاه آموزشی است که با توجه به شرایط مشکل تعیین می شود.

کاربرد معیار دانشجو را در یک مثال خاص در نظر بگیرید.

مثال 2.14. گروهی از افراد به تعداد 18 نفر از نظر ضربان قلب (bpm) قبل از x i و بعد از آن بررسی شدند. y منگرم کردن

اثربخشی گرم کردن را از نظر ضربان قلب ارزیابی کنید. داده های اولیه و محاسبات در جدول ارائه شده است. 2.30 و 2.31.

جدول 2.30

پردازش داده های ضربان قلب قبل از گرم کردن


خطاها برای هر دو گروه همزمان بود، زیرا حجم نمونه برابر است (همان گروه مورد مطالعه قرار می گیرد شرایط مختلف) و میانگین انحراف معیاربرابر با s x \u003d s y \u003d 3 ضربه در دقیقه. بیایید به تعریف معیار دانشجو برویم:

ما قابلیت اطمینان حساب را تنظیم می کنیم: Р= 0.95.

تعداد درجات آزادی k 1 \u003d n 1 + p 2 - 2 \u003d 18 + 18-2 \u003d 34. طبق جدول ضمیمه 4 ، ما پیدا می کنیم تی گرم= 2,02.

استنباط آماری. از آنجایی که t \u003d 11.62، و مرز t gr \u003d 2.02، سپس 11.62\u003e 2.02، یعنی. t > t gr، بنابراین تفاوت بین نمونه ها از نظر آماری معنی دار است.

نتیجه گیری آموزشی مشخص شد که از نظر ضربان قلب، تفاوت بین وضعیت گروه قبل و بعد از گرم کردن از نظر آماری معنی‌دار است، یعنی. قابل توجه، مهم بنابراین، با توجه به نشانگر ضربان قلب، می توان نتیجه گرفت که گرم کردن موثر است.

معیار فیشرپارامتریک است هنگام مقایسه میزان پراکندگی نمونه ها استفاده می شود. این به عنوان یک قاعده به معنای مقایسه از نظر پایداری کار ورزشی یا ثبات شاخص های عملکردی و فنی در تمرین فرهنگ بدنی و ورزش است. نمونه ها می توانند در اندازه های مختلف باشند.

معیار فیشر به ترتیب زیر تعریف می شود.

1. معیار فیشر F را با فرمول پیدا کنید


که در آن، واریانس نمونه های مقایسه شده است.

شرایط معیار فیشر فراهم می کند که در صورت شمار فرمول اف واریانس زیادی وجود دارد، یعنی F همیشه بزرگتر از یک است.

ما قابلیت اطمینان حساب را تنظیم می کنیم: P = 0.95 - و تعداد درجه آزادی را برای هر دو نمونه تعیین می کنیم: k 1 = n 1 - 1، k 2 = n 2 - 1.

با توجه به جدول پیوست 4، مقدار مرزی معیار F را پیدا می کنیم گرم.

مقایسه معیارهای F و F گرمبه ما اجازه می دهد تا نتایج زیر را بگیریم:

اگر F > F gr، آنگاه تفاوت بین نمونه ها از نظر آماری معنی دار است.

اگر اف< F гр, то различие между выборками статически недо­стоверно.

بیایید یک مثال عینی بیاوریم.

مثال 2.15. بیایید دو گروه از بازیکنان هندبال را تجزیه و تحلیل کنیم: x i (n 1= 16 نفر) و y i (n 2 = 18 نفر). این گروه از ورزشکاران برای زمان دفع (ها) هنگام پرتاب توپ به سمت دروازه مورد مطالعه قرار گرفتند.

آیا نرخ دافعه یکسان است؟

داده های اولیه و محاسبات پایه در جدول ارائه شده است. 2.32 و 2.33.

جدول 2.32

پردازش شاخص های دافعه هندبالیست های دسته اول


بیایید معیار فیشر را تعریف کنیم:





با توجه به داده های ارائه شده در جدول پیوست 6، Fgr را پیدا می کنیم: Fgr = 2.4

اجازه دهید به این واقعیت توجه کنیم که در جدول پیوست 6 شمارش تعداد درجات آزادی پراکندگی بیشتر و کوچکتر هنگام نزدیک شدن اعداد بزرگخشن تر می شود بنابراین، تعداد درجات آزادی یک پراکندگی بزرگتر به ترتیب زیر است: 8، 9، 10، 11، 12، 14، 16، 20، 24 و غیره، و از یک کوچکتر - 28، 29، 30، 40، 50، و غیره د.

این با این واقعیت توضیح داده می شود که با افزایش حجم نمونه، تفاوت در آزمون F کاهش می یابد و مقادیر جدولی نزدیک به داده های اصلی می توانند استفاده شوند. بنابراین، در مثال 2.15 = 17 وجود ندارد و می توانیم مقدار k = 16 را به آن نزدیک کنیم که از آن Fgr = 2.4 به دست می آید.

استنباط آماری. از آنجایی که آزمون فیشر F= 2.5 > F= 2.4، نمونه ها از نظر آماری معنی دار هستند.

نتیجه گیری آموزشی مقادیر دفعات دفع (ها) هنگام پرتاب توپ به سمت دروازه بازیکنان هندبال هر دو گروه به طور قابل توجهی متفاوت است. این گروه ها را باید متفاوت دانست.

تحقیقات بیشتر باید نشان دهد که دلیل این تفاوت چیست.

مثال 2.20.(بر اهمیت آماری نمونه ). اگر زمان (زمان) از دادن علامت تا ضربه زدن به توپ در ابتدای تمرین x i و در پایان i بود، آیا صلاحیت فوتبالیست افزایش یافته است؟

داده های اولیه و محاسبات اولیه در جدول آورده شده است. 2.40 و 2.41.

جدول 2.40

پردازش شاخص های زمان از دادن سیگنال تا ضربه زدن به توپ در ابتدای تمرین


بیایید تفاوت بین گروه های شاخص را با توجه به معیار Student تعیین کنیم:

با قابلیت اطمینان P \u003d 0.95 و درجه آزادی k \u003d n 1 + n 2 - 2 \u003d 22 + 22 - 2 \u003d 42، مطابق جدول ضمیمه 4، متوجه می شویم تی گرم= 2.02. از آنجایی که t = 8.3 > تی گرم= 2.02 - تفاوت از نظر آماری معنی دار است.

بیایید تفاوت بین گروه های شاخص را با توجه به معیار فیشر تعیین کنیم:


مطابق جدول پیوست 2، با قابلیت اطمینان 0.95 = P و درجه آزادی k = 22-1 = 21، مقدار F gr = 21. از آنجا که F = 1.53< F гр = = 2,1, различие в рассеивании исходных данных статистически недостоверно.

استنباط آماری. با توجه به میانگین حسابی، تفاوت بین گروه های شاخص از نظر آماری معنی دار است. از نظر پراکندگی (پراکندگی)، تفاوت بین گروه های شاخص از نظر آماری معنی دار نیست.

نتیجه گیری آموزشیصلاحیت های این فوتبالیست به میزان قابل توجهی ارتقا یافته است، اما باید به پایداری شهادت او توجه شود.

آمادگی برای کار

قبل از این کار آزمایشگاهیدر رشته "مترولوژی ورزشی" همه دانش آموزان گروه مطالعه باید تیم های کاری 3-4 دانش آموز در هر یک تشکیل دهند، به طور مشترک تکلیف کاری کلیه کارهای آزمایشگاهی را تکمیل کنند.

در آماده سازی برای کار بخش های مربوط به ادبیات توصیه شده را بخوانید (به بخش 6 داده ها مراجعه کنید دستورالعمل ها) و یادداشت های سخنرانی. بخش 1 و 2 را برای این آزمایشگاه و همچنین وظیفه کاری آن را مطالعه کنید (بخش 4).

فرم گزارش تهیه کنیدبر روی ورق های استانداردکاغذ تحریر با فرمت A4 و مواد لازم برای کار را در آن قرار دهید.

گزارش باید حاوی :

صفحه عنوانبا ذکر دپارتمان (بریتانیا و TR)، گروه تحصیلی، نام خانوادگی، نام، نام خانوادگی دانشجو، شماره و نام کار آزمایشگاهی، تاریخ اتمام آن و همچنین نام خانوادگی، مدرک تحصیلی، عنوان علمی و سمت. معلمی که کار را می پذیرد.

هدف، واقعگرایانه؛

فرمول هایی با مقادیر عددی که نتایج میانی و نهایی محاسبات را توضیح می دهد.

جداول مقادیر اندازه گیری و محاسبه شده؛

مواد گرافیکی مورد نیاز برای کار؛

نتیجه گیری مختصر در مورد نتایج هر یک از مراحل تکلیف کاری و به طور کلی در مورد کار انجام شده.

تمام نمودارها و جداول با استفاده از ابزارهای ترسیمی با دقت ترسیم می شوند. نامگذاری های گرافیکی و الفبایی مشروط باید با GOST مطابقت داشته باشد. تهیه گزارش با استفاده از فناوری رایانه (رایانه) مجاز است.

وظیفه کاری

قبل از انجام تمام اندازه گیری ها، هر یک از اعضای تیم باید قوانین استفاده از یک ورزش را مطالعه کند بازی های دارت، در ضمیمه 7 آورده شده است که برای مراحل بعدی تحقیق ضروری است.

مرحله اول تحقیق«بررسی نتایج اصابت به هدف بازی ورزشیدارت توسط هر یک از اعضای تیپ برای رعایت قانون توزیع عادی طبق ضوابط χ 2تست پیرسون و سه سیگما"

1. اندازه گیری (آزمایش) سرعت (شخصی) و هماهنگی اقدامات، با پرتاب دارت 30-40 بار به سمت هدف دایره ای بازی ورزشی دارت.

2. نتایج اندازه گیری ها (آزمون ها) x i(در لیوان) در فرم ترتیب دهید سری تغییراتو در جدول 4.1 وارد کنید (ستون‌ها، همه کارها را انجام دهید محاسبات لازمجداول لازم را پر کنید و نتایج مناسب را در مورد مطابقت توزیع تجربی به دست آمده با قانون توزیع نرمال، با قیاس با محاسبات، جداول و نتیجه گیری های مشابه مثال 2.12، که در بخش 2 این دستورالعمل ها در صفحات 7 تا 10 آورده شده است، استخراج کنید. .

جدول 4.1

مطابقت سرعت و هماهنگی اقدامات مشمولان به قانون توزیع عادی

شماره p / p گرد شده
جمع

دوم - مرحله تحقیق

"ارزیابی میانگین شاخص های جمعیت عمومی ضربات به هدف بازی ورزشی دارت کلیه دانش آموزان گروه آموزشی بر اساس نتایج اندازه گیری اعضای یک تیپ"

ارزیابی میانگین شاخص‌های سرعت و هماهنگی اقدامات همه دانش‌آموزان گروه مطالعه (طبق فهرست گروه مطالعه مجله کلاس) بر اساس نتایج ضربه زدن به هدف بازی ورزشی دارت توسط همه اعضای گروه تیم، در مرحله اول تحقیق در این کار آزمایشگاهی به دست آمد.

1. نتایج اندازه گیری سرعت و هماهنگی اقدامات را مستند کنید هنگام پرتاب دارت به سمت هدف دایره ای بازی ورزشی دارت همه اعضای تیم شما (2 تا 4 نفر) که منتخبی از نتایج اندازه گیری از جمعیت عمومی است (نتایج اندازه گیری همه دانش آموزان گروه مطالعه - به عنوان مثال، 15 نفر)، وارد کردن آنها در جدول 4.2 ستون دوم و سوم.

جدول 4.2

پردازش شاخص های سرعت و هماهنگی اقدامات

اعضای تیپ

شماره p / p
جمع

جدول 4.2 زیر باید درک شود , میانگین امتیاز منطبق (نتایج محاسبات را مطابق جدول 4.1 ببینید) اعضای تیم شما , در مرحله اول تحقیق به دست آمد. لازم به ذکر است که، معمولا، در جدول 4.2 یک مقدار متوسط ​​محاسبه شده از نتایج اندازه گیری به دست آمده توسط یکی از اعضای تیم در مرحله اول تحقیق وجود دارد. ، از آنجایی که احتمال همزمانی نتایج اندازه گیری توسط اعضای مختلف تیم بسیار کم است. سپس، معمولا ارزش دارد در یک ستون جداول 4.2 برای هر یک از ردیف ها - برابر با 1 است، آ در خط "کل » ستون « »، نوشته شده است تعداد اعضای تیم شما

2. انجام کلیه محاسبات لازم برای تکمیل جدول 4.2 و همچنین سایر محاسبات و نتیجه گیری های مشابه محاسبات و نتیجه گیری های مثال 2.13 در بخش 2 این مقاله توسعه روش شناختیدر صفحات 13-14. هنگام محاسبه خطای نمایندگی باید در نظر داشت "م" استفاده از فرمول 2.4 در صفحه 13 این توسعه روش شناختی ضروری است، زیرا نمونه کوچک است (n، و تعداد عناصر جمعیت عمومی N مشخص است، و برابر با تعداد دانش آموزان در گروه مطالعه است. ، طبق لیست مجله گروه مطالعه.

سوم - مرحله تحقیق

ارزیابی اثربخشی گرم کردن از نظر "سرعت و هماهنگی اقدامات" توسط هر یک از اعضای تیم با استفاده از معیار دانشجو

ارزیابی اثربخشی گرم کردن برای پرتاب دارت به سمت هدف بازی ورزشی "دارت" که در مرحله اول تحقیق این کار آزمایشگاهی توسط هر یک از اعضای تیم از نظر "سرعت و سرعت" انجام شد. هماهنگی اقدامات» با استفاده از معیار دانشجویی - معیار پارامتریک پایایی آماری قانون توزیع تجربی به قانون توزیع نرمال.

… جمع

2. پراکندگی و قزاقستان شمالی ، نتایج اندازه گیری شاخص "سرعت و هماهنگی اقدامات" بر اساس نتایج گرم کردن، ارائه شده در جدول 4.3، (محاسبات مشابه بلافاصله پس از جدول 2.30 از مثال 2.14 در صفحه 16 این توسعه روش شناختی ارائه شده را ببینید).

3. هر یک از اعضای تیم کاری سرعت (شخصی) و هماهنگی اقدامات خود را بعد از گرم کردن اندازه گیری کنید،

… جمع

5. انجام محاسبات میانگین پراکندگی و قزاقستان شمالی ,نتایج اندازه گیری شاخص "سرعت و هماهنگی اقدامات" پس از گرم کردن، ارائه شده در جدول 4.4، نتیجه کلی اندازه گیری ها را بر اساس نتایج گرم کردن یادداشت کنید (محاسبات مشابه بلافاصله پس از جدول 2.31 از مثال 2.14 در صفحه 17 این توسعه روش شناختی ارائه شده را ببینید).

6. تمام محاسبات و نتیجه گیری های لازم را، مشابه محاسبات و نتیجه گیری های مثال 2.14، که در بخش دوم این توسعه روش شناختی در صفحات 16-17 آورده شده است، انجام دهید. هنگام محاسبه خطای نمایندگی باید در نظر داشت "م" لازم است از فرمول 2.1، ارائه شده در صفحه 12 این توسعه روش شناختی استفاده شود، زیرا نمونه n است و تعداد عناصر جمعیت N (ناشناخته است.

IV - مرحله چهارم تحقیق

ارزیابی یکنواختی (پایداری) شاخص های "سرعت و هماهنگی اقدامات" دو نفر از اعضای تیم با استفاده از معیار فیشر

با توجه به نتایج اندازه گیری به دست آمده در مرحله سوم تحقیق این آزمایشگاه، یکنواختی (پایداری) شاخص های "سرعت و هماهنگی اقدامات" دو نفر از اعضای تیم را با استفاده از معیار فیشر ارزیابی کنید.

برای این کار موارد زیر را انجام دهید.

با استفاده از داده های جداول 4.3 و 4.4، نتایج محاسبه پراکندگی این جداول، به دست آمده در مرحله سوم تحقیق و همچنین روش محاسبه و اعمال معیار فیشر برای ارزیابی یکنواختی (پایداری) شاخص های ورزشی، در مثال 2.15 در صفحات 18 تا 19 این توسعه روش شناختی، نتایج آماری و آموزشی مناسب را به دست آورید.

پنجم - مرحله تحقیق

ارزیابی گروه های شاخص "سرعت و هماهنگی اقدامات" یکی از اعضای تیم قبل و بعد از گرم کردن

آزمون فرضیه ها با استفاده از تجزیه و تحلیل آماری انجام می شود. اهمیت آماری با استفاده از مقدار P یافت می شود، که با احتمال یک رویداد معین با این فرض که برخی از گزاره ها (فرضیه صفر) درست است مطابقت دارد. اگر مقدار P کمتر از سطح معینی از اهمیت آماری باشد (معمولاً 0.05)، آزمایش‌گر می‌تواند با خیال راحت نتیجه‌گیری کند که فرضیه صفر نادرست است و به بررسی فرضیه جایگزین ادامه دهد. با استفاده از آزمون t Student می توانید مقدار P را محاسبه کنید و اهمیت دو مجموعه داده را تعیین کنید.

مراحل

قسمت 1

راه اندازی یک آزمایش

    فرضیه خود را تعریف کنید.اولین گام در ارزیابی اهمیت آماری این است که سؤالی را که می‌خواهید به آن پاسخ دهید انتخاب کنید و یک فرضیه را فرموله کنید. فرضیه بیانیه ای است در مورد داده های تجربی، توزیع و خواص آنها. برای هر آزمایشی، هم یک فرضیه صفر و هم یک فرضیه جایگزین وجود دارد. به طور کلی، شما باید دو مجموعه از داده ها را با هم مقایسه کنید تا مشخص کنید که آنها مشابه یا متفاوت هستند.

    • فرضیه صفر (H 0) معمولاً بیان می کند که هیچ تفاوتی بین دو مجموعه داده وجود ندارد. به عنوان مثال: آن دسته از دانش آموزانی که مطالب را قبل از کلاس مطالعه می کنند، نمره بالاتری کسب نمی کنند.
    • فرضیه جایگزین (H a) برعکس فرضیه صفر است و عبارتی است که باید با داده های تجربی تأیید شود. به عنوان مثال: آن دسته از دانش آموزانی که مطالب را قبل از کلاس مطالعه می کنند، نمره بالاتری می گیرند.
  1. سطح معنی داری را برای تعیین میزان تفاوت توزیع داده ها با سطح معمول تنظیم کنید تا به عنوان یک نتیجه قابل توجه در نظر گرفته شود. سطح اهمیت (همچنین نامیده می شود α (\displaystyle \alpha)-level) آستانه ای است که برای اهمیت آماری تعریف می کنید. اگر مقدار P کمتر یا مساوی با سطح معنی داری باشد، داده ها از نظر آماری معنی دار در نظر گرفته می شوند.

    • به عنوان یک قاعده، سطح اهمیت (ارزش α (\displaystyle \alpha)) برابر با 0.05 در نظر گرفته می شود که در این صورت احتمال تشخیص اختلاف تصادفی بین مجموعه داده های مختلف تنها 5 درصد است.
    • هر چه سطح معنی داری بالاتر باشد (و بر این اساس، مقدار P کوچکتر)، نتایج قابل اعتمادتر هستند.
    • اگر بیشتر می خواهید نتایج قابل اعتماد، مقدار P را به 0.01 کاهش دهید. به طور معمول، زمانی که نیاز به تشخیص عیوب در محصولات باشد، از مقادیر P کمتر در تولید استفاده می شود. در این مورد، وفاداری بالایی لازم است تا اطمینان حاصل شود که تمام قطعات همانطور که انتظار می رود کار می کنند.
    • برای اکثر آزمایشات فرضیه ها، سطح معنی داری 0.05 کافی است.
  2. تصمیم بگیرید که از کدام معیار استفاده کنید:یک طرفه یا دو طرفه. یکی از مفروضات آزمون t استیودنت این است که داده ها به طور نرمال توزیع شده اند. توزیع نرمال یک منحنی زنگی شکل با حداکثر تعدادنتیجه در وسط منحنی است. آزمون تی دانشجویی است روش ریاضیاعتبارسنجی داده، که به شما امکان می دهد تعیین کنید که آیا داده ها خارج از توزیع نرمال قرار می گیرند (بیشتر، کمتر یا در "دم" منحنی).

    • اگر مطمئن نیستید که داده‌ها بالاتر یا پایین‌تر از گروه کنترل هستند، از آزمون دو طرفه استفاده کنید. این به شما امکان می دهد اهمیت را در هر دو جهت تعیین کنید.
    • اگر می‌دانید که داده‌ها در کدام جهت ممکن است خارج از توزیع نرمال قرار گیرند، از یک تست یک دنباله استفاده کنید. در مثال بالا، ما انتظار داریم که نمرات دانش آموزان بالا برود، بنابراین می توان از آزمون یک طرفه استفاده کرد.
  3. حجم نمونه را با استفاده از توان آماری تعیین کنید.قدرت آماری یک مطالعه احتمال این است که یک حجم نمونه معین نتیجه مورد انتظار را ایجاد کند. یک آستانه توان مشترک (یا β) 80٪ است. تجزیه و تحلیل توان بدون هیچ داده قبلی می تواند مشکل باشد زیرا برخی اطلاعات در مورد میانگین های مورد انتظار در هر مجموعه داده و انحراف استاندارد آنها مورد نیاز است. از ماشین حساب توان آماری آنلاین برای تعیین اندازه نمونه بهینه برای داده های خود استفاده کنید.

    • به طور معمول، محققان یک مطالعه مقدماتی کوچک را برای ارائه داده هایی برای تجزیه و تحلیل توان و تعیین اندازه نمونه مورد نیاز برای یک مطالعه بزرگتر و کاملتر انجام می دهند.
    • اگر فرصت انجام یک مطالعه آزمایشی را ندارید، سعی کنید مقادیر متوسط ​​ممکن را بر اساس داده های ادبیات و نتایج افراد دیگر تخمین بزنید. این ممکن است به شما در تعیین حجم نمونه بهینه کمک کند.

    قسمت 2

    محاسبه انحراف معیار
    1. فرمول انحراف معیار را بنویسید.انحراف معیار نشان می‌دهد که گستردگی داده‌ها چقدر است. این به شما امکان می دهد نتیجه بگیرید که داده های به دست آمده در یک نمونه خاص چقدر نزدیک است. در نگاه اول، فرمول بسیار پیچیده به نظر می رسد، اما توضیحات زیر به شما در درک آن کمک می کند. فرمول به شرح زیر است: s = √∑((x i – µ) 2 /(N – 1)).

      • s - انحراف استاندارد؛
      • علامت ∑ نشان می دهد که تمام داده های به دست آمده در نمونه باید اضافه شوند.
      • x i مربوط به مقدار i است، یعنی یک نتیجه جداگانه به دست آمده است.
      • μ مقدار متوسط ​​برای این گروه است.
      • N تعداد کل داده های نمونه است.
    2. میانگین هر گروه را بیابید.برای محاسبه انحراف معیار، ابتدا باید میانگین هر گروه مطالعه را بیابید. مقدار متوسط ​​با حرف یونانی µ (mu) نشان داده می شود. برای یافتن میانگین، به سادگی تمام مقادیر به دست آمده را جمع کرده و آنها را بر مقدار داده (اندازه نمونه) تقسیم کنید.

      • به عنوان مثال، برای یافتن میانگین نمره در گروهی از دانش آموزانی که قبل از کلاس مطالب را مطالعه می کنند، مجموعه داده های کوچکی را در نظر بگیرید. برای سادگی، از مجموعه ای از پنج نقطه استفاده می کنیم: 90، 91، 85، 83 و 94.
      • بیایید همه مقادیر را با هم اضافه کنیم: 90 + 91 + 85 + 83 + 94 = 443.
      • مجموع را بر تعداد مقادیر تقسیم کنید، N = 5: 443/5 = 88.6.
      • بنابراین، مقدار متوسط ​​برای این گروه 88.6 است.
    3. هر مقدار به دست آمده را از میانگین کم کنید. گام بعدیمحاسبه تفاوت (x i - μ) است. برای انجام این کار، هر مقدار به دست آمده را از مقدار متوسط ​​یافت شده کم کنید. در مثال ما، باید پنج تفاوت را پیدا کنیم:

      • (90 - 88.6)، (91 - 88.6)، (85 - 88.6)، (83 - 88.6) و (94 - 88.6).
      • در نتیجه، مقادیر زیر را دریافت می کنیم: 1.4، 2.4، -3.6، -5.6 و 5.4.
    4. هر مقدار بدست آمده را مربع کنید و با هم جمع کنید.هر یک از مقادیری که تازه پیدا شده است باید مجذور شود. این مرحله تمام مقادیر منفی را حذف می کند. اگر بعد از این مرحله هنوز اعداد منفی دارید، فراموش کرده اید آنها را مربع کنید.

      • برای مثال ما، 1.96، 5.76، 12.96، 31.36 و 29.16 را دریافت می کنیم.
      • مقادیر به دست آمده را اضافه می کنیم: 1.96 + 5.76 + 12.96 + 31.36 + 29.16 = 81.2.
    5. بر حجم نمونه منهای 1 تقسیم کنید.در فرمول به دلیل اینکه جمعیت عمومی را در نظر نمی گیریم، اما از همه دانش آموزان برای ارزشیابی نمونه برداری می کنیم، به N - 1 تقسیم می شود.

      • تفریق: N - 1 = 5 - 1 = 4
      • تقسیم: 81.2/4 = 20.3
    6. استخراج کردن ریشه دوم. پس از تقسیم مجموع بر حجم نمونه منهای یک، جذر مقدار پیدا شده را بگیرید. این آخرین مرحله در محاسبه انحراف معیار است. برنامه های آماری وجود دارد که پس از وارد کردن داده های اولیه، تمامی محاسبات لازم را انجام می دهند.

      • در مثال ما، انحراف معیار نمرات آن دسته از دانش‌آموزانی که مطالب را قبل از کلاس خوانده‌اند، s = √20.3 = 4.51 است.

      قسمت 3

      اهمیت را تعیین کنید
      1. واریانس بین دو گروه داده را محاسبه کنید.تا این مرحله، مثال را فقط برای یک گروه از داده ها در نظر گرفته ایم. اگر می خواهید دو گروه را با هم مقایسه کنید، بدیهی است که باید داده های هر دو گروه را بگیرید. انحراف معیار برای گروه دوم داده ها را محاسبه کنید و سپس واریانس بین دو گروه آزمایشی را بیابید. پراکندگی با استفاده از فرمول زیر محاسبه می شود: s d = √((s 1 /N 1) + (s 2 /N 2)).