خلاصه آماری و گروه بندی. سری توزیع آماری. نمونه هایی از حل مسئله گروه بندی داده ها و ترسیم یک سری توزیع

نتایج گروه بندی آمارهای جمع آوری شده معمولاً به صورت سری توزیع ارائه می شود. یک سری توزیع، توزیع منظم واحدهای جمعیتی به گروه‌ها با توجه به صفت مورد مطالعه است.

سری های توزیع بسته به ویژگی زیربنایی گروه بندی به اسنادی و متغیر تقسیم می شوند. اگر ویژگی کیفی باشد، سری توزیع را اسنادی می نامند. نمونه ای از یک سری اسنادی توزیع شرکت ها و سازمان ها بر اساس اشکال مالکیت است (جدول 3.1 را ببینید).

اگر مشخصه ای که سری توزیع بر اساس آن ساخته می شود کمی باشد، سری متغیر نامیده می شود.

سری تغییرات یک توزیع همیشه از دو بخش تشکیل شده است: یک نوع و فرکانس های مربوطه (یا فرکانس ها). یک متغیر مقداری است که یک ویژگی می تواند در واحدهای جمعیت بگیرد، فرکانس تعداد واحدهای مشاهده ای است که دارای یک مقدار مشخصه هستند. مجموع فرکانس ها همیشه برابر با حجم جمعیت است. گاهی اوقات به جای فرکانس ها، فرکانس ها محاسبه می شود - اینها فرکانس هایی هستند که یا در کسری از یک بیان می شوند (سپس مجموع همه فرکانس ها 1 است) یا به صورت درصدی از حجم کل (مجموع فرکانس ها برابر با 100٪ خواهد بود). .

سری های متغیر گسسته و بازه ای هستند. برای سری های گسسته (جدول 3.7)، گزینه ها با اعداد خاص، اغلب اعداد کامل بیان می شوند.

جدول 3.8. توزیع کارکنان بر اساس زمان کار در یک شرکت بیمه
زمان کار در شرکت، سال های کامل (گزینه ها) تعداد کارکنان
انسان (فرکانس) درصد به کل (فرکانس)
تا یک سال 15 11,6
1 17 13,2
2 19 14,7
3 26 20,2
4 10 7,8
5 18 13,9
6 24 18,6
جمع 129 100,0

در سری های بازه ای (جدول 3.2 را ببینید)، مقادیر نشانگر به صورت فواصل تنظیم می شوند. فاصله ها دو مرز دارند: پایین و بالا. فواصل می توانند باز یا بسته باشند. موارد باز یکی از حاشیه ها را ندارند، بنابراین، در جدول. 3.2 بازه اول هیچ مرز پایینی ندارد و آخرین بازه هیچ حاشیه بالایی ندارد. هنگام ساخت یک سری بازه ای، بسته به ماهیت پراکندگی مقادیر مشخصه ها، از فواصل بازه های مساوی و بازه های نامساوی استفاده می شود (جدول 3.2 یک سری تغییرات با فواصل مساوی را نشان می دهد).

اگر یک ویژگی تعداد محدودی از مقادیر را بگیرد، معمولاً بیش از 10، سری های توزیع گسسته ساخته می شوند. اگر گزینه بزرگتر باشد، سری گسسته وضوح خود را از دست می دهد. در این مورد، توصیه می شود از فرم فاصله سری تغییرات استفاده کنید. با تغییرات مداوم ویژگی، زمانی که مقادیر آن در محدوده های معین به مقدار دلخواه کمی با یکدیگر متفاوت است، یک سری توزیع بازه ای نیز ساخته می شود.

3.3.1. ساخت سری تغییرات گسسته

اجازه دهید روش ساخت سری تغییرات گسسته را با استفاده از یک مثال در نظر بگیریم.

مثال 3.2. داده های زیر در مورد ترکیب کمی 60 خانواده وجود دارد:

برای دریافت ایده ای از توزیع خانواده ها بر اساس تعداد اعضای آنها، باید یک سری تغییرات ساخته شود. از آنجایی که ویژگی تعداد محدودی از مقادیر صحیح را می گیرد، ما یک سری تغییرات گسسته می سازیم. برای انجام این کار، ابتدا توصیه می شود تمام مقادیر صفت (تعداد اعضای خانواده) را به ترتیب صعودی بنویسید (یعنی رتبه بندی داده های آماری):

سپس باید تعداد خانواده هایی با همین ترکیب را شمارش کرد. تعداد اعضای خانواده (مقدار ویژگی متغیر) گزینه‌ها هستند (آنها را با x نشان می‌دهیم)، تعداد خانواده‌هایی با ترکیب مشابه فرکانس‌ها است (آنها را با f نشان می‌دهیم). نتایج گروه بندی در قالب سری های توزیع تنوع گسسته زیر ارائه شده است:

جدول 3.11.
تعداد اعضای خانواده (x) تعداد خانواده ها (y)
1 8
2 14
3 20
4 9
5 5
6 4
جمع 60

3.3.2. ساخت سری تغییرات بازه ای

اجازه دهید با استفاده از مثال زیر تکنیکی را برای ساخت سری های توزیع متغیر بازه ای نشان دهیم.

مثال 3.3. در نتیجه مشاهدات آماری داده های زیر در مورد میانگین نرخ سود 50 بانک تجاری (درصد) به دست آمد:

جدول 3.12.
14,7 19,0 24,5 20,8 12,3 24,6 17,0 14,2 19,7 18,8
18,1 20,5 21,0 20,7 20,4 14,7 25,1 22,7 19,0 19,6
19,0 18,9 17,4 20,0 13,8 25,6 13,0 19,0 18,7 21,1
13,3 20,7 15,2 19,9 21,9 16,0 16,9 15,3 21,4 20,4
12,8 20,8 14,3 18,0 15,1 23,8 18,5 14,4 14,4 21,0

همانطور که می بینید، مشاهده چنین مجموعه ای از داده ها بسیار ناخوشایند است، علاوه بر این، هیچ الگوی در تغییر نشانگر وجود ندارد. بیایید یک سری توزیع بازه ای بسازیم.

  1. بیایید تعداد بازه ها را تعریف کنیم.

    در عمل، تعداد فواصل اغلب توسط خود محقق و بر اساس وظایف هر مشاهده خاص تعیین می شود. در عین حال، با استفاده از فرمول استرجس نیز می توان آن را به صورت ریاضی محاسبه کرد

    n = 1 + 3.322lgN،

    که در آن n تعداد فواصل است.

    N حجم جمعیت (تعداد واحدهای مشاهده) است.

    برای مثال ما، دریافت می کنیم: n = 1 + 3.322lgN = 1 + 3.322lg50 = 6.6 "7.

  2. اجازه دهید اندازه فواصل (i) را با فرمول تعیین کنیم

    که در آن x max حداکثر مقدار ویژگی است.

    x min حداقل مقدار ویژگی است.

    برای مثال ما

    اگر مرزهای سری تغییرات دارای مقادیر "گرد" باشد، فواصل زمانی مشخص است، بنابراین، مقدار بازه 1.9 را به 2 و حداقل مقدار ویژگی را 12.3 به 12.0 گرد می کنیم.

  3. بیایید مرزهای فواصل را مشخص کنیم.

    فواصل معمولاً به گونه ای ثبت می شوند که حد بالایی یک بازه به طور همزمان حد پایین بازه بعدی است. بنابراین، برای مثال ما، دریافت می کنیم: 12.0-14.0; 14.0-16.0; 16.0-18.0; 18.0-20.0; 20.0-22.0; 22.0-24.0; 24.0-26.0.

    چنین رکوردی به این معنی است که ویژگی پیوسته است. اگر انواع یک ویژگی مقادیر کاملاً تعریف شده را دریافت کنند، به عنوان مثال، فقط اعداد صحیح، اما تعداد آنها برای ساخت یک سری گسسته خیلی زیاد باشد، می توان یک سری بازه ای ایجاد کرد که در آن مرز پایین بازه با مرز بالایی منطبق نباشد. از بازه بعدی (این به این معنی است که ویژگی گسسته است). به عنوان مثال، در توزیع کارکنان یک شرکت بر اساس سن، می توانید گروه های فاصله زمانی زیر را ایجاد کنید: 18-25، 26-33، 34-41، 42-49، 50-57، 58-65، 66 و بیشتر.

    همچنین در مثال ما می توانیم بازه های اول و آخر و غیره را باز کنیم. نوشتن: تا 14.0; 24.0 و بالاتر

  4. بر اساس داده های اولیه، یک سری محدوده می سازیم. برای انجام این کار، مقادیری را که ویژگی می گیرد به ترتیب صعودی بنویسید. نتایج در جدول ارائه شده است: جدول 3.13. سری رتبه بندی نرخ های سود بانک های تجاری
    درصد نرخ بانکی (گزینه‌ها)
    12,3 17,0 19,9 23,8
    12,8 17,4 20,0 24,5
    13,0 18,0 20,0 24,6
    13,3 18,1 20,4 25,1
    13,8 18,5 20,4 25,6
    14,2 18,7 20,5
    14,3 18,8 20,7
    14,4 18,9 20,7
    14,7 19,0 20,8
    14,7 19,0 21,0
    15,1 19,0 21,0
    15,2 19,0 21,1
    15,3 19,0 21,4
    16,0 19,6 21,9
    16,9 19,7 22,7
  5. بیایید فرکانس ها را بشماریم.

    هنگام محاسبه فرکانس ها، زمانی ممکن است که مقدار یک ویژگی روی مرز یک بازه قرار گیرد، موقعیتی پیش بیاید. در این مورد، می توانید با این قانون هدایت شوید: این واحد به بازه ای اختصاص می یابد که مقدار آن حد بالایی است. بنابراین، مقدار 16.0 در مثال ما به بازه دوم اشاره دارد.

نتایج گروه بندی به دست آمده در مثال ما در جدول ارائه خواهد شد.

جدول 3.14. توزیع بانک های تجاری بر اساس نرخ وام
نرخ کوتاه، % تعداد بانک، واحد (فرکانس) فرکانس های انباشته شده
12,0-14,0 5 5
14,0-16,0 9 14
16,0-18,0 4 18
18,0-20,0 15 33
20,0-22,0 11 44
22,0-24,0 2 46
24,0-26,0 4 50
جمع 50 -

ستون آخر جدول فرکانس های انباشته شده را نشان می دهد که با جمع کردن متوالی فرکانس ها از اول شروع می شود (مثلاً برای بازه اول - 5، برای بازه دوم 5 + 9 = 14، برای بازه سوم 5 + 9 + 4 = 18 و غیره .). فرکانس تجمعی، به عنوان مثال، 33، نشان می دهد که 33 بانک دارای نرخ وام بیش از 20٪ (حد بالای بازه مربوطه) نیستند.

در فرآیند گروه بندی داده ها هنگام ساخت سری تغییرات، گاهی اوقات از فواصل نامساوی استفاده می شود. این در مواردی اعمال می‌شود که مقادیر مشخصه از قاعده پیشرفت حسابی یا هندسی پیروی می‌کنند، یا زمانی که استفاده از فرمول استرجس منجر به ظهور گروه‌های فاصله‌ای "خالی" می‌شود که شامل یک واحد مشاهده واحد نیستند. سپس مرزهای فواصل به طور دلخواه توسط خود محقق و بر اساس عقل سلیم و اهداف بررسی و یا با فرمول تعیین می شود. بنابراین، برای داده هایی که در پیشرفت حسابی تغییر می کنند، اندازه فواصل به صورت زیر محاسبه می شود.

یک سری تغییرات گسسته برای ویژگی های گسسته ساخته شده است.

برای ساخت یک سری تغییرات گسسته، باید مراحل زیر را انجام دهید: 1) واحدهای مشاهده را به ترتیب صعودی مقدار مورد مطالعه مشخصه ترتیب دهید.

2) تمام مقادیر ممکن ویژگی x i را تعیین کنید، آنها را به ترتیب صعودی مرتب کنید.

ارزش ویژگی، من .

فرکانس مقدار مشخصه و نشان دهند f من . مجموع همه فرکانس های سری برابر با تعداد عناصر جامعه مورد مطالعه است.

مثال 1 .

لیست نمره های دریافتی دانش آموزان در امتحانات: 3; 4 3 5 4 2 2 4 4 3 5 2 4 5 4 3 4 3 3 4 4 2 2 5 5 4 5 2 3 4 4 3 4 5 2 5 5 4 3 3 4 2 4 4 5 4 3 5 3 5 4 4 5 4 4 5 4 5 5 5.

اینجا شماره NS - مقطع تحصیلییک متغیر تصادفی گسسته است و فهرست حاصل از برآوردها می باشدداده های آماری (مشاهده شده). .

    برای مرتب کردن واحدهای مشاهده به ترتیب صعودی مقدار مورد مطالعه صفت:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) تمام مقادیر ممکن ویژگی x i را تعیین کنید، آنها را به ترتیب صعودی مرتب کنید:

در این مثال، تمام نمرات را می توان به چهار گروه با مقادیر زیر تقسیم کرد: 2; 3 4 5.

مقدار یک متغیر تصادفی مربوط به گروه جداگانه ای از داده های مشاهده شده نامیده می شود ارزش ویژگی، variant (Variant) و x را نشان می دهد من .

عددی که نشان می دهد چند بار مقدار مربوط به صفت در تعدادی از مشاهدات رخ می دهد، نامیده می شود فرکانس مقدار مشخصه و نشان دهند f من .

برای مثال ما

نمره 2 اتفاق می افتد - 8 بار،

نمره 3 رخ می دهد - 12 بار،

نمره 4 اتفاق می افتد - 23 بار،

نمره 5 اتفاق می افتد - 17 بار.

در مجموع 60 برآورد.

4) داده های دریافتی را در جدولی از دو ردیف (ستون) بنویسید - x i و f i.

بر اساس این داده ها، امکان ساخت یک سری تغییرات گسسته وجود دارد

سری تغییرات گسسته - این جدولی است که در آن مقادیر یافت شده صفت مورد مطالعه به صورت مقادیر جداگانه به ترتیب صعودی و فراوانی آنها نشان داده شده است.

  1. ساخت یک سری تغییرات بازه ای

علاوه بر سری تغییرات گسسته، اغلب روشی برای گروه بندی داده ها به عنوان سری تغییرات بازه ای وجود دارد.

سری بازه زمانی ساخته می شود که:

    علامت دارای ویژگی تغییر مداوم است.

    مقادیر گسسته زیادی وجود دارد (بیش از 10)

    فرکانس مقادیر گسسته بسیار کوچک است (با تعداد نسبتاً زیادی واحدهای مشاهده از 1-3 تجاوز نکنید).

    بسیاری از مقادیر گسسته یک ویژگی با فرکانس های یکسان.

سری تغییرات بازه ای روشی برای گروه بندی داده ها در قالب یک جدول است که دارای دو ستون است (مقادیر مشخصه به صورت فاصله مقادیر و فراوانی هر بازه).

بر خلاف سری گسسته، مقادیر مشخصه سری بازه ای نه با مقادیر جداگانه، بلکه با فاصله مقادیر ("از - به") نشان داده می شود.

عددی که نشان می دهد چند واحد مشاهده در هر بازه انتخابی قرار گرفته است نامیده می شود فرکانس مقدار مشخصه و نشان دهند f من . مجموع همه فرکانس های سری برابر با تعداد عناصر (واحدهای مشاهده) در جامعه مورد مطالعه است.

اگر واحد دارای مقدار مشخصه ای برابر با مقدار مرز بالایی بازه باشد، باید به بازه بعدی ارجاع داده شود.

به عنوان مثال، یک کودک با قد 100 سانتی متر در فاصله دوم سقوط می کند، نه اولین. و یک کودک با قد 130 سانتی متر به فاصله آخر می افتد نه سوم.

بر اساس این داده ها، می توان یک سری تغییرات بازه ای ساخت.

هر سطل دارای یک کران پایینی (x h)، یک کران بالا (xh) و یک عرض bin ( من).

مرز فاصله یک مقدار مشخصه است که در مرز دو بازه قرار دارد.

قد کودکان (سانتی متر)

قد کودکان (سانتی متر)

تعداد بچه ها

بالای 130

اگر فاصله دارای یک مرز بالا و پایین باشد، آن را فراخوانی می کنند فاصله بسته... اگر بازه فقط یک کران پایینی یا فقط یک حد بالایی داشته باشد، آنگاه است - بازه بازفقط اولین یا آخرین بازه زمانی می تواند باز باشد. در مثال بالا آخرین بازه باز است.

عرض فاصله (من) - تفاوت بین حد بالا و پایین.

من = x n - x اینچ

عرض سطل باز با عرض سطل بسته مجاور یکسان فرض می شود.

قد کودکان (سانتی متر)

تعداد بچه ها

عرض بازه (i)

برای محاسبات 130 + 20 = 150

20 (زیرا عرض بازه بسته مجاور 20 است)

تمام سری های بازه ای به سری های بازه ای در فواصل مساوی و سری های بازه ای در فواصل نامساوی تقسیم می شوند ... در ردیف های بازه ای با فواصل مساوی، عرض همه فواصل یکسان است. در ردیف های فاصله ای با فواصل نامساوی، عرض فواصل متفاوت است.

در این مثال، یک سری بازه ای با فواصل نامساوی.

آمار ریاضی- بخشی از ریاضیات که به روش های ریاضی پردازش، سیستم سازی و استفاده از داده های آماری برای نتیجه گیری علمی و عملی اختصاص دارد.

3.1. مفاهیم اولیه آمار ریاضی

در مشکلات زیست پزشکی، اغلب لازم است که توزیع یک صفت خاص برای تعداد بسیار زیادی از افراد بررسی شود. در افراد مختلف، این علامت معنای متفاوتی دارد، بنابراین یک متغیر تصادفی است. به عنوان مثال، هر فرآورده دارویی زمانی که برای بیماران مختلف استفاده شود، اثربخشی متفاوتی دارد. با این حال، برای دریافت ایده ای از اثربخشی این دارو، نیازی به استفاده از آن نیست به همهبیمار می توان نتایج استفاده از دارو را برای گروه نسبتاً کوچکی از بیماران ردیابی کرد و بر اساس داده های به دست آمده، ویژگی های اساسی (اثربخشی، موارد منع مصرف) روند درمان را شناسایی کرد.

جمعیت عمومی- مجموعه ای از عناصر همگن مورد مطالعه که با برخی ویژگی ها مشخص می شود. این ویژگی است مداومیک متغیر تصادفی با چگالی توزیع f (x).

به عنوان مثال، اگر ما علاقه مند به شیوع بیماری در یک منطقه خاص هستیم، جمعیت عمومی کل جمعیت منطقه است. اگر بخواهیم استعداد ابتلای زن و مرد به این بیماری را به طور جداگانه دریابیم، باید دو جمعیت کلی را در نظر بگیریم.

برای بررسی ویژگی های جمعیت عمومی، برخی از عناصر آن انتخاب می شود.

نمونه- بخشی از جمعیت عمومی برای معاینه (درمان) انتخاب شده است.

اگر این باعث سردرگمی نشود، نمونه به عنوان نامیده می شود مجموعه ای از اشیاء،برای معاینه انتخاب شده و تجمیع

ارزش هایصفت مورد بررسی، به دست آمده در طی بررسی. این مقادیر را می توان به روش های مختلفی نشان داد.

سری های آماری ساده -مقادیر صفت مورد مطالعه، به ترتیبی که به دست آمد ثبت می شود.

نمونه ای از یک سری آماری ساده به دست آمده با اندازه گیری سرعت موج سطحی (m/s) در پوست پیشانی در 20 بیمار در جدول آورده شده است. 3.1.

جدول 3.1.سری های آماری ساده

یک سری آماری ساده اصلی ترین و کامل ترین روش ثبت نتایج نظرسنجی است. می تواند شامل صدها مورد باشد. نگاه کردن به چنین ترکیبی در یک نگاه بسیار دشوار است. بنابراین نمونه های بزرگ معمولا به گروه هایی تقسیم می شوند. برای این، منطقه تغییر مشخصه به چندین (N) تقسیم می شود. فواصلبا عرض مساوی و محاسبه فرکانس های نسبی (n / n) ویژگی با این فواصل. عرض هر بازه عبارت است از:

مرزهای فواصل دارای معانی زیر هستند:

اگر برخی از عناصر نمونه مرز بین دو بازه مجاور باشد، به آن اطلاق می شود ترک کردفاصله داده های گروه بندی شده به این روش نامیده می شود سری های آماری بازه ای

- این جدولی است که فواصل مقادیر مشخصه و فرکانس های نسبی ضربه زدن به ویژگی را در این بازه ها نشان می دهد.

در مورد ما، برای مثال، می توان چنین سری آماری فاصله ای را تشکیل داد (N = 5، د= 4)، برگه. 3.2.

جدول 3.2.سری های آماری بازه ای

در اینجا، دو مقدار برابر با 28 به بازه 28-32 (جدول 3.1) و به فاصله 32-36 - مقادیر 32، 33، 34 و 35 اختصاص داده می شود.

سری های آماری بازه ای را می توان به صورت گرافیکی نمایش داد. برای انجام این کار، فواصل مقادیر ویژگی ها در امتداد محور آبسیسا رسم می شود و بر روی هر یک از آنها، بر اساس آن، یک مستطیل با ارتفاع برابر با فرکانس نسبی ساخته می شود. نمودار میله ای حاصل نامیده می شود هیستوگرام

برنج. 3.1.نمودار میله ای

در هیستوگرام، الگوهای آماری توزیع صفت کاملاً واضح دیده می شود.

با حجم نمونه بزرگ (چند هزار) و عرض کم ستون ها، شکل هیستوگرام به شکل نمودار نزدیک است. چگالی توزیعامضا کردن.

تعداد نوارهای هیستوگرام را می توان با استفاده از فرمول زیر انتخاب کرد:

ساختن یک هیستوگرام به صورت دستی یک فرآیند طولانی است. از این رو برنامه های کامپیوتری برای ساخت خودکار آنها ساخته شده است.

3.2. ویژگی های عددی سری های آماری

بسیاری از روش های آماری از تخمین های نمونه برای میانگین و واریانس (یا RMS) جامعه استفاده می کنند.

میانگین نمونه(X) میانگین حسابی همه عناصر یک سری آماری ساده است:

برای مثال ما NS= 37.05 (m / s).

میانگین نمونه استبهترینبرآورد میانگین کلیم.

واریانس نمونه s 2برابر با مجذور انحرافات عناصر از میانگین نمونه تقسیم بر n- 1:

در مثال ما، s 2 = 25.2 (m / s) 2.

لطفاً توجه داشته باشید که هنگام محاسبه واریانس نمونه، مخرج فرمول اندازه نمونه n نیست، بلکه n-1 است. این به این دلیل است که هنگام محاسبه انحرافات در فرمول (3.3)، به جای انتظارات ریاضی ناشناخته، از برآورد آن استفاده می شود - میانگین نمونه

واریانس نمونه است بهترینبرآورد واریانس عمومی (σ2).

انحراف استاندارد نمونه(s) جذر واریانس نمونه است:

برای مثال ما س= 5.02 (m / s).

انتخابی ریشه میانگین مربعانحراف بهترین برآورد از انحراف استاندارد عمومی (σ) است.

با افزایش نامحدود در حجم نمونه، همه ویژگی های نمونه به ویژگی های مربوط به جامعه عمومی تمایل دارند.

برای محاسبه مشخصات نمونه از فرمول های کامپیوتری استفاده می شود. در اکسل، این محاسبات توابع آماری AVERAGE، VAR را انجام می دهند. STDEV.

3.3. ارزیابی فاصله زمانی

همه مشخصات نمونه هستند متغیرهای تصادفی.این بدان معنی است که برای نمونه دیگری با همان اندازه، مقادیر ویژگی های نمونه متفاوت خواهد بود. بنابراین، انتخابی

ویژگی ها فقط هستند برآوردهاویژگی های مربوط به جمعیت عمومی

معایب تخمین نمونه جبران می شود تخمین بازه،نمایندگی فاصله عددی،که در داخل آن با احتمال معین R dمقدار واقعی پارامتر مورد ارزیابی یافت می شود.

بگذار باشد U r - برخی از پارامترهای جمعیت عمومی (میانگین عمومی، واریانس عمومی و غیره).

ارزیابی فاصله زمانیپارامتر U r فاصله نامیده می شود (U 1, U 2)ارضای شرط:

P (U < Ur < U2) = Рд. (3.5)

احتمال R dتماس گرفت احتمال محرمانه

احتمال اطمینان Pد - احتمال اینکه مقدار واقعی مقدار برآورد شده باشد داخلفاصله مشخص شده

در این مورد، فاصله (U 1, U 2)تماس گرفت فاصله اطمینانبرای پارامتر در حال ارزیابی

اغلب به جای احتمال اطمینان، از مقدار مرتبط α = 1 - P d استفاده می شود که به نام سطح اهمیت

سطح اهمیتاحتمال این است که مقدار واقعی پارامتر برآورد شده باشد خارج ازفاصله اطمینان.

گاهی α و P q به صورت درصد بیان می شوند، برای مثال، 5% به جای 0.05 و 95% به جای 0.95.

در تخمین بازه، ابتدا مناسب را انتخاب کنید سطح اطمینان(معمولا 0.95 یا 0.99)، و سپس محدوده مربوط به مقادیر پارامتر تخمین زده شده را بیابید.

اجازه دهید به برخی از خصوصیات کلی برآوردهای بازه ای توجه کنیم.

1. هر چه سطح اهمیت کمتر باشد (بیشتر ر ه)تخمین بازه گسترده تر است. بنابراین، اگر در سطح معنی داری 0.05 باشد، برآورد فاصله زمانی میانگین عمومی 34.7 است.< م< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < م< 40,25.

2. هر چه حجم نمونه بزرگتر باشد nتخمین بازه با سطح معناداری انتخابی محدودتر است. به عنوان مثال، 5 درصد برآورد میانگین کلی (0.05 = β) باشد که از نمونه 20 عنصر به دست آمده است، سپس 34.7 باشد.< م< 39,4.

با افزایش حجم نمونه به 80، تخمین دقیق تری در همان سطح از اهمیت به دست خواهیم آورد: 35.5< م< 38,6.

در حالت کلی، ساخت تخمین های اطمینان قابل اعتماد مستلزم آگاهی از قانون است که براساس آن ویژگی تصادفی تخمین زده شده در جامعه عمومی توزیع می شود. در نظر بگیرید که تخمین بازه چگونه ساخته می شود ثانویه عمومیصفت، که در جمعیت عمومی توسط طبیعیقانون.

3.4. ارزیابی فاصله زمانی میانگین کلی برای قانون توزیع نرمال

ساخت یک تخمین فاصله ای از میانگین کلی M برای جمعیت عمومی با توزیع نرمال بر اساس ویژگی زیر است. برای حجم نمونه nنگرش

از توزیع دانشجو با تعداد درجات آزادی ν = تبعیت می کند n- 1.

اینجا NSمیانگین نمونه است و س- انحراف استاندارد انتخابی

با استفاده از جداول توزیع Student یا آنالوگ کامپیوتری آنها، می توان چنین مقدار مرزی را یافت که با یک سطح اطمینان معین، نابرابری زیر برقرار است:

این نابرابری با نابرابری برای M مطابقت دارد:

جایی که ε نصف عرض فاصله اطمینان است.

بنابراین، ساخت فاصله اطمینان برای M به ترتیب زیر انجام می شود.

1. احتمال اطمینان P d (معمولا 0.95 یا 0.99) را انتخاب کنید و برای آن، مطابق جدول توزیع Student، پارامتر t یافت می شود.

2. نصف عرض فاصله اطمینان ε را محاسبه کنید:

3. برآورد فاصله ای از میانگین عمومی را با سطح اطمینان انتخاب شده دریافت کنید:

به طور خلاصه اینگونه نوشته شده است:

رویه های رایانه ای برای یافتن تخمین های بازه ای توسعه یافته اند.

اجازه دهید نحوه استفاده از جدول توزیع دانشجو را توضیح دهیم. این جدول دارای دو "ورودی" است: ستون سمت چپ، به نام تعداد درجات آزادی ν = n- 1، و خط بالایی سطح اهمیت α است. در محل تقاطع سطر و ستون مربوطه، ضریب Student را پیدا کنید تی

بیایید این روش را در نمونه خود اعمال کنیم. بخشی از جدول توزیع دانشجو در زیر ارائه شده است.

جدول 3.3. قسمتی از جدول توزیع دانش آموز

سری های آماری ساده برای نمونه 20 نفره = 20، ν = 19) در جدول ارائه شده است. 3.1. برای این سری، محاسبات با فرمول (3.1-3.3) نشان می دهد: NS= 37,05; س= 5,02.

بیایید انتخاب کنیم α = 0.05 (P d = 0.95). در تقاطع خط "19" و ستون "0.05" پیدا می کنیم تی= 2,09.

اجازه دهید دقت برآورد را با فرمول (3.6) محاسبه کنیم: ε = 2.09؟ 5.02 / λ / 20 = 2.34.

بیایید یک تخمین فاصله بسازیم: با احتمال 95٪، میانگین کلی مجهول نابرابری را برآورده می کند:

37,05 - 2,34 < م< 37,05 + 2,34, или م= 2.34 ± 37.05 (m / s)، P d = 0.95.

3.5. روش‌های تأیید فرضیه‌های آماری

فرضیه های آماری

قبل از اینکه فرضیه آماری چیست، به مثال زیر توجه کنید.

برای مقایسه دو روش درمان یک بیماری خاص، دو گروه از بیماران 20 نفره انتخاب شدند که درمان آنها بر اساس این روش ها انجام شد. برای هر بیمار ثبت شد تعداد مراحل،پس از آن اثر مثبت حاصل شد. با توجه به این داده ها، برای هر گروه، میانگین نمونه (X)، واریانس نمونه به دست آمد (s 2)و نمونه RMS (ها).

نتایج در جدول ارائه شده است. 3.4.

جدول 3.4

تعداد مراحل مورد نیاز برای به دست آوردن یک اثر مثبت یک متغیر تصادفی است که تمام اطلاعات مربوط به آن در حال حاضر در نمونه داده شده موجود است.

از جدول 3.4 نشان می دهد که میانگین نمونه در گروه اول کمتر از گروه دوم است. آیا این به این معنی است که همان نسبت برای میانگین های عمومی صدق می کند: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает آزمون فرضیه های آماری

فرضیه آماری- این یک فرض در مورد ویژگی های جمعیت است.

ما فرضیه هایی را در مورد خواص در نظر خواهیم گرفت دوجمعیت های عمومی

اگر جمعیت ها داشته باشند شناخته شده، همانتوزیع مقدار تخمین زده شده و مفروضات مربوط به مقادیر است برخی از پارامترهااز این توزیع، سپس فرضیه ها نامیده می شوند پارامتریکبه عنوان مثال، نمونه ها از جمعیت های با قانون عادیتوزیع و واریانس یکسان. میخوای بفهمی همان هستندمیانگین کلی این جمعیت ها

اگر چیزی در مورد قوانین توزیع جمعیت های عمومی شناخته نشده باشد، فرضیه هایی در مورد خواص آنها نامیده می شود ناپارامتریکمثلا، همان هستندقوانین توزیع جمعیت های عمومی که نمونه ها از آنها استخراج می شود.

فرضیه های صفر و جایگزین

مشکل آزمون فرضیه ها. سطح اهمیت

بیایید با اصطلاحات مورد استفاده در آزمون فرضیه ها آشنا شویم.

H 0 - فرضیه صفر (فرضیه یک شکاک) - این یک فرضیه است فرقی نداردبین نمونه های مقایسه شده شکاک معتقد است که تفاوت بین برآوردهای نمونه به دست آمده از نتایج تحقیق تصادفی است.

H 1- فرضیه جایگزین (فرضیه خوش بینانه) فرضیه ای در مورد وجود تفاوت بین نمونه های مقایسه شده است. خوشبین معتقد است که تفاوت بین برآوردهای نمونه ناشی از دلایل عینی است و با تفاوت بین جمعیت های عمومی مطابقت دارد.

آزمایش فرضیه های آماری تنها زمانی امکان پذیر است که بتوان برخی از آنها را ایجاد کرد اندازه(معیار) که قانون توزیع آن در صورت انصاف H 0معروف سپس برای این مقدار می توان نشان داد فاصله اطمینان،که در آن با یک احتمال معین R dارزش خود را می گیرد. این فاصله نامیده می شود منطقه بحرانیاگر مقدار معیار در منطقه بحرانی قرار گیرد، آنگاه فرضیه پذیرفته می شود H 0.در غیر این صورت فرضیه H 1 پذیرفته می شود.

در تحقیقات پزشکی از Pd = 0.95 یا Pd = 0.99 استفاده می شود. این مقادیر مطابقت دارند سطوح اهمیتα = 0.05 یا α = 0.01.

هنگام آزمون فرضیه های آماریسطح اهمیت(α) احتمال رد فرضیه صفر در صورت درست بودن آن است.

توجه داشته باشید که در هسته آن، روش آزمون فرضیه در نظر گرفته شده است تشخیص تفاوت ها،و عدم تایید عدم حضور آنها. وقتی ارزش معیار از منطقه بحرانی فراتر می رود، می توانیم با قلب پاک به "شکاک" بگوییم - خوب، دیگر چه می خواهید؟! اگر هیچ تفاوتی وجود نداشت، با احتمال 95٪ (یا 99٪)، مقدار محاسبه شده در محدوده های مشخص شده خواهد بود. اما نه! ..

خوب، اگر مقدار معیار در منطقه بحرانی قرار گیرد، دلیلی وجود ندارد که فرضیه H 0 را درست فرض کنیم. این به احتمال زیاد یکی از دو دلیل ممکن را نشان می دهد.

1. اندازه نمونه به اندازه کافی بزرگ نیست تا تفاوت ها را تشخیص دهد. این احتمال وجود دارد که ادامه آزمایش موفقیت به همراه داشته باشد.

2. تفاوت هایی وجود دارد. اما آنقدر کوچک هستند که هیچ ارزش عملی ندارند. در این صورت ادامه آزمایشات معنا ندارد.

بیایید به بررسی برخی از فرضیه های آماری مورد استفاده در تحقیقات پزشکی بپردازیم.

3.6. بررسی فرضیه های برابری پراکندگی، معیار F فیشر

در برخی از مطالعات بالینی، تأثیر مثبت آن چندان مشهود نیست اندازهاز پارامتر مورد بررسی، چقدر است پایدارسازی،کاهش نوسانات او در این مورد، این سوال مطرح می شود که دو واریانس کلی بر اساس نتایج یک بررسی نمونه مقایسه شود. این کار را می توان با معیار فیشر

فرمول بندی مسئله

قانون عادیتوزیع اندازه های نمونه -

n 1و n 2،آ واریانس های نمونهبرابر هستند s 1 و s 2 2 واریانس های کلی

فرضیه های قابل آزمون:

H 0- واریانس های کلی همان هستند؛

H 1- واریانس های کلی متفاوت هستند.

نشان داده می شود که آیا نمونه ها از جمعیت های عمومی با قانون عادیتوزیع، پس اگر فرضیه درست باشد H 0نسبت واریانس نمونه از توزیع فیشر تبعیت می کند. بنابراین به عنوان معیاری برای بررسی اعتبار H 0مقدار گرفته شده است اف،با فرمول محاسبه می شود:

جایی که s 1 و s 2 واریانس نمونه هستند.

این نسبت از توزیع فیشر با تعداد درجات آزادی عدد ν 1 = پیروی می کند. n 1- 1 و تعداد درجات آزادی مخرج ν 2 = n 2 - 1. مرزهای منطقه بحرانی با توجه به جداول توزیع فیشر یا با استفاده از تابع کامپیوتر BRASPOBR یافت می شود.

برای مثال ارائه شده در جدول. 3.4، ما دریافت می کنیم: ν 1 = ν 2 = 20 - 1 = 19. اف= 2.16 / 4.05 = 0.53. در α = 0.05، مرزهای منطقه بحرانی برابر است، به ترتیب: = 0.40، = 2.53.

ارزش معیار در منطقه بحرانی قرار گرفت، بنابراین، این فرضیه پذیرفته می شود H 0:واریانس کلی نمونه ها همان هستند.

3.7. بررسی فرضیه برابری میانگین، معیار t-دانشجو

کار مقایسه وسطدو جمعیت کلی زمانی به وجود می آیند که اهمیت عملی داشته باشد اندازهاز صفت مورد مطالعه به عنوان مثال، هنگام مقایسه شرایط درمان با دو روش مختلف یا تعداد عوارض ناشی از استفاده از آنها. در این حالت می توانید از آزمون t Student استفاده کنید.

فرمول بندی مسئله

دو نمونه (X 1) و (X2) به دست آمد که از جمعیت های عمومی استخراج شد قانون عادیتوزیع و همان واریانس هااندازه نمونه - n 1 و n 2، معنی نمونهبرابر با X 1 و X 2 هستند و واریانس های نمونه- s 1 2 و s 2 2به ترتیب. لازم به مقایسه با یکدیگر است میانگین های عمومی

فرضیه های قابل آزمون:

H 0- میانگین های عمومی همان هستند؛

H 1- میانگین های عمومی متفاوت هستند.

نشان داده شده است که در صورت اعتبار فرضیه H 0مقدار t با فرمول محاسبه می شود:

طبق قانون دانشجو با تعداد درجات آزادی ν = ν 1 + + ν2 - 2 توزیع شده است.

در اینجا، که ν 1 = n 1 - 1 - تعداد درجات آزادی برای نمونه اول. ν 2 = n 2 - 1 تعداد درجات آزادی برای نمونه دوم است.

مرزهای منطقه بحرانی از جداول توزیع t یا با استفاده از تابع کامپیوتر TIDERINST یافت می شود. توزیع دانش آموز حدود صفر متقارن است، بنابراین مرزهای چپ و راست ناحیه بحرانی از نظر بزرگی یکسان و در علامت مخالف هستند: -و

برای مثال ارائه شده در جدول. 3.4، دریافت می کنیم:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38، تی= -2.51. با α = 0.05 = 2.02.

ارزش معیار از مرز سمت چپ منطقه بحرانی فراتر می رود، بنابراین فرضیه را می پذیریم H 1:میانگین های عمومی متفاوت هستند.علاوه بر این، میانگین جمعیت عمومی نمونه اولکوچکتر.

کاربرد آزمون تی دانشجویی

آزمون تی دانشجویی فقط برای نمونه هایی از طبیعیمصالح با همان واریانس های کلیاگر حداقل یکی از شروط نقض شود، اطلاق ملاک مورد تردید است. به استناد، معمولاً نیاز به عادی بودن جمعیت عمومی نادیده گرفته می شود قضیه حد مرکزیدر واقع، تفاوت میانگین های نمونه در شمارش (3.10) را می توان به طور معمول برای ν> 30 توزیع شده در نظر گرفت. اما سؤال برابری واریانس ها را نمی توان تأیید کرد، و ارجاع به این واقعیت که آزمون فیشر تفاوت ها را نشان نداد نمی تواند قابل بررسی باشد. در نظر گرفته شده است. با این وجود، آزمون t به طور گسترده ای برای تشخیص تفاوت در مقادیر میانگین جمعیت ها استفاده می شود، البته بدون دلیل موجه.

در زیر در نظر گرفته شده است آزمون ناپارامتریک،که با موفقیت برای اهداف مشابه استفاده می شود و نیازی به هیچ کدام ندارد عادی بودن،نه برابری واریانس ها

3.8. مقایسه غیرپارامتری دو نمونه: معیار من ویتنی

آزمون های ناپارامتریک برای تشخیص تفاوت در قوانین توزیع دو جمعیت عمومی طراحی شده اند. معیارهایی که به طور کلی نسبت به تفاوت ها حساس هستند متوسط،معیار نامیده می شود تغییر مکان.معیارهایی که به طور کلی نسبت به تفاوت ها حساس هستند واریانس،معیار نامیده می شود مقیاسمعیار من ویتنی به معیارها اشاره دارد تغییر مکانو برای تشخیص تفاوت در مقادیر میانگین دو جمعیت عمومی استفاده می شود که نمونه هایی از آنها در ارائه شده است مقیاس رتبه ایویژگی های اندازه گیری شده در این مقیاس به ترتیب صعودی قرار می گیرند و سپس با اعداد صحیح 1، 2 شماره گذاری می شوند ... این اعداد نامیده می شوند. رتبه هامقادیر مساوی به همان رتبه ها اختصاص می یابد. اندازه خود ویژگی مهم نیست، بلکه فقط اهمیت دارد مکان ترتیبی،که در میان مقادیر دیگر رتبه بندی می کند.

جدول 3.5. اولین گروه از جدول 3.4 به صورت بسط یافته (ردیف 1) ارائه شده است، در معرض رتبه بندی (جریان 2) قرار می گیرد و سپس رتبه های همان مقادیر با مقادیر میانگین حسابی جایگزین می شوند. به عنوان مثال، به موارد 4 و 4 در ردیف اول رتبه های 2 و 3 داده شد که سپس با همان مقدار 2.5 جایگزین می شوند.

جدول 3.5

فرمول بندی مسئله

نمونه های مستقل (X 1)و (X 2)استخراج شده از جمعیت هایی با قوانین توزیع ناشناخته اندازه های نمونه n 1و n 2به ترتیب. مقادیر عناصر نمونه در ارائه شده است مقیاس رتبه ایمی خواهید بررسی کنید که آیا این جمعیت ها با یکدیگر متفاوت هستند؟

فرضیه های قابل آزمون:

H 0- نمونه ها متعلق به همان جمعیت عمومی هستند. H 1- نمونه ها متعلق به جمعیت های عمومی مختلف هستند.

برای آزمون چنین فرضیه هایی، آزمون (/ -من ویتنی.

ابتدا یک نمونه ترکیبی (X) از دو نمونه ساخته می شود که عناصر آن رتبه بندی شده اند. سپس مجموع رتبه های مربوط به عناصر نمونه اول پیدا می شود. این مقدار ملاک آزمون فرضیه هاست.

U= مجموع رتبه های نمونه اول. (3.11)

برای نمونه های مستقل با حجم بیشتر از 20، مقدار Uاز توزیع نرمال تبعیت می کند که انتظارات ریاضی و انحراف معیار آن برابر است:

بنابراین، مرزهای منطقه بحرانی در جداول توزیع نرمال یافت می شود.

برای مثال ارائه شده در جدول. 3.4، دریافت می کنیم: ν 1 = ν 2 = 20 - 1 = 19، U= 339، μ = 410، σ = 37. برای α = 0.05 به دست می آوریم: هم شیر = 338 و هم سمت راست = 482.

ارزش معیار فراتر از مرز سمت چپ منطقه بحرانی است، بنابراین، فرضیه H 1 پذیرفته می شود: جمعیت های عمومی قوانین توزیع متفاوتی دارند. علاوه بر این، میانگین جمعیت عمومی نمونه اولکوچکتر.

مهمترین مرحله در مطالعه پدیده ها و فرآیندهای اجتماعی-اقتصادی، نظام مند کردن داده های اولیه و به دست آوردن خلاصه ای از مشخصات کل شی با استفاده از شاخص های تعمیم دهنده است که با جمع بندی و گروه بندی مواد اولیه آماری به دست می آید.

خلاصه آماری مجموعه ای از عملیات متوالی برای تعمیم حقایق فردی خاص است که یک مجموعه را تشکیل می دهد، برای شناسایی ویژگی ها و الگوهای معمولی ذاتی در پدیده مورد مطالعه به عنوان یک کل. انجام خلاصه آماری شامل مراحل زیر می باشد :

  • انتخاب یک ویژگی گروه بندی؛
  • تعیین ترتیب تشکیل گروه ها؛
  • توسعه یک سیستم از شاخص های آماری برای توصیف گروه ها و شی به عنوان یک کل؛
  • توسعه طرح بندی جداول آماری برای ارائه نتایج خلاصه.

گروه بندی آماری تقسیم واحدهای جمعیت مورد مطالعه به گروه های همگن با توجه به ویژگی های ضروری خاص برای آنها نامیده می شود. گروه بندی مهمترین روش آماری برای جمع بندی داده های آماری، مبنای محاسبه صحیح شاخص های آماری است.

انواع زیر گروه بندی وجود دارد: گونه شناسی، ساختاری، تحلیلی. همه این گروه بندی ها با این واقعیت متحد می شوند که واحدهای شیء بر اساس معیارهایی به گروه ها تقسیم می شوند.

علامت گروه بندی به صفتی گفته می شود که به وسیله آن تقسیم واحدهای جمعیت به گروه های جداگانه انجام می شود. نتیجه گیری یک مطالعه آماری به انتخاب صحیح یک ویژگی گروه بندی بستگی دارد. به عنوان مبنایی برای گروه بندی، لازم است از ویژگی های اساسی و مبتنی بر نظری (کمی یا کیفی) استفاده شود.

نشانه های کمی گروه بندی دارای عبارت عددی (حجم معاملات، سن فرد، درآمد خانواده و غیره) و نشانه های کیفی گروه بندی منعکس کننده وضعیت یک واحد از کل (جنسیت، وضعیت تأهل، وابستگی صنعتی شرکت، شکل مالکیت آن و غیره).

پس از مشخص شدن مبنای گروه بندی، باید در مورد تعداد گروه هایی که جمعیت مورد مطالعه باید به آنها تقسیم شود، تصمیم گیری شود. تعداد گروه ها به اهداف مطالعه و نوع شاخص زیربنایی گروه بندی، حجم جامعه، درجه تنوع ویژگی بستگی دارد.

به عنوان مثال، گروه بندی شرکت ها بر اساس نوع مالکیت، شهرداری، فدرال و دارایی افراد فدراسیون را در نظر می گیرد. اگر گروه بندی بر اساس کمی انجام شود، لازم است به تعداد واحدهای شی مورد بررسی و درجه تغییرپذیری ویژگی گروه بندی توجه ویژه ای شود.

وقتی تعداد گروه ها مشخص شد، فواصل گروه بندی باید مشخص شود. فاصله - اینها مقادیر یک ویژگی متغیر هستند که در محدوده خاصی قرار دارند. هر بازه مقدار خود را دارد، مرزهای بالا و پایین، یا حداقل یکی از آنها.

مرز پایینی فاصله کوچکترین مقدار مشخصه در بازه و نامیده می شود کران بالا - بزرگترین مقدار ویژگی در بازه زمانی. مقدار بازه تفاوت بین حد بالا و پایین است.

فواصل گروه بندی بسته به اندازه آنها عبارتند از: مساوی و نابرابر. اگر تنوع صفت خود را در مرزهای نسبتاً باریک نشان دهد و توزیع یکنواخت باشد، گروه بندی در فواصل مساوی ساخته می شود. مقدار فاصله مساوی با فرمول زیر تعیین می شود :

که در آن Xmax، Xmin مقادیر حداکثر و حداقل ویژگی در مجموع هستند. n تعداد گروه هاست.

ساده ترین گروه بندی، که در آن هر گروه انتخاب شده با یک شاخص مشخص می شود، یک سری توزیع است.

سری توزیع آماری - این توزیع منظم واحدهای جمعیت به گروه ها با توجه به یک ویژگی خاص است. بسته به ویژگی زیربنایی تشکیل یک سری توزیع، سری های توزیع اسنادی و متغیر متمایز می شوند.

اسنادی سری توزیع را که بر اساس ویژگی های کیفی ساخته شده است، یعنی ویژگی هایی که بیان عددی ندارند (توزیع بر اساس نوع کار، جنسیت، حرفه و غیره) نامیده می شود. سری های توزیع اسنادی ترکیب جمعیت را برای یک یا آن ویژگی اساسی مشخص می کند. این داده ها که در چندین دوره گرفته شده اند، به فرد اجازه می دهد تا تغییر در ساختار را بررسی کند.

سری های متغیر سری های توزیع نامیده می شوند که بر اساس کمی ساخته شده اند. هر سری تغییرات از دو عنصر تشکیل شده است: گزینه ها و فرکانس ها. انواع مقادیر فردی مشخصه که در سری تغییرات می گیرد، یعنی مقدار خاص ویژگی متغیر نامیده می شود.

فرکانس ها تعداد انواع مختلف یا هر گروه از سری تغییرات نامیده می شود، یعنی این اعدادی هستند که نشان می دهند چند وقت یکبار گزینه های خاصی در سری توزیع یافت می شوند. مجموع همه فرکانس ها اندازه کل جمعیت، حجم آن را تعیین می کند. فرکانس ها فرکانس نامیده می شود که در کسری از یک واحد یا به صورت درصدی از کل بیان می شود. بر این اساس، مجموع فرکانس ها 1 یا 100٪ است.

بسته به ماهیت تنوع صفت، سه شکل از سری تغییرات متمایز می شود: یک سری رتبه بندی، یک سری گسسته، و یک سری فاصله.

سری تغییرات رتبه بندی شده - این توزیع تک تک واحدهای جمعیت به ترتیب صعودی یا نزولی صفت مورد مطالعه است. رتبه بندی به شما امکان می دهد داده های کمی را به راحتی به گروه ها تقسیم کنید، بلافاصله کوچک ترین و بزرگترین مقادیر یک ویژگی را پیدا کنید، مقادیری را که اغلب تکرار می شوند برجسته کنید.

سری تغییرات گسسته توزیع واحدهای جمعیت را بر اساس یک ویژگی گسسته که فقط مقادیر صحیح را می گیرد مشخص می کند. به عنوان مثال، دسته دستمزد، تعداد فرزندان خانواده، تعداد کارکنان شرکت و غیره.

اگر یک ویژگی دارای تغییر مداوم است، که در محدوده خاصی می تواند هر مقداری را بگیرد ("از - به")، پس برای این ویژگی باید بسازید سری تغییرات بازه ای ... به عنوان مثال، میزان درآمد، سابقه کار، هزینه دارایی های ثابت شرکت و غیره.

نمونه هایی از حل مسائل با موضوع "خلاصه آماری و گروه بندی"

مشکل 1 ... اطلاعاتی در مورد تعداد کتاب های دریافت شده توسط دانش آموزان با اشتراک در سال تحصیلی گذشته وجود دارد.

یک سری توزیع متغیر رتبه بندی شده و گسسته بسازید و عناصر سری را مشخص کنید.

راه حل

این مجموعه گزینه های زیادی را برای تعداد کتاب های دریافتی دانش آموزان نشان می دهد. بیایید تعداد چنین گزینه هایی را بشماریم و آنها را به صورت سری های توزیع گسسته متغیر و متغیر مرتب کنیم.

مشکل 2 ... داده هایی در مورد هزینه دارایی های ثابت برای 50 شرکت، هزار روبل وجود دارد.

مجموعه ای از توزیع ها را بسازید و 5 گروه از شرکت ها را برجسته کنید (در فواصل مساوی).

راه حل

برای راه حل، ما بزرگترین و کوچکترین مقادیر هزینه دارایی های ثابت شرکت ها را انتخاب خواهیم کرد. اینها 30.0 و 10.2 هزار روبل هستند.

بیایید اندازه فاصله را پیدا کنیم: h = (30.0-10.2): 5 = 3.96 هزار روبل.

سپس گروه اول شامل شرکت هایی با دارایی های ثابت از 10.2 هزار روبل می شود. تا 10.2 + 3.96 = 14.16 هزار روبل. 9 شرکت وجود خواهد داشت. گروه دوم شامل شرکت هایی است که اندازه دارایی های ثابت آنها از 14.16 هزار روبل خواهد بود. تا 14.16 + 3.96 = 18.12 هزار روبل. 16 بنگاه از این دست وجود خواهد داشت و به همین ترتیب، تعداد بنگاه های موجود در گروه های سوم، چهارم و پنجم را خواهیم یافت.

سری توزیع حاصل در جدول قرار داده شده است.

مشکل 3 ... برای تعدادی از شرکت های صنعت سبک، داده های زیر به دست آمد:

شرکت ها را بر اساس تعداد کارگران گروه بندی کنید و 6 گروه را در فواصل مساوی تشکیل دهید. برای هر گروه بشمارید:

1-تعداد شرکت ها
2-تعداد کارگران
3. حجم محصولات تولید شده در سال
4. میانگین بازده واقعی یک کارگر
5. حجم دارایی های ثابت
6. اندازه متوسط ​​دارایی های ثابت یک شرکت
7. میانگین ارزش محصولات تولید شده توسط یک شرکت

نتایج محاسبات را در جداول پر کنید. نتیجه گیری.

راه حل

برای راه حل، ما بزرگترین و کوچکترین مقادیر میانگین تعداد کارگران شرکت را انتخاب می کنیم. اینها 43 و 256 هستند.

اندازه فاصله را بیابید: h = (256-43): 6 = 35.5

سپس گروه اول شامل شرکت هایی می شود که میانگین تعداد کارگران آنها از 43 تا 43 + 35.5 = 78.5 نفر است. از این دست 5 شرکت وجود خواهد داشت.گروه دوم شامل بنگاه هایی است که میانگین تعداد کارگران آنها از 78.5 تا 78.5 + 35.5 = 114 نفر خواهد بود. از این دست 12 بنگاه وجود خواهد داشت و به همین ترتیب تعداد بنگاه های موجود در گروه های سوم، چهارم، پنجم و ششم را خواهیم یافت.

مجموعه توزیع حاصل را در جدول قرار می دهیم و شاخص های لازم را برای هر گروه محاسبه می کنیم:

خروجی : همانطور که از جدول مشخص است، گروه دوم بنگاه ها بیشترین تعداد را دارند. شامل 12 شرکت است. کوچکترین گروه پنجم و ششم (هر کدام دو شرکت) هستند. اینها بزرگترین شرکتها (از نظر تعداد کارگران) هستند.

از آنجایی که گروه دوم بیشترین تعداد را دارد، حجم محصولات تولیدی در سال توسط بنگاه های این گروه و حجم دارایی های ثابت به طور قابل توجهی بیشتر از سایرین است. در عین حال، میانگین تولید واقعی یک کارگر در شرکت های این گروه بالاترین نیست. در اینجا شرکت های گروه چهارم پیشتاز هستند. این گروه همچنین دارای مقدار نسبتاً زیادی از دارایی های ثابت است.

در نتیجه، ما متذکر می شویم که میانگین اندازه دارایی های ثابت و میانگین ارزش خروجی یک شرکت به طور مستقیم با اندازه شرکت (با تعداد کارگران) متناسب است.

کار آزمایشگاهی شماره 1

با آمار ریاضی

موضوع: پردازش اولیه داده های تجربی

3. امتیاز بگیرید. 1

5. سوالات کنترلی .. 2

6. روش انجام کارهای آزمایشگاهی .. 3

هدف از کار

کسب مهارت در پردازش اولیه داده های تجربی با روش های آمار ریاضی.

بر اساس مجموع داده های تجربی، وظایف زیر را انجام دهید:

تمرین 1.یک سری تغییرات بازه ای از توزیع بسازید.

وظیفه 2.یک هیستوگرام از فرکانس های سری تغییرات بازه ای بسازید.

وظیفه 3.یک تابع توزیع تجربی ترسیم کنید و یک نمودار بسازید.

الف) مد و میانه؛

ب) لحظات اولیه مشروط؛

ج) میانگین نمونه؛

د) واریانس نمونه، واریانس اصلاح شده جمعیت عمومی، انحراف معیار اصلاح شده.

ه) ضریب تغییرات.

و) عدم تقارن؛

ز) زیاده روی

وظیفه 5.مرزهای مقادیر واقعی ویژگی های عددی متغیر تصادفی مورد مطالعه را با پایایی معین تعیین کنید.

وظیفه 6.تفسیر اساسی از نتایج پردازش اولیه با توجه به شرایط مشکل.

امتیاز در امتیاز

ماموریت های 1-56 امتیاز

تکلیف 62 امتیاز

حفاظت از کارهای آزمایشگاهی(مصاحبه شفاهی در مورد سوالات کنترل و کارهای آزمایشگاهی) - 2 امتیاز

اثر باید به صورت کتبی در برگه های A4 ارسال شود و شامل موارد زیر باشد:

1) صفحه عنوان (پیوست 1)

2) داده های اولیه

3) ارائه کار طبق نمونه مشخص شده.

4) نتایج محاسبه (به صورت دستی و / یا با استفاده از MS Excel انجام می شود) به ترتیب مشخص شده.

5) نتیجه گیری - تفسیر معنادار از نتایج پردازش اولیه با توجه به شرایط مشکل.

6) مصاحبه شفاهی در مورد سوالات کار و آزمون.



5. کنترل سوالات


تکنیک کار آزمایشگاهی

وظیفه 1. یک سری تغییرات بازه ای توزیع بسازید

برای اینکه داده های آماری در قالب یک سری متغیر با گزینه های مساوی ارائه شوند، لازم است:

1. کوچکترین و بزرگترین مقادیر را در جدول داده اصلی پیدا کنید.

2. تعریف کنید محدوده تنوع :

3. طول بازه h را تعیین کنید، اگر نمونه حاوی حداکثر 1000 داده باشد، از فرمول استفاده کنید: ، که در آن n اندازه نمونه است - مقدار داده در نمونه. lgn برای محاسبات استفاده می شود).

نسبت محاسبه شده به گرد می شود مقدار صحیح مناسب .

4. شروع اولین بازه را برای تعداد زوج فواصل تعیین کنید توصیه می شود مقدار را بگیرید. و برای تعداد فرد فواصل.

5. فواصل گروه بندی را بنویسید و آنها را به ترتیب صعودی مرزها مرتب کنید

, ,………., ,

مرز پایینی فاصله اول کجاست. یک عدد مناسب گرفته می شود، نه بیشتر، حد بالایی آخرین بازه نباید کمتر باشد. توصیه می شود که بازه ها حاوی مقادیر اولیه متغیر تصادفی و جدا از 5 تا 20فواصل

6. داده های اولیه را در فواصل گروه بندی ها ثبت کنید، یعنی. تعداد مقادیر متغیر تصادفی در فواصل مشخص شده را مطابق جدول اصلی محاسبه کنید. اگر برخی از مقادیر با مرزهای فواصل منطبق باشند، سپس آنها فقط به قبلی یا فقط به بازه بعدی ارجاع می شوند.

تبصره 1.لازم نیست فواصل از نظر طول برابر باشند. در مناطقی که مقادیر متراکم تر هستند، گرفتن فواصل کوچکتر و کوتاهتر راحت تر است و در جاهایی که کمتر، فواصل بزرگتر دارند.

تبصره 2اگر برای برخی از مقادیر "صفر" یا مقادیر کوچکی از فرکانس ها به دست آمد، باید داده ها را مجدداً گروه بندی کرد و فواصل زمانی را افزایش داد (افزایش گام).