Основни термини и понятия на медицинската статистика. Оценка на достоверността на резултатите от статистическо изследване

НАДЕЖДНОСТ СТАТИСТИЧЕСКИ

- Английскидостоверност / валидност, статистически; Немски Validitat, statistische. Последователност, обективност и липса на неяснота в статистическия тест или в К.-Л. набор от измервания. Д. с. може да бъде проверено чрез повтаряне на същия тест (или въпросник) по същия предмет, за да се види дали ще бъдат получени същите резултати; или чрез сравняване на различни части от тест, за които се предполага, че измерват един и същ обект.

антинаци. Енциклопедия по социология, 2009

Вижте какво е "СТАТИСТИЧЕСКА НАДЕЖДНОСТ" в други речници:

    НАДЕЖДНОСТ СТАТИСТИЧЕСКИ- Английски. достоверност / валидност, статистически; Немски Validitat, statistische. Последователност, обективност и липса на неяснота в статистическия тест или в К.Л. набор от измервания. Д. с. може да се провери чрез повторение на същия тест (или ... ... Речникв социологията

    В статистиката стойност се нарича статистически значима, ако вероятността за нейното случайно възникване или дори по-екстремни стойности е малка. Тук под екстремум се разбира степента на отклонение на тестовата статистика от нулевата хипотеза. Разликата се нарича ... ... Wikipedia

    Физическият феномен на статистическата стабилност е, че с увеличаване на размера на извадката честотата на случайно събитие или средната стойност на физическо количество клони към определено фиксирано число. Феноменът на статистическата ... ... Уикипедия

    ВАЛИДНОСТ НА РАЗЛИКАТА (Прилика)- аналитично-статистическа процедура за установяване нивото на значимост на разликите или приликите между извадките за изследваните показатели (променливи) ... Модерен учебен процес: основни понятия и термини

    ОТЧЕТНА, СТАТИСТИЧЕСКА Голям счетоводен речник

    ОТЧЕТНА, СТАТИСТИЧЕСКА- форма на държавно статистическо наблюдение, при която съответните органи получават от предприятия (организации и институции) необходимата им информация под формата на нормативни отчетни документи (статистически отчети) за ... Голям речник по икономика

    Науката за изучаване на техниките за систематично наблюдение на масови явления социален животлице, съставяне на техните числени описания и научна обработка на тези описания. И така, теоретичната статистика е наука ... ... енциклопедичен речникФ. Брокхаус и И.А. Ефрон

    Коефициент на корелация- (Коефициент на корелация) Коефициентът на корелация е статистически показател за зависимостта на две случайни променливиОпределяне на коефициента на корелация, видове корелационни коефициенти, свойства на коефициента на корелация, изчисляване и приложение ... ... Инвеститорска енциклопедия

    Статистика- (Статистика) Статистиката е обща теоретична наука, която изучава количествените изменения в явленията и процесите. Държавна статистика, статистически услуги, Росстат (Госкомстат), статистически данни, статистика на заявки, статистика на продажбите, ... ... Инвеститорска енциклопедия

    Корелация- (Корелация) Корелацията е статистическа връзка на две или повече случайни променливи Концепцията за корелация, видове корелация, коефициент на корелация, корелационен анализ, ценова корелация, корелация на валутни двойки на Forex Съдържание ... ... Инвеститорска енциклопедия

Книги

  • Изследвания по математика и математика в изследванията: Методически сборник за изследователската дейност на студентите, В. И. Борзенко. методически разработкиприложими в организацията изследователска дейностстуденти. Първата част от сборника е посветена на приложението на изследователския подход в...

Статистическата значимост на даден резултат (p-стойност) е приблизителна мярка за доверие в неговата „истина“ (в смисъл на „представителност на извадката“). По-технически, p-стойността е показател, който намалява с надеждността на резултата. По-висока p-стойност съответства на по-ниско ниво на доверие в зависимостта между променливите, открити в извадката. А именно, p-стойността е вероятността от грешка, свързана с разпространението на наблюдавания резултат към цялата съвкупност. Например, p-стойност от 0,05 (т.е. 1/20) показва, че има 5% шанс връзката, открита в извадката между променливите, да е просто произволна характеристика на извадката. С други думи, ако тази зависимост в популацията отсъства и бихте провеждали подобни експерименти много пъти, тогава при около едно от всеки двадесет повторения на експеримента може да се очаква същата или по-силна зависимост между променливите.

В много проучвания p-стойност от 0,05 се счита за „приемлива граница“ на нивото на грешка.

Няма начин да се избегне произвол при вземането на решение кое ниво на значимост наистина трябва да се счита за „значително“. Изборът на определено ниво на значимост, над което резултатите се отхвърлят като неверни, е доста произволен. На практика крайното решение обикновено зависи от това дали резултатът е бил предсказан априори (т.е. преди експеримента) или е открит апостериорно в резултат на много анализи и сравнения, извършени върху голям брой данни, както и от традицията в дадена област на изследване. Като цяло, в много области резултатът p0,05 е приемлива граница за статистическа значимост, но трябва да се помни, че това ниво все още включва доста висока вероятност от грешка (5%). Резултатите, значими на ниво p 0,01, обикновено се считат за статистически значими, а резултатите с p ниво от 0,005 или p 0,001 като високо значими. Трябва обаче да се разбере, че тази класификация на нивата на значимост е доста произволна и е просто неформално споразумение, прието въз основа на практически опит в определена област на изследване.

Както вече споменахме, степента на зависимост и надеждност са две различни характеристикизависимости между променливите. Не може обаче да се каже, че са напълно независими. Най-общо казано, колкото по-голяма е стойността на връзката (връзката) между променливите в извадка с обикновен размер, толкова по-надеждна е тя.

Ако приемем, че няма връзка между съответните променливи в популацията, тогава е най-вероятно да се очаква, че няма да има връзка между тези променливи в изследваната извадка. Следователно, колкото по-силна е връзката в извадката, толкова по-малко е вероятно тази връзка да не е в популацията, от която е извлечена.


Размерът на извадката влияе върху значимостта на връзката. Ако има малко наблюдения, тогава има съответно малко възможни комбинации от стойностите на тези променливи и по този начин вероятността случайно да се открие комбинация от стойности, показващи силна зависимост, е относително висока.

Как се изчислява нивото на статистическа значимост. Да предположим, че вече сте изчислили мярката на връзката между две променливи (както е обяснено по-горе). Следващият въпрос пред вас е "колко значима е тази зависимост?" Например, достатъчни ли са 40% от обяснената дисперсия между двете променливи, за да направи връзката значима? Отговор: "както е подходящо". А именно, значимостта зависи главно от размера на извадката. Както вече беше обяснено, в много големи извадки дори много слабите връзки между променливите ще бъдат значими, докато в малките извадки дори много силните връзки не са надеждни. По този начин, за да определите нивото на статистическа значимост, имате нужда от функция, която представлява връзката между „величина“ и „значимостта“ на връзката между променливите за всеки размер на извадката. Тази функция ще ви каже точно „колко вероятно е да получите зависимост от дадена стойност (или повече) в извадка с даден размер, ако приемем, че няма такава зависимост в популацията“. С други думи, тази функция ще даде нивото на значимост (p-стойност) и следователно вероятността да се отхвърли погрешно предположението, че тази връзка не е в популацията. Тази "алтернативна" хипотеза (която е, че няма зависимост в популацията) обикновено се нарича нулева хипотеза. Би било идеално, ако функцията, която изчислява вероятността за грешка, е линейна и има различни наклони само за различни размери на извадката. За съжаление тази функция е много по-сложна и не винаги е една и съща. Въпреки това, в повечето случаи формата му е известна и може да се използва за определяне на нивата на значимост при изследване на проби с даден размер. Повечето от тези характеристики са свързани с много важен класразпределения, наречени нормални.

Изследването обикновено започва с някакво предположение, което изисква проверка с помощта на факти. Това предположение - хипотеза - се формулира във връзка с връзката на явления или свойства в определен набор от обекти.

За тестване на такива предположения върху факти е необходимо да се измерят съответните свойства на техните носители. Но е невъзможно да се измери тревожността при всички жени и мъже, както е невъзможно да се измери агресивността при всички подрастващи. Следователно, когато провеждат изследвания, те се ограничават само до относително малка група от представители на съответните популации от хора.

Общо население- това е цялата съвкупност от обекти, по отношение на които се формулира изследователска хипотеза.

Например всички мъже; или всички жени; или всички жители на града. Общата популация, по отношение на която изследователят ще прави заключения въз основа на резултатите от изследването, може да бъде по-скромна като брой, например всички първокласници на дадено училище.

Така общата популация е, макар и не безкрайна на брой, но като правило недостъпна за непрекъснато изследване, множество потенциални субекти.

Проба или проба- това е група обекти, ограничени по брой (в психологията - субекти, респонденти), специално подбрани от общата популация за изследване на нейните свойства. Съответно се нарича изследването върху извадка от свойствата на генералната съвкупност селективни изследвания. Почти всички психологически изследванияса селективни и техните констатации се отнасят за популациите.

По този начин, след като хипотезата е формулирана и се определят съответните генерални съвкупности, изследователят се изправя пред проблема за организиране на извадката. Извадката трябва да бъде такава, че да е обосновано обобщаването на изводите от извадковото изследване – обобщение, разпределението им към генералната съвкупност. Основните критерии за валидност на заключенията от изследванетотова е представителността на извадката и статистическата надеждност на (емпиричните) резултати.

Представителност на извадката- с други думи, нейната представителност е способността на извадката да представя изследваните явления доста пълно - от гледна точка на тяхната вариабилност в генералната съвкупност.

Разбира се, само общата популация може да даде пълна картина на изследваното явление, в целия му диапазон и нюанси на изменчивост. Следователно представителността винаги е ограничена до степента, в която извадката е ограничена. И именно представителността на извадката е основният критерий при определяне на границите на обобщаване на резултатите от изследването. Въпреки това има техники, които ви позволяват да получите достатъчна представителност на извадката за изследователя (Тези техники се изучават в курса "Експериментална психология").


Първата и основна техника е проста произволна извадка. Това включва гарантиране, че всеки член от общата съвкупност има равен шанс да бъде включен в извадката. Случайният подбор гарантира, че най-разнообразните представители на общата съвкупност могат да бъдат включени в извадката. В този случай се вземат специални мерки, за да се изключи появата на какъвто и да е модел в селекцията. И това ни позволява да се надяваме, че в крайна сметка в извадката изследваното свойство ще бъде представено, ако не във всичко, то в максималното си възможно разнообразие.

Вторият начин за осигуряване на представителност е стратифициран произволен подбор или подбор според свойствата на общата съвкупност. Предполага предварително определяне на онези качества, които могат да повлияят на променливостта на изследваното имущество (това може да бъде пол, ниво на доходи или образование и др.). След това се определя процентът от броя на групите (стратите), които се различават по тези качества в генералната съвкупност и се предоставя идентичен процент на съответните групи в извадката. Освен това, във всяка подгрупа от извадката, субектите се подбират на принципа на прост случаен подбор.

Статистическа надеждност,или статистическа значимост, резултатите от изследването се определят с помощта на методите на статистически извод.

Застраховани ли сме от грешки при вземане на решения, с определени изводи от резултатите от изследването? Разбира се, че не. В крайна сметка нашите решения се основават на резултатите от изследването на извадковата съвкупност, както и на нивото на нашите психологически познания. Не сме напълно имунизирани от грешки. В статистиката такива грешки се считат за допустими, ако се появяват не по-често от един случай от 1000 (вероятността за грешка е α = 0,001 или свързаната стойност на доверителната вероятност за правилно заключение е p = 0,999); в един случай от 100 (вероятността за грешка α = 0,01 или свързаната стойност на вероятността на доверие за правилно заключение p = 0,99) или в пет случая от 100 (вероятността за грешка α = 0,05 или свързаната стойност на доверителна вероятност за правилен изход p = 0,95). Именно на последните две нива се вземат решения в психологията.

Понякога се говори за статистическа валидност, използвайте понятието "ниво на значимост" (означено като α). Числовите стойности на p и α се допълват взаимно до 1000 - пълен набор от събития: или направихме правилното заключение, или сме се объркали. Тези нива не се изчисляват, те се задават. Нивото на значимост може да се разбира като вид "червена" линия", пресичането на която ще позволи да се говори за това събитие като неслучайно. Във всеки компетентен научен доклад или публикация направените заключения трябва да бъдат придружени от посочване на стойностите на p или α, при които са направени заключенията.

Методите на статистически извод са разгледани подробно в курса " Математическа статистика". Засега само отбелязваме, че поставят определени изисквания за броя, или размер на извадката.

За съжаление няма строги указания за предварително определяне на необходимия размер на извадката. Освен това изследователят обикновено получава отговора на въпроса за необходимия и достатъчен брой от него твърде късно – едва след анализиране на данните от вече изследваната извадка. Въпреки това могат да се формулират най-общите препоръки:

1. При разработване на диагностична техника се изисква най-голям размер на извадката - от 200 до 1000-2500 души.

2. Ако е необходимо да се сравнят 2 проби, общият им брой трябва да бъде най-малко 50 души; броят на сравняваните проби трябва да бъде приблизително еднакъв.

3. Ако се изследва връзката между някои свойства, тогава размерът на извадката трябва да бъде най-малко 30-35 души.

4. Колкото повече променливостизследваното свойство, толкова по-голям трябва да бъде размерът на извадката. Следователно вариабилността може да бъде намалена чрез увеличаване на хомогенността на извадката, например по пол, възраст и т.н. Това, естествено, намалява възможностите за обобщаване на изводите.

Зависими и независими проби.Типична изследователска ситуация е, когато дадено свойство, което представлява интерес за изследовател, се изследва върху две или повече проби с цел по-нататъшното им сравнение. Тези проби могат да бъдат в различни пропорции - в зависимост от процедурата за тяхното организиране. Независими проби характеризиращ се с факта, че вероятността за избор на субект от една извадка не зависи от избора на някой от субектите от друга извадка. срещу, зависими пробихарактеризиращ се с това, че на всеки субект от една извадка се приписва субект от друга извадка по определен критерий.

V общ случайзависимите проби предполагат подбор по двойки на субекти в сравняваните извадки, а независимите проби - независим подбор на субекти.

Трябва да се отбележи, че случаите на „частично зависими“ (или „частично независими“) проби са неприемливи: това нарушава тяхната представителност по непредсказуем начин.

В заключение отбелязваме, че могат да се разграничат две парадигми на психологическото изследване.

Т.нар R-методологиявключва изследване на променливостта на някакво свойство (психологическо) под влияние на някакво влияние, фактор или друго свойство. Извадката е множество от субекти.

Друг подход, Q-методология,включва изследване на променливостта на субекта (индивида) под въздействието на различни стимули (условия, ситуации и др.). Съответства на ситуацията, когато извадката е набор от стимули.

Статистиката отдавна е неразделна част от живота. Хората я срещат навсякъде. Въз основа на статистически данни се правят заключения за това къде и какви заболявания са често срещани, какво е по-търсено в определен регион или сред определен сегмент от населението. Дори изграждането на политически програми на кандидатите за държавни органи се основава на. Те се използват и от търговските вериги при закупуване на стоки и производителите се ръководят от тези данни в своите оферти.

Статистиката се играе важна роляв живота на обществото и засяга всеки негов отделен член, дори в малки неща. Например, ако повечето хора предпочитат тъмните цветове в дрехите в определен град или регион, тогава ще бъде изключително трудно да намерите ярко жълт дъждобран с флорален принт в местните търговски обекти. Но какви количества събират тези данни, които имат такова въздействие? Например, какво е „статистическа значимост“? Какво точно се има предвид под това определение?

Какво е това?

Статистиката като наука се състои от комбинация от различни ценности и концепции. Едно от тях е понятието "статистическа значимост". Това е името на стойността на променливите, вероятността от появата на други показатели в които е незначителна.

Например, 9 от 10 души си обуват гумени обувки при сутрешните си разходки за гъби есенна гораслед дъждовна нощ. Вероятността в един момент 8 от тях да бъдат увити в платнени мокасини е незначителна. Така, в това конкретен примерчислото 9 е величина, която се нарича "статистическа значимост".

Съответно, ако доразвием даденото практически пример, магазините за обувки купуват гумени ботуши в по-големи количества към края на летния сезон, отколкото през друго време на годината. По този начин величината на статистическата стойност оказва влияние върху обикновения живот.

Разбира се, сложните изчисления, например, при прогнозиране на разпространението на вируси, вземат предвид голям брой променливи. Но самата същност на дефинирането на значим индикатор от статистически данни е една и съща, независимо от сложността на изчисленията и броя на променливите стойности.

Как се изчислява?

Използва се при изчисляване на стойността на индикатора "статистическа значимост" на уравнение. Тоест може да се твърди, че в този случай всичко се решава от математиката. Повечето прост вариантизчислението е верига от математически операции, в която участват следните параметри:

  • два вида резултати, получени от проучвания или изследване на обективни данни, например сумите, за които се извършват покупки, обозначени с a и b;
  • индикатор за двете групи - n;
  • стойността на дела от комбинираната извадка - р;
  • концепцията " стандартна грешка"- SE.

Следващата стъпка е да се определи общият тестов индикатор - t, стойността му се сравнява с числото 1,96. 1,96 е осреднената стойност, която предава диапазон от 95%, според функцията на t-разпределение на Студент.

Често възниква въпросът каква е разликата между стойностите на n и p. Този нюанс е лесно да се изясни с пример. Да приемем, че изчислявате статистическата значимост на лоялността към конкретен продукт или марка на мъже и жени.

В този случай зад буквите ще стоят следните:

  • n е броят на респондентите;
  • p е броят на хората, които са доволни от продукта.

Броят на интервюираните жени в този случай ще бъде обозначен като n1. Съответно има n2 мъже. Цифрите "1" и "2" в символа p ще имат същото значение.

Сравнението на тестовия индикатор със осреднените стойности на изчислителните таблици на Студент става това, което се нарича "статистическа значимост".

Какво е проверка?

Резултатите от всяко математическо изчисление винаги могат да бъдат проверени, това се преподава на децата в началните класове. Логично е да се предположи, че тъй като статистическите показатели се определят с помощта на верига от изчисления, те се проверяват.

Тестването на статистическата значимост обаче не е само математика. Статистиката се занимава с голямо количествопроменливи и различни вероятности, които далеч не винаги са податливи на изчисление. Тоест, ако се върнем към примера с гумени обувки, даден в началото на статията, тогава логичното изграждане на статистически данни, на които ще разчитат купувачите на стоки за магазини, може да бъде нарушено от сухо и горещо време, което не е характерно за есента. В резултат на това явление броят на хората, които придобиват гумени ботуши, ще намалее и търговски обектипонасят загуби. Математическата формула, разбира се, не е в състояние да предскаже метеорологична аномалия. Този момент се нарича - "грешка".

Точно вероятността от такива грешки се отчита при проверката на изчисленото ниво на значимост. В него се вземат предвид както изчислените показатели, така и приетите нива на значимост, както и стойностите, условно наречени хипотези.

Какво е ниво на значимост?

Понятието "ниво" е включено в основните критерии за статистическа значимост. Използва се в приложната и практическа статистика. Това е вид стойност, която отчита вероятността от възможни отклонения или грешки.

Нивото се основава на идентифициране на разликите в готови проби, ви позволява да установите тяхната значимост или, обратно, случайност. Тази концепция има не само цифрови значения, но и техния вид декодиране. Те обясняват как да се разбере стойността, а самото ниво се определя чрез сравняване на резултата със средния индекс и това разкрива степента на надеждност на разликите.

По този начин е възможно да се представи понятието ниво просто - то е индикатор за допустимата, вероятна грешка или грешка в изводите, направени от получените статистически данни.

Какви нива на значимост се използват?

Статистическата значимост на коефициентите на вероятността за грешка, допусната на практика, започва от три основни нива.

Първото ниво е прагът, при който стойността е 5%. Тоест, вероятността от грешка не надвишава 5% ниво на значимост. Това означава, че има 95% увереност в безупречността и непогрешимостта на изводите, направени от данните от статистическите изследвания.

Второто ниво е прагът от 1%. Съответно тази цифра означава, че е възможно да се ръководим от данните, получени при статистически изчисления с увереност от 99%.

Третото ниво е 0,1%. С тази стойност вероятността от грешка е равна на част от процента, тоест грешките са практически изключени.

Какво е хипотеза в статистиката?

Грешките като концепция са разделени в две посоки, касаещи приемането или отхвърлянето на нулевата хипотеза. Хипотезата е понятие, зад което според дефиницията се крие набор от други данни или твърдения. Тоест описание на вероятностното разпределение на нещо, свързано с предмета на статистическото счетоводство.

Има две хипотези за прости изчисления - нулева и алтернативна. Разликата между тях е, че нулевата хипотеза се основава на идеята, че няма фундаментални разлики между извадките, участващи в определянето на статистическата значимост, а алтернативата е напълно противоположна на нея. Тоест алтернативната хипотеза се основава на наличието на значителна разлика в данните на пробите.

Какви са грешките?

Грешките като понятие в статистиката са правопропорционални на приемането на тази или онази хипотеза за вярна. Те могат да бъдат разделени на две направления или вида:

  • първият вид се дължи на приемането на нулева хипотеза, която се оказа неправилна;
  • второто е причинено от следване на алтернативата.

Първият тип грешки се наричат ​​фалшиво положителни и се срещат доста често във всички области, където се използва статистика. Съответно вторият тип грешка се нарича фалшиво отрицателен.

За какво е регресията в статистиката?

Статистическата значимост на регресията е, че тя може да се използва, за да се установи доколко реалистичен моделът на различни зависимости, изчислен на базата на данни, съответства на реалността; ви позволява да идентифицирате достатъчността или липсата на фактори за отчитане и заключения.

Регресивната стойност се определя чрез сравняване на резултатите с данните, изброени в таблиците на Фишер. Или с помощта на анализ на дисперсията. Регресионните индикатори са важни в сложните статистически изследвания и изчисления, които включват голям брой променливи, случайни данни и вероятни промени.

Днес наистина е твърде лесно: можете да отидете до компютъра и с малко или никакво познание за това, което правите, да създавате чувства и глупости с наистина невероятна скорост. (J. Box)

Основни термини и понятия на медицинската статистика

В тази статия представяме някои от ключовите статистически концепции, които са от значение в медицинските изследвания. По-подробно термините са разбрани в съответните статии.

Вариация

Определение.Степента на разсейване на данните (стойности на характеристиките) в диапазона от стойности

Вероятност

Определение... Вероятност - степента на възможност за определено събитие при определени условия.

Пример. Нека обясним дефиницията на термина в изречението „Вероятността за възстановяване при използване лекарствен продуктАримидекс е 70%". Събитието е "възстановяване на пациента", състоянието "пациентът приема Аримидекс", степента на възможност - 70% (грубо казано, от 100 души, приемащи Аримидекс, 70 се възстановяват).

Кумулативна вероятност

Определение.Кумулативната вероятност за оцеляване в момент t е същата като дела на пациентите, които са оцелели по това време.

Пример. Ако се каже, че кумулативната вероятност за оцеляване след петгодишен курс на лечение е 0,7, това означава, че от разглежданата група пациенти 70% от първоначалния брой са останали живи, а 30% са починали. С други думи, от всеки сто души 30 умират през първите 5 години.

Време преди събитието

Определение.Времето преди събитие е времето, изразено в някои единици, което е изминало от някакъв начален момент до настъпване на някакво събитие.

Обяснение. Като единици за време в медицински изследваниясе появяват дни, месеци и години.

Типични примери за начални точки във времето:

    започване на проследяване на пациента

    хирургично лечение

Типични примери за въпросните събития:

    прогресия на заболяването

    рецидив

    смърт на пациента

Проба

Определение.Част от популацията, получена чрез селекция.

Въз основа на резултатите от анализа на извадката се правят заключения за цялата съвкупност, което е легитимно само ако подборът е случаен. Тъй като е практически невъзможно да се подбере произволно от популацията, целта трябва да бъде да се гарантира, че извадката е поне представителна за съвкупността.

Зависими и независими проби

Определение.Извадки, в които обектите на изследване са наети независимо един от друг. Алтернативен независими проби- зависими (свързани, сдвоени) извадки.

Хипотеза

Двустранни и едностранни хипотези

Първо, нека обясним използването на термина хипотеза в статистиката.

Целта на повечето изследвания е да се тества истинността на дадено твърдение. Целта на тестването на наркотици най-често е да се тества хипотезата, че едно лекарство е по-ефективно от друго (например Аримидекс е по-ефективен от Тамоксифен).

За да се предаде строгостта на изследването, тестируемото твърдение е изразено математически. Например, ако А е броят на годините, през които ще живее пациентът, приемащ Аримидекс, а Т е броят на годините, през които ще живее пациентът, приемащ Тамоксифен, тогава хипотезата, която се тества, може да бъде написана като A>T.

Определение.Хипотезата се нарича двустранна, ако се състои от две равни стойности.

Пример за двустранна хипотеза: A = T.

Определение. Една хипотеза се нарича едностранна, ако се състои от две неравенства.

Примери за едностранни хипотези:

Дихотомични (двоични) данни

Определение.Данните са изразени само с две валидни алтернативни стойности

Пример: Пациентът е "здрав" - "болен". Отокът "е" - "не".

Доверителен интервал

Определение.Доверителният интервал за дадено количество е диапазонът около стойността на количеството, в което истински смисълтази стойност (с определено ниво на увереност).

Пример. Нека изследваното количество е броят на пациентите на година. Средно техният брой е 500, а 95% - доверителен интервал- (350, 900). Това означава, че най-вероятно (с 95% вероятност) най-малко 350 и не повече от 900 души ще посетят клиниката през годината.

Обозначаване. Използва се много често срещано съкращение: 95% CI (95% CI) е доверителният интервал с 95% ниво на доверие.

Надеждност, статистическа значимост (P - ниво)

Определение.Статистическата значимост на даден резултат е мярка за увереност в неговата "истина".

Всяко изследване се извършва само на базата на част от обектите. Изследването на ефективността на даден лекарствен продукт се извършва въз основа не на всички пациенти на планетата, а само на определена група пациенти (просто е невъзможно да се направи анализ на базата на всички пациенти).

Да предположим, че в резултат на анализа е направено някакво заключение (например, използването на лекарството Arimidex като адекватна терапия е 2 пъти по-ефективно от лекарството Tamoxifen).

Въпросът, който трябва да се зададе в този случай: "Колко можете да се доверите на този резултат?"

Представете си, че правим проучване само с двама пациенти. Разбира се, в този случай към резултатите трябва да се отнасяме с опасение. Ако са били изследвани голям брой пациенти (числовата стойност " Голям брой„Зависи от ситуацията), тогава вече може да се вярва на направените заключения.

Така че степента на доверие се определя от p-стойността.

По-високо р-ниво съответства на по-ниско ниво на доверие в резултатите, получени от анализа на пробата. Например р-ниво, равно на 0,05 (5%), показва, че заключението, направено при анализа на определена група, е само случайна характеристика на тези обекти с вероятност само 5%.

С други думи, има много голяма вероятност (95%) изходът да бъде разширен до всички обекти.

В много проучвания 5% се счита за приемлива р-стойност. Това означава, че ако, например, p = 0,01, тогава на резултатите може да се вярва, но ако p = 0,06, тогава е невъзможно.

Проучване

Проспективно проучванее изследване, при което пробите се разпределят на базата на начален фактор и в пробите се анализира някакъв резултатен фактор.

Ретроспективно изследванее изследване, при което пробите се разпределят на базата на резултатен фактор и в пробите се анализира някакъв начален фактор.

Пример. Изходният фактор е бременна жена по-млада/по-възрастна от 20 години. Полученият фактор е дете по-леко/по-тежко от 2,5 кг. Анализираме дали теглото на детето зависи от възрастта на майката.

Ако съберем 2 проби, в едната - майки под 20 години, в другата - по-големи и след това анализираме масата на децата във всяка група, тогава това е проспективно изследване.

Ако съберем 2 проби, в едната - майки, които са родили деца по-леки от 2,5 кг, в другия - по-тежки и след това анализираме възрастта на майките във всяка група, тогава това е ретроспективно проучване(Естествено, такова изследване може да се проведе само когато експериментът приключи, т.е. всички деца са родени).

Изход

Определение.Клинично значимо събитие, лабораторен параметър или черта, която представлява интерес за изследовател. В клиничните изпитвания резултатите служат като критерии за оценка на ефективността на терапевтична или профилактична интервенция.

Клинична епидемиология

Определение.Наука, която позволява да се предвиди конкретен резултат за всеки конкретен пациент въз основа на изследване на клиничния ход на заболяването в подобни случаи, като се използват стриктни научни методиизследване на пациенти, за да се гарантира точността на прогнозите.

Кохорта

Определение.Група участници в изследването, обединени от някаква обща черта към момента на своето формиране и изучавани в продължение на дълъг период от време.

Контрол

Исторически контрол

Определение.Контролната група е формирана и изследвана в периода, предхождащ изследването.

Паралелен контрол

Определение.Контролната група, формирана едновременно с формирането на основната група.

Корелация

Определение.Статистическа връзка между два признака (количествена или редна), показваща, че по-голяма стойност на един признак в определена част от случаите съответства на по-голяма - в случай на положителна (пряка) корелация - стойността на друг признак или по-ниска стойност - в случай на отрицателна (обратна) корелация.

Пример. Установена е значителна корелация между нивото на тромбоцитите и левкоцитите в кръвта на пациента. Коефициентът на корелация е 0,76.

Коефициент на риск (CR)

Определение.Коефициентът на опасност е съотношението на вероятността за възникване на определено („лошо“) събитие за първата група обекти към вероятността същото събитие да се случи за втората група обекти.

Пример. Ако вероятността от развитие на рак на белия дроб при непушачи е 20%, а при пушачи - 100%, тогава CR ще бъде равна на една пета. В този пример първата група обекти са непушачи, втората група са пушачи, а появата на рак на белия дроб се счита за „лошо“ събитие.

Очевидно е, че:

1) ако KP = 1, тогава вероятността за възникване на събитието в групите е една и съща

2) ако KP> 1, тогава събитието се случва по-често с обекти от първата група, отколкото от втората

3) ако KR<1, то событие чаще происходит с объектами из второй группы, чем из первой

Мета-анализ

Определение. Сстатистически анализ, обобщаващ резултатите от няколко проучвания, изследващи един и същ проблем (обикновено ефективността на лечението, превенцията, диагнозата). Комбинирането на проучвания осигурява голяма извадка за анализ и повече статистическа сила за комбиниране на проучвания. Използва се за повишаване на доказателствата или увереността в заключението за ефективността на изследвания метод.

Метод на Каплан - Майер (множествени оценки на Каплан - Майер)

Този метод е изобретен от статистиците Е. Л. Каплан и Пол Майер.

Методът се използва за изчисляване на различни стойности, свързани с времето за наблюдение на пациента. Примери за такива количества:

    вероятността за възстановяване в рамките на една година при употреба на лекарството

    вероятност от рецидив след операция в рамките на три години след операцията

    кумулативна петгодишна преживяемост сред пациентите с рак на простатата с ампутация на орган

Нека обясним предимствата на използването на метода на Каплан - Майер.

Стойностите на стойностите в "обичайния" анализ (без използване на метода на Каплан-Майер) се изчисляват въз основа на разделянето на разглеждания интервал от време на интервали.

Например, ако изследваме вероятността за смърт на пациент в рамките на 5 години, тогава интервалът от време може да бъде разделен на 5 части (по-малко от 1 година, 1-2 години, 2-3 години, 3-4 години, 4-5 години), така и за 10 (по шест месеца всеки), или за друг брой интервали. Резултатите ще бъдат различни за различните дялове.

Изборът на най-доброто разделяне не е лесна задача.

Оценките на стойностите на количествата, получени по метода на Каплан-Майер, не зависят от разделянето на времето за наблюдение на интервали, а зависят само от живота на всеки отделен пациент.

Следователно за изследователя е по-лесно да извърши анализа, а резултатите често се оказват по-качествени от резултатите от „обичайния“ анализ.

Кривата на Каплан-Майер е графика на кривата на оцеляване, получена по метода на Каплан-Майер.

Модел на Кокс

Този модел е изобретен от сър Дейвид Роксби Кокс (роден през 1924 г.), известен английски статистик, автор на над 300 статии и книги.

Моделът на Кокс се използва в ситуации, при които изследваните количества в анализа на оцеляването зависят от функциите на времето. Например, вероятността за повторение в t години (t = 1,2,...) може да зависи от логаритъма на времевия log (t).

Важно предимство на метода, предложен от Кокс, е приложимостта на този метод в голям брой ситуации (моделът не налага строги ограничения върху естеството или формата на разпределението на вероятностите).

Въз основа на модела на Кокс може да се извърши анализ (наречен анализ на Кокс), който води до коефициент на риск и доверителен интервал за съотношението на риска.

Непараметрични статистически методи

Определение.Клас статистически методи, които се използват предимно за анализ на количествени данни, които не образуват нормално разпределение, както и за анализ на качествени данни.

Пример. За да определим значимостта на разликите в систоличното кръвно налягане на пациентите в зависимост от вида на лечението, ще използваме непараметричния тест на Mann-Whitney.

Функция (променлива)

Определение. хХарактеристика на обекта на изследване (наблюдение). Правете разлика между качествени и количествени характеристики.

Рандомизация

Определение.Метод за произволно разпределение на изследователските обекти в основната и контролната групи с помощта на специални средства (таблици или брояч на произволни числа, хвърляне на монета и други методи за произволно присвояване на групов номер на включеното наблюдение). Рандомизацията минимизира разликите между групите за известни и неизвестни черти, които потенциално влияят върху изследвания резултат.

Риск

Атрибутивна- допълнителен риск от неблагоприятен изход (например заболяване) поради наличието на определена характеристика (рисков фактор) в обекта на изследване. Това е частта от риска от развитие на заболяването, която е свързана с този рисков фактор, обяснява се с него и може да бъде елиминирана, ако този рисков фактор бъде елиминиран.

Относителен риск- съотношението на риска от неблагоприятно състояние в една група към риска от това състояние в друга група. Използва се в проспективни и обсервационни проучвания, когато групите се формират предварително и началото на изследваното състояние все още не е настъпило.

Подвижен изпит

Определение.Метод за проверка на стабилността, надеждността, производителността (валидността) на статистическия модел чрез последователно изтриване на наблюдения и преизчисляване на модела. Колкото по-сходни са получените модели, толкова по-стабилен и надежден е моделът.

Събитие

Определение.Клинични резултати, наблюдавани в проучването, като усложнение, рецидив, възстановяване, смърт.

Стратификация

Определение. ММетод на извадка, при който популацията от всички участници, които отговарят на критериите за включване в проучването, първо се разделя на групи (страти) въз основа на една или повече характеристики (обикновено пол, възраст), които потенциално влияят на изследвания резултат, а след това от всеки от тези групи (strat) независимо набират участници в експерименталната и контролната групи. Това позволява на изследователя да балансира важни характеристики между третираната и контролната групи.

Таблица за непредвидени обстоятелства

Определение.Таблица с абсолютни честоти (брой) на наблюденията, колоните на които съответстват на стойностите на една характеристика, а редовете съответстват на стойностите на друга характеристика (в случай на двуизмерна таблица за непредвидени обстоятелства). Абсолютните честоти са разположени в клетки в пресечната точка на редове и колони.

Нека дадем пример за таблица за непредвидени обстоятелства. Операция на аневризма е извършена при 194 пациенти. Известен е индикатор за тежестта на отока при пациенти преди операцията.

Едем \ Изход

няма оток 20 6 26
умерен оток 27 15 42
изразен оток 8 21 29
m j 55 42 194

Така от 26 пациенти без оток, 20 пациенти са оцелели след операцията, 6 пациенти са починали. От 42 пациенти с умерен оток, 27 пациенти са оцелели, 15 са починали и т.н.

Хи-квадрат тест за таблици за непредвидени обстоятелства

За да се определи значимостта (надеждността) на разликите на един знак в зависимост от друг (например резултатът от операция в зависимост от тежестта на отока), тестът хи-квадрат се използва за таблици за непредвидени обстоятелства:


Шанс

Нека вероятността за някакво събитие е p. Тогава вероятността събитието да не се случи е 1-p.

Например, ако вероятността пациентът да остане жив след пет години е 0,8 (80%), тогава вероятността той да умре през този период от време е 0,2 (20%).

Определение.Шансът е съотношението на вероятността дадено събитие да се случи към вероятността събитието да не се случи.

Пример. В нашия пример (относно пациента) шансът е 4, тъй като 0,8 / 0,2 = 4

По този начин вероятността от възстановяване е 4 пъти по-голяма от вероятността от смърт.

Тълкуване на стойността на количеството.

1) Ако Шанс = 1, тогава вероятността събитието да се случи е равна на вероятността събитието да не се случи;

2) ако Шансът > 1, тогава вероятността събитието да се случи е по-голяма от вероятността събитието да не се случи;

3) ако Шанс<1, то вероятность наступления события меньше вероятности того, что событие не произойдёт.

Отношение на шансовете

Определение.Съотношението на шансовете е съотношението на шансовете за първата група обекти към съотношението на шансовете за втората група обекти.

Пример. Да предположим, че и мъжете, и жените са подложени на някакво лечение.

Вероятността мъжкият пациент да остане жив след пет години е 0,6 (60%); вероятността той да умре през този период от време е 0,4 (40%).

Подобни вероятности за жените са 0,8 и 0,2.

Съотношението на шансовете в този пример е

Тълкуване на стойността на количеството.

1) Ако съотношението на шансовете = 1, тогава шансът за първата група е равен на шанса за втората група

2) Ако съотношението на коефициентите > 1, тогава шансът за първата група е по-голям от шанса за втората група

3) Ако съотношението на шансовете<1, то шанс для первой группы меньше шанса для второй группы