Etibarlılıq statistikdir.

Təcrübənin (sorğunun) hər hansı bir elmi və praktik vəziyyətində tədqiqatçılar bütün insanları (ümumi əhali, əhali) deyil, yalnız müəyyən bir nümunəni öyrənə bilərlər. Məsələn, müəyyən bir xəstəliyi olan insanlar kimi nisbətən kiçik bir qrup insanı müayinə etsək belə, hər bir xəstəni yoxlamaq üçün resurslarımız və ya ehtiyacımız çox azdır. Əvəzində əhalinin nümunəsi adətən sınaqdan keçirilir, çünki bu, daha rahatdır və daha az vaxt tələb edir. Belə olan halda, nümunədən alınan nəticələrin bütün qrupu təmsil etdiyini necə bilək? Və ya peşəkar terminologiyadan istifadə etsək, araşdırmamızın bütünü düzgün təsvir etdiyinə əmin ola bilərikmi? əhali, istifadə etdiyimiz nümunə?

Bu suala cavab vermək üçün test nəticələrinin statistik əhəmiyyətini müəyyən etmək lazımdır. Statistik əhəmiyyəti (Əhəmiyyətli səviyyə, qısaldılmışdır Sig.), və ya /7-əhəmiyyət səviyyəsi (p səviyyəsi) - verilmiş nəticənin seçmənin öyrənildiyi populyasiyanı düzgün təmsil etməsi ehtimalıdır. Qeyd edək ki, bu yalnız ehtimal Bunu tam əminliklə söyləmək mümkün deyil bu araşdırma bütün əhalini düzgün təsvir edir. IN ən yaxşı halƏhəmiyyət səviyyəsindən yalnız bunun yüksək ehtimal olduğu qənaətinə gəlmək olar. Beləliklə, istər-istəməz belə bir sual yaranır: bu nəticəni əhalinin düzgün səciyyələndirilməsi kimi qiymətləndirmək üçün əhəmiyyəti nə dərəcədə olmalıdır?

Məsələn, ehtimalın hansı dəyərində belə ehtimalların risk etmək üçün kifayət etdiyini söyləməyə hazırsınız? Əgər şans 100-dən 10-dursa, yoxsa 100-dən 50-dirsə? Bəs bu ehtimal daha yüksək olarsa necə? Bəs 100-dən 90, 100-dən 95 və ya 100-dən 98 kimi əmsallar haqqında nə demək olar? Risklə əlaqəli bir vəziyyət üçün bu seçim olduqca problemlidir, çünki bir insanın şəxsi xüsusiyyətlərindən asılıdır.

Psixologiyada ənənəvi olaraq 100-dən 95 və ya daha çox şansın nəticələrin düzgünlüyünün ehtimalının bütün əhali üçün ümumiləşdiriləcək qədər yüksək olduğunu ifadə etdiyinə inanılır. Bu rəqəm elmi-praktik fəaliyyət prosesində müəyyən edilmişdir - onun rəhbər kimi seçilməli olduğu heç bir qanun yoxdur (həqiqətən də, digər elmlərdə bəzən əhəmiyyət səviyyəsinin başqa dəyərləri seçilir).

Psixologiyada bu ehtimal bir qədər qeyri-adi şəkildə idarə olunur. Nümunənin populyasiyanı təmsil etməsi ehtimalı əvəzinə, seçmənin olması ehtimalı təmsil etmirəhali. Başqa sözlə desək, aşkar edilmiş əlaqə və ya fərqlərin təsadüfi olması ehtimalı və əhalinin mülkiyyəti deyil. Beləliklə, psixoloqlar bir araşdırmanın nəticələrinin 100-dən 95-i ehtimalla düzgün olduğunu söyləmək əvəzinə, nəticələrin səhv olması üçün 100-dən 5-in olduğunu söyləyirlər (eyni şəkildə, 100-dən 40-ı lehinə nəticələrin düzgünlüyü onların yanlışlığının lehinə 100 şansdan 60 şans deməkdir). Ehtimal dəyəri bəzən faizlə ifadə edilir, lakin daha çox kimi yazılır onluq kəsr. Məsələn, 100-dən 10 şans 0,1-in onluq kəsrində təmsil olunur; 100-dən 5-i 0,05 kimi yazılır; 100-də 1 - 0,01. Bu qeyd forması ilə limit dəyəri 0,05-dir. Nəticənin düzgün hesab edilməsi üçün onun əhəmiyyət səviyyəsi olmalıdır aşağıda bu rəqəm (unutmayın ki, bu, nəticənin olma ehtimalıdır səhvəhalisini təsvir edir. Terminologiyanı aradan qaldırmaq üçün əlavə edirik ki, "yanlış nəticə ehtimalı" (daha düzgün adlandırılır). əhəmiyyət səviyyəsi) adətən latın hərfi ilə işarələnir R. Təcrübənin nəticələrinin təsviri adətən "nəticələr əhəmiyyətlilik səviyyəsində əhəmiyyətli idi" kimi ümumi nəticəni ehtiva edir. (R(p) 0,05-dən az (yəni 5%-dən az).

Beləliklə, əhəmiyyət səviyyəsi ( R) nəticələrin olma ehtimalını göstərir yoxəhalini təmsil edir. Psixologiyada ənənəyə görə, nəticələrin, əgər dəyərsə, ümumi mənzərəni etibarlı şəkildə əks etdirdiyinə inanılır R 0,05-dən az (yəni 5%). Ancaq bu, yalnız ehtimal ifadəsidir və heç də qeyd-şərtsiz zəmanət deyil. Bəzi hallarda bu nəticə yanlış ola bilər. Əslində, əhəmiyyət səviyyəsinin böyüklüyünə baxsaq, bunun nə qədər tez-tez baş verə biləcəyini hesablaya bilərik. 0,05 əhəmiyyətlilik səviyyəsində, 100 hadisədən 5-də nəticələr yəqin ki, səhvdir. 11a ilk baxışdan belə görünür ki, bu çox tez-tez olmur, amma fikirləşirsinizsə, onda 100-dən 5-i 20-dən 1-ə bərabərdir. Başqa sözlə, hər 20 vəziyyətdən birində nəticə dəyişəcək. səhv olduğu ortaya çıxdı. Bu cür ehtimallar xüsusilə əlverişli görünmür və tədqiqatçılar bunu etməkdən çəkinməlidirlər birinci növ səhvlər. Tədqiqatçıların kəşf etdiklərini düşündükləri zaman yaranan səhvə belə ad verilir real nəticələr, amma əslində belə deyil. Tədqiqatçıların bir nəticə tapmadıqlarına inandıqları, lakin əslində bir varlığından ibarət əks səhvlər deyilir. ikinci növ səhvlər.

Bu səhvlər ona görə yaranır ki, yanlış statistik təhlilin mümkünlüyü istisna olunmur. Səhv ehtimalı səviyyədən asılıdır statistik əhəmiyyəti nəticələr. Artıq qeyd etdik ki, nəticənin düzgün hesab edilməsi üçün əhəmiyyət səviyyəsi 0,05-dən aşağı olmalıdır. Təbii ki, bəzi nəticələr daha çoxdur aşağı səviyyə, və 0,001 kimi aşağı nəticələri görmək qeyri-adi deyil (0,001 dəyəri nəticələrin səhv olması şansının 1000-də 1 olduğunu bildirir). Necə az dəyər p, nəticələrin düzgünlüyünə inamımız bir o qədər güclü olar.

Cədvəldə. 7.2 statistik nəticənin mümkünlüyü ilə bağlı əhəmiyyət səviyyələrinin ənənəvi şərhini və əlaqənin (fərqlərin) olması barədə qərarın əsaslandırılmasını göstərir.

Cədvəl 7.2

Psixologiyada istifadə olunan əhəmiyyət səviyyələrinin ənənəvi şərhi

Təcrübə əsasında praktik tədqiqat tövsiyə olunur: birinci və ikinci növ səhvlərin mümkün qədər qarşısını almaq üçün məsuliyyətli nəticələrdə səviyyəyə diqqət yetirərək fərqlərin (əlaqələrin) olması barədə qərarlar qəbul edilməlidir. R n işarəsi.

Statistik test(Statistik Test - statistik əhəmiyyət səviyyəsini təyin etmək üçün vasitədir. Bu, doğru bir fərziyyənin qəbul edilməsini, yalanın isə yüksək ehtimalla rədd edilməsini təmin edən qərar qaydasıdır.

Statistik meyarlar da müəyyən bir rəqəmin hesablanması metodunu və bu rəqəmin özünü göstərir. Bütün meyarlar bir əsas məqsədlə istifadə olunur: müəyyən etmək əhəmiyyət səviyyəsi təhlil etdikləri məlumatlar (yəni, məlumatların nümunənin götürüldüyü əhalini düzgün təmsil edən həqiqi effekti əks etdirmə ehtimalı).

Bəzi meyarlar yalnız normal paylanmış məlumatlar üçün istifadə edilə bilər (və xüsusiyyət interval miqyasında ölçülürsə) - bu meyarlar adətən adlanır parametrik. Digər meyarların köməyi ilə, demək olar ki, hər hansı bir paylama qanunu ilə məlumatları təhlil edə bilərsiniz - onlar deyilir qeyri-parametrik.

Parametrik meyarlar - hesablama düsturuna paylama parametrlərini daxil edən meyarlar, yəni. vasitələr və variasiyalar (Tələbənin t-testi, Fişerin F-testi və s.).

Qeyri-parametrik meyarlar - paylanmaların hesablanması düsturuna paylanma parametrlərini daxil etməyən və əməliyyat tezliklərinə və ya dərəcələrinə əsaslanan meyarlar (meyar) Q Rosenbaum, meyar U Manna - Whitney

Məsələn, fərqlərin əhəmiyyətinin Student's t-testi ilə müəyyən edildiyini söylədikdə, empirik dəyəri hesablamaq üçün Student's t-test metodundan istifadə edildiyini və daha sonra cədvəl (kritik) qiymətlə müqayisə edildiyini bildiririk.

Meyarın (cədvəl) empirik (hesabladığımız) və kritik dəyərlərinin nisbətinə əsasən, fərziyyəmizin təsdiq və ya təkzib olub olmadığını mühakimə edə bilərik. Əksər hallarda, fərqləri əhəmiyyətli hesab etməyimiz üçün, meyarın empirik dəyərinin kritik olanı aşması lazımdır, baxmayaraq ki, burada meyarlar (məsələn, Mann-Whitney testi və ya işarə testi) mövcuddur. əks qaydaya əməl etməliyik.

Bəzi hallarda, meyarın hesablama düsturuna tədqiqat nümunəsindəki müşahidələrin sayı daxildir və aşağıdakı kimi qeyd olunur. P. Xüsusi bir cədvəldən istifadə edərək, verilən empirik qiymətə fərqlərin statistik əhəmiyyətinin hansı səviyyəsinə uyğun olduğunu müəyyənləşdiririk. Əksər hallarda, meyarın eyni empirik dəyəri tədqiqat nümunəsindəki müşahidələrin sayından asılı olaraq əhəmiyyətli və ya əhəmiyyətsiz ola bilər ( P ) və ya sözdə olandan sərbəstlik dərəcələrinin sayı kimi işarələnmişdir v (g>) və ya hər ikisi df (Bəzən d).

Bilən P və ya sərbəstlik dərəcələrinin sayı, meyarın kritik dəyərlərini müəyyən etmək və əldə edilmiş empirik dəyəri onlarla müqayisə etmək üçün xüsusi cədvəllərdən (əsaslar Əlavə 5-də verilmişdir) istifadə edə bilərik. Adətən belə yazılır: n = Kriteriyanın 22 kritik dəyəri var tSt = 2.07" və ya "at v (d) = 2, Tələbə meyarının kritik dəyərləri = 4.30 "və sözdə.

Lakin adətən parametrik meyarlara üstünlük verilir və biz bu mövqeyə sadiq qalırıq. Onlar daha etibarlı hesab edilir və daha çox məlumat və daha dərin təhlil verə bilir. Riyazi hesablamaların mürəkkəbliyinə gəldikdə, istifadə edərkən kompüter proqramları bu çətinlik aradan qalxır (lakin bəziləri olduqca aşılabilir görünür).

  • Bu dərslikdə biz statistik problemə ətraflı toxunmuruq
  • fərziyyələr (sıfır - R0 və alternativ - Hj) və statistik qərarlar, çünki psixologiya tələbələri bunu "Psixologiyada Riyazi Metodlar" fənnində ayrıca öyrənirlər. Bundan əlavə, qeyd etmək lazımdır ki, tədqiqat hesabatı (kurs işi və ya dissertasiya işi, nəşr) hazırlanarkən statistik fərziyyələr və statistik həllər, bir qayda olaraq, verilmir. Adətən, nəticələri təsvir edərkən bir meyar göstərilir, lazımi təsviri statistika verilir (vasitələr, siqma, korrelyasiya əmsalları və s.), meyarların empirik dəyərləri, sərbəstlik dərəcələri və mütləq p-əhəmiyyət səviyyəsi. Sonra yoxlanılan fərziyyəyə münasibətdə (adətən bərabərsizlik şəklində) əldə edilmiş və ya əldə edilməmiş əhəmiyyət səviyyəsini göstərən mənalı bir nəticə tərtib edilir.

Sizcə, "can yoldaşınızı" nə xüsusi, əhəmiyyətli edir? Bu, onun (onun) şəxsiyyəti ilə, yoxsa bu insana olan hisslərinizlə bağlıdır? Yaxud bəlkə sadə faktla ki, tədqiqatlar göstərir ki, sizin bəyəndiyiniz təsadüfi fərziyyənin ehtimalı 5%-dən azdır? Son ifadəni etibarlı hesab etsək, uğurlu tanışlıq saytları prinsipcə mövcud olmazdı:

Siz split test və ya saytınızın hər hansı digər təhlilini apararkən, "statistik əhəmiyyətin" səhv başa düşülməsi nəticələrin yanlış təfsirinə səbəb ola bilər və buna görə də səhv hərəkətlər dönüşüm optimallaşdırma prosesində. Bu, hər hansı bir mövcud sənayedə gündəlik həyata keçirilən minlərlə digər statistik testlərə aiddir.

“Statistik əhəmiyyətin” nə olduğunu başa düşmək üçün özünüzü bu terminin yaranma tarixinə qərq etmək, onu bilmək lazımdır. əsl məna və bu "yeni" köhnə anlayışın tədqiqatınızın nəticələrini düzgün şərh etməyə necə kömək edəcəyini anlayın.

Bir az tarix

Bəşəriyyət uzun əsrlər boyu müəyyən problemləri həll etmək üçün statistikadan istifadə etsə də, müasir anlayış statistik əhəmiyyət, fərziyyə testi, təsadüfiləşdirmə və hətta təcrübələrin dizaynı (Təcrübələrin Dizaynı (DOE) yalnız 20-ci əsrin əvvəllərində formalaşmağa başladı və Ser Ronald Fisherin adı ilə ayrılmaz şəkildə bağlıdır (Sir Ronald Fisher, 1890-1962). ):

Ronald Fisher təkamülçü bioloq və statistik idi, təkamülün öyrənilməsinə xüsusi ehtirası vardı. təbii seleksiya heyvanda və flora. Şöhrətli karyerası ərzində o, bu gün də istifadə etdiyimiz bir çox faydalı statistik alətlər hazırladı və populyarlaşdırdı.

Fisher dominantlıq, mutasiya və genetik variasiya kimi biologiyada prosesləri izah etmək üçün inkişaf etdirdiyi üsullardan istifadə etdi. Veb resurslarının məzmununu optimallaşdırmaq və təkmilləşdirmək üçün bu gün eyni alətləri tətbiq edə bilərik. Bu analiz vasitələrinin yaradıldığı zaman belə mövcud olmayan obyektlərlə işləmək üçün istifadə oluna bilməsi olduqca təəccüblü görünür. Eyni dərəcədə təəccüblüdür ki, insanlar ən mürəkkəb hesablamaları kalkulyatorlar və ya kompüterlər olmadan aparırdılar.

Statistik eksperimentin nəticələrini doğru olma ehtimalının yüksək olduğu kimi təsvir etmək üçün Fisher əhəmiyyət sözündən istifadə etdi.

Fişerin ən maraqlı inkişaflarından biri də “cinsi oğul” fərziyyəsidir. Bu nəzəriyyəyə görə, qadınlar azğın kişilərə (gəzənlərə) üstünlük verirlər, çünki bu, həmin kişilərdən doğulan oğulların eyni meylə malik olmasına və daha çox nəslini dünyaya gətirməsinə imkan verəcək (qeyd edək ki, bu, sadəcə bir nəzəriyyədir).

Ancaq heç kim, hətta parlaq elm adamları da səhv etməkdən qorunmur. Fişerin qüsurları bu günə qədər mütəxəssisləri narahat edir. Ancaq Albert Eynşteynin sözlərini xatırlayın: "Heç vaxt səhv etməyən heç vaxt yeni bir şey yaratmayıb".

Növbəti nöqtəyə keçməzdən əvvəl yadda saxlayın ki, statistik əhəmiyyət test nəticələrindəki fərqin o qədər böyük olduğu bir vəziyyətdir ki, bu fərq təsadüfi amillərin təsiri ilə izah edilə bilməz.

Sizin hipoteziniz nədir?

“Statistik cəhətdən əhəmiyyətli”nin nə demək olduğunu başa düşmək üçün əvvəlcə “hipoteza testinin” nə olduğunu başa düşməlisiniz, çünki iki termin bir-biri ilə sıx bağlıdır.
Hipoteza sadəcə bir nəzəriyyədir. Bir nəzəriyyə hazırladıqdan sonra kifayət qədər sübut toplamaq üçün prosedur yaratmalı və əslində bu sübutları toplamalı olacaqsınız. İki növ hipotez var.

Alma və ya portağal - hansı daha yaxşıdır?

Boş hipotez

Bir qayda olaraq, bu yerdə çoxları çətinlik çəkirlər. Nəzərə almaq lazımdır ki, sıfır fərziyyə sübuta ehtiyacı olan bir şey deyil, məsələn, siz saytda müəyyən dəyişikliyin konversiya artımına səbəb olacağını sübut edirsiniz, əksinə. Null hipotezi, saytda hər hansı bir dəyişiklik etsəniz, heç bir şey olmayacağını söyləyən bir nəzəriyyədir. Tədqiqatçının məqsədi isə bu nəzəriyyəni sübut etmək deyil, təkzib etməkdir.

Cinayətin açılması təcrübəsinə müraciət etsək, burada müstəntiqlər də cinayəti törədənin kimliyi ilə bağlı fərziyyə irəli sürürlər, sıfır fərziyyə təqsirsizlik prezumpsiyası deyilən, təqsirləndirilən şəxsin günahı məhkəmədə sübuta yetirilməyənə qədər təqsirsiz hesab edilməsi konsepsiyası formasını alır.

Əgər sıfır fərziyyə iki obyektin öz xassələrinə görə bərabər olmasıdırsa və siz onlardan birinin hələ də daha yaxşı olduğunu sübut etməyə çalışırsınızsa (məsələn, A B-dən yaxşıdır), alternativin xeyrinə sıfır fərziyyədən imtina etməlisiniz. bir. Məsələn, bu və ya digər konvertasiya optimallaşdırma alətini bir-birinizlə müqayisə edirsiniz. Sıfır fərziyyədə onların hər ikisi hədəfə eyni təsir göstərir (yaxud heç bir təsiri yoxdur). Alternativ olaraq onlardan birinin təsiri daha yaxşıdır.

Alternativ fərziyyəniz B - A > 20% kimi ədədi dəyərdən ibarət ola bilər. Bu halda sıfır fərziyyə və alternativ aşağıdakı formanı ala bilər:

Alternativ fərziyyənin başqa adı tədqiqat hipotezidir, çünki tədqiqatçı həmişə bu xüsusi fərziyyəni sübut etməkdə maraqlıdır.

Statistik əhəmiyyət və "p" dəyəri

Ronald Fişerə və onun statistik əhəmiyyət anlayışına qayıdaq.

İndi sıfır fərziyyə və alternativiniz olduğuna görə birini sübut edib digərini necə təkzib edə bilərsiniz?

Statistika öz təbiətinə görə müəyyən bir əhalinin (nümunə) öyrənilməsini nəzərdə tutduğundan, əldə etdiyiniz nəticələrdən heç vaxt 100% əmin ola bilməzsiniz. Aydın bir misal: Seçkilərin nəticələri çox vaxt ilkin sorğuların və hətta çıxış hovuzlarının nəticələrindən fərqlənir.

Doktor Fisher təcrübənizin uğurlu olub-olmadığını sizə bildirəcək bir bölücü xətt yaratmaq istəyirdi. Güvən indeksi belə yarandı. Etibarlılıq "mənalı" hesab etdiyimiz və olmayanı söyləmək üçün götürdüyümüz səviyyədir. Etibar indeksi "p" 0,05 və ya daha azdırsa, nəticələr əhəmiyyətlidir.

Narahat olmayın, əslində göründüyü qədər qarışıq deyil.

Qauss ehtimal paylanması. Kenarlarda - dəyişənin daha az ehtimal olunan dəyərləri, mərkəzdə - ən çox ehtimal olunur. P-balı (yaşıl kölgəli sahə) müşahidə edilən nəticənin təsadüfən baş vermə ehtimalıdır.

Normal ehtimal paylanması (Qauss paylanması) hamısının bir təmsilidir mümkün dəyərlər qrafikdə bəzi dəyişənlər (yuxarıdakı şəkildə) və onların tezlikləri. Tədqiqatınızı düzgün aparsanız və sonra aldığınız bütün cavabları qrafikdə tərtib etsəniz, məhz bu paylanmanı əldə edəcəksiniz. Normal paylanmaya görə, oxşar cavabların böyük bir faizini alacaqsınız və qalan variantlar qrafikin kənarlarında (sözdə "quyruqlar") yerləşəcəkdir. Kəmiyyətlərin belə paylanması təbiətdə tez-tez rast gəlinir, buna görə də "normal" adlanır.

Nümunə və test nəticələrinə əsaslanan tənlikdən istifadə edərək, nəticələrin nə qədər sapdığını bildirən "test statistikası" adlanan şeyi hesablaya bilərsiniz. O, həmçinin sıfır fərziyyənin doğru olmasına nə qədər yaxın olduğunuzu sizə xəbər verəcəkdir.

Başınızı aşağı salmaq üçün statistik əhəmiyyəti hesablamaq üçün onlayn kalkulyatorlardan istifadə edin:

Belə kalkulyatorların bir nümunəsi

"P" hərfi sıfır fərziyyənin doğru olma ehtimalını ifadə edir. Əgər rəqəm kiçikdirsə, bu, test qrupları arasında fərqi göstərəcək, sıfır fərziyyə isə onların eyni olmasıdır. Qrafik olaraq, bu, test statistikanızın zəng paylamanızın quyruqlarından birinə daha yaxın olduğu kimi görünəcək.

Doktor Fişer nəticələr üçün etimad həddini p ≤ 0,05 səviyyəsində təyin etmək qərarına gəldi. Bununla belə, bu bəyanat da mübahisəlidir, çünki iki çətinliyə səbəb olur:

1. Birincisi, sıfır fərziyyənin yanlış olduğunu sübut etməyiniz, alternativ hipotezi sübut etdiyiniz demək deyil. Bütün bu əhəmiyyət yalnız o deməkdir ki, siz nə A, nə də B-ni sübut edə bilməyəcəksiniz.

2. İkincisi, əgər p-qiyməti 0,049-a bərabərdirsə, bu, sıfır hipotezinin ehtimalının 4,9% olacağı anlamına gələcək. Bu, eyni zamanda, test nəticələrinizin eyni anda həm etibarlı, həm də yanlış ola biləcəyini ifadə edə bilər.

Siz p-dəyərindən istifadə edə bilərsiniz, ya yox, lakin sonra hər bir fərdi halda sıfır fərziyyənin ehtimalını hesablamalı və onun planlaşdırdığınız və sınaqdan keçirdiyiniz dəyişiklikləri etməmək üçün kifayət qədər böyük olub-olmamasına qərar verməli olacaqsınız.

Bu gün statistik testin aparılması üçün ən ümumi ssenari faktiki testi keçirməzdən əvvəl p ≤ 0.05 əhəmiyyət həddi təyin etməkdir. Nəticələri yoxlayarkən p-dəyərini diqqətlə yoxlamağı unutmayın.

Səhvlər 1 və 2

O qədər vaxt keçdi ki, statistik əhəmiyyət ölçüsündən istifadə edərkən baş verə biləcək səhvlər hətta öz adlarını aldı.

Səhv 1 (Tip 1 Səhvlər)

Yuxarıda qeyd edildiyi kimi, p-dəyəri 0,05 sıfır hipotezinin doğru olmasının 5% şansı deməkdir. Bunu etməsəniz, 1 nömrəli səhvə yol vermiş olursunuz. Nəticələr göstərir ki, yeni vebsaytınız dönüşüm nisbətlərini artırıb, lakin 5% ehtimalı yoxdur.

Səhv 2 (Növ 2 Səhvlər)

Bu xəta 1-ci xətanın əksidir: siz boş hipotezi yanlış olduqda qəbul edirsiniz. Məsələn, test nəticələri sizə bildirir ki, saytda edilən dəyişikliklər heç bir təkmilləşdirmə gətirməyib, halbuki dəyişikliklər olub. Nəticədə: performansınızı artırmaq fürsətini əldən verirsiniz.

Bu xəta qeyri-kafi nümunə ölçüləri olan testlərdə tez-tez olur, ona görə də yadda saxlayın ki, nümunə nə qədər böyük olsa, nəticə bir o qədər etibarlı olar.

Nəticə

Bəlkə də tədqiqatçılar arasında heç bir termin statistik əhəmiyyəti qədər populyar deyil. Test nəticələri statistik cəhətdən əhəmiyyətli hesab edilmədikdə, nəticələr dönüşüm nisbətlərinin artmasından şirkətin dağılmasına qədər dəyişir.

Və marketoloqlar öz resurslarını optimallaşdırarkən bu termindən istifadə etdikləri üçün bunun həqiqətən nə demək olduğunu bilməlisiniz. Test şərtləri dəyişə bilər, lakin nümunə ölçüsü və müvəffəqiyyət meyarları həmişə vacibdir. Bunu yadda saxla.

Statistik əhəmiyyət anlayışı

FCC-nin hesablama praktikasında statistik etibarlılıq vacibdir. Əvvəllər qeyd olundu ki, eyni populyasiyadan bir çox nümunə seçilə bilər:

Əgər onlar düzgün seçilibsə, onda onların orta göstəriciləri və ümumi əhalinin göstəriciləri qəbul edilmiş etibarlılıq nəzərə alınmaqla reprezentativlik xətasının böyüklüyünə görə bir-birindən bir qədər fərqlənir;

Əgər onlar müxtəlif ümumi populyasiyalardan seçilərsə, aralarındakı fərq əhəmiyyətli olur. Nümunələrin müqayisəsi statistikada adətən nəzərə alınır;

Əgər onlar əhəmiyyətsiz, əhəmiyyətsiz, əhəmiyyətsiz dərəcədə fərqlənirlərsə, yəni əslində eyni ümumi əhaliyə aiddirlərsə, aralarındakı fərq deyilir. statistik etibarsızdır.

statistik əhəmiyyətlidir seçmə fərqi əhəmiyyətli və əsaslı şəkildə fərqlənən, yəni müxtəlif ümumi populyasiyalara aid olan nümunədir.

FCC-də seçmə fərqlərinin statistik əhəmiyyətinin qiymətləndirilməsi bir çox praktiki problemlərin həlli deməkdir. Məsələn, yeni tədris metodlarının, proqramlarının, tapşırıqlar toplusunun, testlərin, nəzarət tapşırıqlarının tətbiqi onların eksperimental yoxlanılması ilə bağlıdır ki, bu da test qrupunun nəzarət qrupundan əsaslı şəkildə fərqləndiyini göstərməlidir. Buna görə də xüsusi statistik üsullardan istifadə olunur, deyilir statistik əhəmiyyət meyarları, nümunələr arasında statistik əhəmiyyətli fərqin olub-olmamasını aşkar etməyə imkan verir.

Bütün meyarlar iki qrupa bölünür: parametrik və qeyri-parametrik. Parametrik meyarlar normal paylama qanununun məcburi mövcudluğunu təmin etmək, yəni. bu, normal qanunun əsas göstəricilərinin - arifmetik ortanın məcburi müəyyən edilməsinə aiddir. X və haqqında standart sapma. Parametrik meyarlar ən dəqiq və düzgündür. Parametrik olmayan testlər nümunələrin elementləri arasında rütbəli (növbəli) fərqlərə əsaslanır.

FCC təcrübəsində istifadə olunan əsas statistik əhəmiyyət meyarları bunlardır: Tələbə testi, Fisher testi, Wilcoxon testi, Uayt testi, Van der Waerden testi (işarə testi).

Tələbə meyarı kəşf edən ingilis alimi C. Gossetin (Student təxəllüsüdür) adını daşıyır bu üsul. Tələbə meyarı parametrik, müqayisə üçün istifadə olunur mütləq göstəricilər nümunələri. Nümunələr ölçüdə fərqli ola bilər.

Tələbə meyarı aşağıdakı kimi müəyyən edilir.

1. Tələbə meyarını tapın t aşağıdakı düstura görə:

Harada xi, x 2 - müqayisə edilən nümunələrin arifmetik ortası; /i b w 2 - müqayisə edilən nümunələrin göstəriciləri əsasında müəyyən edilmiş reprezentativlik xətaları.

2. FCC-də təcrübə göstərdi ki, idman işi üçün hesabın etibarlılığını qəbul etmək kifayətdir. R= 0,95.

63 Hesabın etibarlılığı üçün: P= 0,95 (a = 0,05), dərəcələrin sayı ilə; azadlıq k= «! + n 2 - 2 tətbiqi cədvəlinə görə 4 dəyəri tapırıq \ yaxşı, meyarın sərhəd qiyməti (^gr).

3. Normal paylanma qanununun xassələri əsasında Tələbə testində müqayisə aparılır tt^.

4. Nəticə çıxarın:

Əgər t> ftp, onda müqayisə edilən nümunələr arasındakı fərq statistik cəhətdən əhəmiyyətlidir;

Əgər t< 7 F, onda fərq statistik cəhətdən əhəmiyyətli deyil.

FCC sahəsində tədqiqatçılar üçün statistik əhəmiyyətin qiymətləndirilməsi konkret problemin həllində ilk addımdır: əsaslı və ya qeyri-əsas fərq; müqayisəli nümunələr. Növbəti addım; problemin şərti ilə müəyyən edilən bu fərqin pedaqoji nöqteyi-nəzərdən qiymətləndirilməsi.

Statistik əhəmiyyət və ya p-əhəmiyyət səviyyəsi - əsas test nəticəsi

statistik fərziyyə. danışır texniki dil, verilənin alınma ehtimalıdır

seçmə bir araşdırmanın nəticəsidir ki, əslində general üçün

çoxluq, sıfır fərziyyə doğrudur - yəni əlaqə yoxdur. Başqa sözlə, bu

aşkar edilmiş əlaqənin xassə deyil, təsadüfi olması ehtimalı

aqreqatlar. Statistik əhəmiyyətə malikdir, p-əhəmiyyət səviyyəsidir

əlaqənin etibarlılığının kəmiyyət qiymətləndirilməsi: bu ehtimal nə qədər aşağı olarsa, əlaqə bir o qədər etibarlıdır.

Tutaq ki, iki nümunə vasitəsini müqayisə edərkən səviyyənin qiyməti alındı

statistik əhəmiyyəti p=0,05. Bu, haqqında statistik fərziyyənin sınaqdan keçirilməsi deməkdir

ümumi əhali arasında vasitələrin bərabərliyi göstərdi ki, əgər doğrudursa, onda ehtimal

aşkar edilmiş fərqlərin təsadüfi baş verməsi 5%-dən çox deyil. Başqa sözlə, əgər

iki nümunə dəfələrlə eyni ümumi populyasiyadan, sonra 1-də götürüldü

20 hal bu nümunələrin vasitələri arasında eyni və ya daha çox fərqi göstərəcək.

Yəni tapılan fərqlərin təsadüfi olması ehtimalı 5% olur.

xarakter daşıyır və məcmuənin mülkiyyəti deyil.

Elmi fərziyyəyə münasibətdə statistik əhəmiyyət səviyyəsi kəmiyyətdir

nəticələrdən hesablanmış əlaqənin olması haqqında nəticəyə inamsızlıq dərəcəsinin göstəricisi

bu fərziyyənin seçici, empirik sınağı. P-dəyəri nə qədər kiçik olsa, bir o qədər yüksəkdir

elmi fərziyyəni təsdiqləyən tədqiqatın nəticəsinin statistik əhəmiyyəti.

Əhəmiyyət səviyyəsinə nəyin təsir etdiyini bilmək faydalıdır. Əhəmiyyət səviyyəsi, digər şeylər bərabərdir

yuxarıda (aşağı p-dəyəri) əgər:

Əlaqənin (fərqin) böyüklüyü daha böyükdür;

Xüsusiyyət(lər)in dəyişkənliyi azdır;

Nümunə ölçüsü(lər)i daha böyükdür.

Birtərəfli Burada ikitərəfli əhəmiyyət testləri var

Əgər işin məqsədi iki ümumi parametr arasındakı fərqi ortaya çıxarmaqdır

onun müxtəlifliyinə uyğun gələn çoxluqlar təbii şərait (Məişət şəraiti,

subyektlərin yaşı və s.), çox vaxt bu parametrlərdən hansının daha böyük olacağı bilinmir və

hansı daha kiçikdir.

Məsələn, siz nəzarətdə nəticələrin dəyişkənliyi ilə maraqlanırsınızsa və

eksperimental qruplar, onda, bir qayda olaraq, dispersiya və ya arasındakı fərqin əlamətinə inam yoxdur.

dəyişkənliyin qiymətləndirildiyi nəticələrin standart kənarlaşmaları. Bu halda

sıfır fərziyyə variasiyaların bir-birinə bərabər olmasıdır və tədqiqatın məqsədi

əksini sübut etmək, yəni. fərqlər arasında fərq var. Eyni zamanda, buna icazə verilir

fərq istənilən işarədə ola bilər. Belə fərziyyələr ikitərəfli adlanır.

Ancaq bəzən vəzifə bir parametrdə artım və ya azalma sübut etməkdir;

məsələn, eksperimental qrupda orta nəticə nəzarət qrupundan yüksəkdir. Harada

fərqin başqa əlamətli ola bilməsinə artıq icazə verilmir. Belə fərziyyələr deyilir

Birtərəfli.

İkitərəfli fərziyyələri yoxlamaq üçün istifadə olunan əhəmiyyət testləri deyilir

İkitərəfli və birtərəfli üçün - birtərəfli.

Konkret halda meyarlardan hansının seçilməli olduğu sualı yaranır. Cavab verin

Bu sual formal statistik metodların əhatə dairəsindən kənardadır və tamamilə belədir

Tədqiqatın məqsədindən asılıdır. Heç bir halda bu və ya digər meyar sonra seçilməməlidir

Eksperimental məlumatların təhlili əsasında eksperimentin aparılması, çünki bu, mümkündür

yanlış nəticələrə gətirib çıxarır. Təcrübədən əvvəl fərqin olduğu güman edilirsə

Müqayisə olunan parametrlər həm müsbət, həm də mənfi ola bilər, bundan sonra

Tədqiqat adətən bəzi fərziyyələrlə başlayır, faktların cəlb edilməsi ilə yoxlama tələb olunur. Bu fərziyyə – fərziyyə – müəyyən obyektlər toplusunda hadisələrin və ya xassələrin əlaqəsi ilə bağlı formalaşır.

Bu cür fərziyyələri faktlar üzərində yoxlamaq üçün onların daşıyıcılarının müvafiq xassələrini ölçmək lazımdır. Ancaq bütün yeniyetmələrdə aqressivliyi ölçmək mümkün olmadığı kimi, bütün qadınlarda və kişilərdə narahatlığı ölçmək mümkün deyil. Buna görə də, bir araşdırma apararkən, onlar insanların müvafiq populyasiyalarının nümayəndələrinin yalnız nisbətən kiçik bir qrupu ilə məhdudlaşırlar.

Əhali- bu, tədqiqat fərziyyəsinin formalaşdırıldığı obyektlərin bütün toplusudur.

Məsələn, bütün kişilər; və ya bütün qadınlar; ya da bir şəhərin bütün sakinləri. Tədqiqatçının tədqiqatın nəticələrinə əsasən nəticə çıxaracağı ümumi əhali, məsələn, müəyyən bir məktəbin bütün birinci sinif şagirdləri sayca daha kiçik və daha təvazökar ola bilər.

Beləliklə, ümumi əhali sayca sonsuz olmasa da, bir qayda olaraq, davamlı tədqiqat üçün əlçatmaz olan çoxsaylı potensial subyektlərdir.

Nümunə və ya nümunə populyasiyası- bu, xassələrini öyrənmək üçün ümumi əhali arasından xüsusi olaraq seçilmiş, məhdud sayda obyektlər qrupudur (psixologiyada - subyektlər, respondentlər). Buna uyğun olaraq, bir nümunə üzərində ümumi əhalinin xüsusiyyətlərinin öyrənilməsi deyilir seçmə tədqiqat. Demək olar ki, hamısı psixoloji tədqiqat seçici xarakter daşıyır və onların nəticələri ümumi populyasiyalara aiddir.

Beləliklə, fərziyyə formalaşdırıldıqdan və müvafiq ümumi populyasiyalar müəyyən edildikdən sonra tədqiqatçı nümunənin təşkili problemi ilə üzləşir. Nümunə elə olmalıdır ki, seçmə tədqiqatının nəticələrinin ümumiləşdirilməsi əsaslandırılsın - ümumiləşdirmə, onların ümumi əhaliyə paylanması. Tədqiqatın nəticələrinin etibarlılığının əsas meyarlarıbunlar seçmənin reprezentativliyi və (empirik) nəticələrin statistik etibarlılığıdır.

Nümunə təmsilçiliyi- başqa sözlə desək, onun reprezentativliyi nümunənin tədqiq olunan hadisələri kifayət qədər tam şəkildə - onların ümumi populyasiyada dəyişkənliyi nöqteyi-nəzərindən təqdim etmək qabiliyyətidir.

Əlbəttə ki, yalnız ümumi əhali tədqiq olunan hadisənin bütün diapazonunda və dəyişkənlik nüanslarında tam təsəvvür yarada bilər. Buna görə də reprezentativlik həmişə seçmənin məhdud olduğu dərəcədə məhduddur. Və tədqiqatın nəticələrinin ümumiləşdirilməsinin sərhədlərinin müəyyən edilməsində əsas meyar seçmənin reprezentativliyidir. Buna baxmayaraq, tədqiqatçı üçün kifayət qədər təmsilçi nümunə əldə etməyə imkan verən üsullar mövcuddur (Bu üsullar "Eksperimental Psixologiya" kursunda öyrənilir).


Birinci və əsas texnika sadə təsadüfi (təsadüfi) seçimdir. Bu, əhalinin hər bir üzvünün nümunəyə daxil olmaq şansının bərabər olmasını təmin etməyi nəzərdə tutur. Təsadüfi seçim ümumi əhalinin ən müxtəlif nümayəndələrinin nümunəsinə daxil olmaq imkanı verir. Eyni zamanda, seçimdə hər hansı bir qanunauyğunluğun görünüşünü istisna etmək üçün xüsusi tədbirlər görülür. Və bu, ümid etməyə imkan verir ki, nəticədə nümunədə tədqiq olunan əmlak, ümumiyyətlə olmasa da, maksimum mümkün müxtəliflikdə təmsil olunacaq.

Reprezentativliyi təmin etməyin ikinci yolu təbəqəli təsadüfi seçim və ya ümumi əhalinin xüsusiyyətlərinə görə seçimdir. O, tədqiq olunan əmlakın dəyişkənliyinə təsir göstərə bilən keyfiyyətlərin ilkin müəyyən edilməsini nəzərdə tutur (bu, cins, gəlir səviyyəsi və ya təhsil və s. ola bilər). Sonra bu keyfiyyətlərə görə fərqlənən qrupların (təbəqələrin) sayının ümumi populyasiyada faiz nisbəti müəyyən edilir və seçmədə müvafiq qrupların eyni faiz nisbəti təmin edilir. Bundan əlavə, nümunənin hər bir alt qrupunda subyektlər sadə təsadüfi seçim prinsipinə uyğun olaraq seçilir.

Statistik etibarlılıq, və ya statistik əhəmiyyəti olduqda, tədqiqatın nəticələri statistik nəticə çıxarma üsullarından istifadə etməklə müəyyən edilir.

Araşdırmanın nəticələrindən müəyyən nəticələr çıxarmaqla, qərar qəbul edərkən səhvlərdən sığortalanırıqmı? Əlbəttə yox. Axı bizim qərarlarımız həm seçmə populyasiyanın tədqiqatının nəticələrinə, həm də psixoloji biliklərimizin səviyyəsinə əsaslanır. Biz səhvlərdən tam immun deyilik. Statistikada bu cür səhvlər 1000-dən çox olmayan halda baş verərsə məqbul hesab edilir (səhv ehtimalı α = 0,001 və ya düzgün nəticənin etibarlılıq ehtimalının əlaqəli dəyəri p = 0,999); 100-dən bir halda (səhv ehtimalı α = 0.01 və ya düzgün nəticənin etibarlılıq ehtimalının əlaqəli dəyəri p = 0.99) və ya 100-dən beş halda (səhv ehtimalı α = 0.05 və ya etibarlılıq ehtimalının əlaqəli dəyəri p = 0.99) düzgün çıxış p=0,95). Psixologiyada qərar qəbul etmək adət olaraq son iki səviyyədədir.

Bəzən statistik əhəmiyyətdən danışarkən "əhəmiyyət səviyyəsi" (α kimi qeyd olunur) anlayışından istifadə olunur. P və α-nın ədədi dəyərləri bir-birini 1000-ə qədər tamamlayır - hadisələrin tam dəsti: ya düzgün nəticə çıxardıq, ya da səhv etdik. Bu səviyyələr hesablanmır, müəyyən edilir. Əhəmiyyət səviyyəsini bir növ "qırmızı" xətt kimi başa düşmək olar, onun kəsişməsi bizə bu hadisədən təsadüfi olmayan kimi danışmağa imkan verəcəkdir. Hər bir səlahiyyətli elmi hesabatda və ya nəşrdə çıxarılan nəticələr, nəticələrin verildiyi p və ya α qiymətlərinin göstəricisi ilə müşayiət olunmalıdır.

Statistik nəticə çıxarma üsulları “Riyazi statistika” kursunda ətraflı müzakirə olunur. Hələlik yalnız qeyd edirik ki, nömrəyə müəyyən tələblər qoyurlar, ya da nümunə ölçüsü.

Təəssüf ki, tələb olunan nümunə ölçüsünün ilkin müəyyən edilməsi ilə bağlı ciddi tövsiyələr yoxdur. Üstəlik, tədqiqatçı adətən onun lazımi və kifayət qədər sayı ilə bağlı suala cavabı çox gec alır - yalnız artıq sorğulanmış nümunənin məlumatlarını təhlil etdikdən sonra. Bununla belə, ən ümumi tövsiyələr tərtib edilə bilər:

1. Diaqnostika texnikasını inkişaf etdirərkən ən böyük nümunə ölçüsü lazımdır - 200-dən 1000-2500 nəfərə qədər.

2. 2 nümunəni müqayisə etmək lazımdırsa, onların ümumi sayı ən azı 50 nəfər olmalıdır; müqayisə edilən nümunələrin sayı təxminən eyni olmalıdır.

3. Əgər hər hansı xassələr arasında əlaqə öyrənilirsə, onda seçmənin həcmi ən azı 30-35 nəfər olmalıdır.

4. Daha çox dəyişkənlik tədqiq olunan əmlakın nümunə ölçüsü nə qədər böyükdürsə. Buna görə də dəyişkənliyi nümunənin homojenliyini artırmaqla, məsələn, cinsə, yaşa görə və s. azaltmaq olar. Bu, təbii ki, nəticələrin ümumiləşdirilməsi imkanını azaldır.

Asılı və müstəqil nümunələr. Tipik tədqiqat vəziyyəti tədqiqatçı üçün maraq doğuran xüsusiyyətin sonrakı müqayisə üçün iki və ya daha çox nümunə üzərində öyrənilməsidir. Bu nümunələr onların təşkili prosedurundan asılı olaraq müxtəlif nisbətlərdə ola bilər. Müstəqil nümunələr bir seçmənin hər hansı subyektinin seçilmə ehtimalının digər seçmə subyektlərinin hər hansı birinin seçilməsindən asılı olmaması ilə xarakterizə olunur. qarşı, asılı nümunələr bir nümunənin hər bir subyektinin başqa bir nümunənin subyekti ilə müəyyən bir meyarla uyğunlaşdırılması ilə xarakterizə olunur.

Ümumi halda, asılı nümunələr müqayisə edilən nümunələrdə subyektlərin ikili seçimini, müstəqil nümunələr isə subyektlərin müstəqil seçimini nəzərdə tutur.

Qeyd etmək lazımdır ki, "qismən asılı" (və ya "qismən müstəqil") nümunələrin hallarına icazə verilmir: bu, onların təmsilçiliyini gözlənilməz şəkildə pozur.

Sonda qeyd edirik ki, psixoloji tədqiqatın iki paradiqmasını ayırd etmək olar.

Sözdə R-metodologiyası hansısa təsirin, faktorun və ya digər xassələrin təsiri altında müəyyən xassə (psixoloji) dəyişkənliyinin öyrənilməsini nəzərdə tutur. Nümunə mövzular toplusudur.

Başqa bir yanaşma Q-metodologiyası, müxtəlif stimulların (şərait, situasiya və s.) təsiri altında subyektin (tək) dəyişkənliyinin öyrənilməsini nəzərdə tutur. Bu vəziyyətə uyğundur nümunə stimullar toplusudur.

Oxşar məqalələr