Kolmogorovo testas - Smirnoffas (K-S)

Turinys:

Kolmogorovo testas - Smirnoffas (K-S)
Kolmogorovo testas - Smirnoffas (K-S)
Anonim

Kolmogorovo-Smirnoffo (K-S) testas yra neparametrinis testas, kurio tikslas yra nustatyti, ar dviejų skirtingų duomenų rinkinių dažnis atitinka tą patį pasiskirstymą aplink jų vidurkį.

Kitaip tariant, Kolmogorovo-Smirnoffo (K-S) testas yra testas, prisitaikantis prie duomenų formos ir naudojamas patikrinti, ar du skirtingi mėginiai laikosi to paties pasiskirstymo.

Kodėl tai yra neparametrinis testas?

„Neparametrinės“ charakteristikos grožis yra tas, kad ji tinka duomenims ir, atitinkamai, paskirstymams, kurie gali sekti duomenų dažnumą. Be to, ši funkcija taupo mus nuo prielaidos a priori kokiu pasiskirstymu seka imtis.

K-S testo svarba

Kiek kartų mums buvo duoti du mėginiai ir apskaičiuotas Pearsono koreliacijos koeficientas, negalvojant du kartus? Kitaip tariant, jei norime pamatyti linijinį ryšį tarp dviejų duomenų rinkinių, būtų teisinga apskaičiuoti koreliaciją, tiesa?

Ši išvada būtų teisinga, jei dviejų imčių pasiskirstymai atitiktų normalųjį pasiskirstymą. Koreliacijos koeficientas daro prielaidą, kad skirstiniai yra normalūs, jei praleisime šią prielaidą, koreliacijos koeficiento rezultatas yra neteisingas. Hipotezės testams ir pasikliautiniesiems intervalams taip pat daroma prielaida, kad populiacija pasiskirsto per normalųjį pasiskirstymą.

Kaip ir visiems hipotezių testams, susijusiems su statistika, svarbu turėti daug duomenų, kad būtų statistiškai reikšmingi rezultatai. Mes galime klaidingai atmesti nulinę hipotezę, nes imtis yra maža. Be to, taip pat svarbu, kad šioje imtyje būtų keli kraštutiniai atvejai (pašaliniai, anglų kalba), kad bandymo rezultatas būtų nuoseklus.

Patikrinimo procedūra

Tolesnių veiksmų procedūra.

Hipotezė

Pirmasis žingsnis bus patikrinti, ar abiejų mėginių pasiskirstymas yra vienodas. Norėdami tai padaryti, mes atliekame hipotezės testą darant prielaidą, kad abu mėginiai yra vienodai pasiskirstę, palyginti su alternatyvia hipoteze, kad jie yra skirtingi.

Statistiniai

Mes dirbame su dviejų imčių, F, kaupiamosiomis paskirstymo funkcijomis1(x) ir F.2(x):

Nepanikuoju! Mes ramiai analizuojame pirmiau pateiktą formulę:

  • Svarbi formulės dalis yra skirtumo ženklas (-). Mes ieškome vertikalių skirstinių skirtumų. Taigi, mes atimsime abi kaupiamojo paskirstymo funkcijas.
  • The operatorius "max". Mes norime rasti didžiausią ar didžiausią skirtumą, kad sužinotume, kaip skirtingi gali būti abu skirstiniai.
  • The absoliučioji vertė. Mes naudojame absoliučią vertę, kad operatorių tvarka nekeittų rezultato. Kitaip tariant, nesvarbu, kuris F (x) turi neigiamą ženklą:

Kritinė vertė

Dideliems mėginiams yra apytikslė kritinė K-S vertė, kuri priklauso nuo reikšmingumo lygio (%):

Kur1 ir n2 yra F imties imties dydis1(x) ir F.2(x) atitinkamai.

Kai kurios apskaičiuotos kritinės vertės:

Atmetimo taisyklė

Program

Labai dažnai norime patikrinti, ar du paskirstymai pakankamai skiriasi vienas nuo kito, kai norime sukurti prognozavimo scenarijus (dirbame su dviem pavyzdžiais), ar kai norime įvertinti, kuris paskirstymas geriausiai atitinka duomenis (dirbame tik su viena imtimi).