Nustatymo koeficientas (R kvadratas)

Turinys:

Anonim

Nustatymo koeficientas yra viso kintamojo dispersijos dalis, paaiškinta regresija. Nustatymo koeficientas, dar vadinamas R kvadratu, atspindi modelio tinkamumo kintamajam, kurį jis ketina paaiškinti, gerumą.

Svarbu žinoti, kad nustatymo koeficiento rezultatas svyruoja tarp 0 ir 1. Kuo arčiau jo reikšmės yra 1, tuo didesnis modelio tinkamumas kintamajam, kurį bandome paaiškinti. Ir atvirkščiai, kuo arčiau nulio, tuo modelis bus mažiau tvirtas ir todėl mažiau patikimas.

Ankstesnėje išraiškoje turime trupmeną. Taigi, eikime dalimis. Pirma, mes išanalizuosime skaitiklį, ty viršutinę dalį.

Tiems, kurie nežino dispersijos išraiškos, rekomenduoju perskaityti straipsnį apie tai. Tiems, kurie tai žino, jie gali suprasti, kad tai yra dispersijos išraiška, tačiau turi du esminius skirtumus.

Pirmasis skirtumas yra tas, kad Y turi cirkumfleksą arba tai, ką mokytojai didaktiškai vadina „kepure“. Kas yra ta skrybėlė, yra ta, kad Y yra modelio, kuris pagal paaiškinamuosius kintamuosius yra vertas Y, įvertinimas, tačiau tai nėra tikroji Y vertė, bet Y įvertis.

Antra, reikėtų padalyti iš T. Kuris kitais atvejais pažymimas kaip N arba stebėjimų skaičius. Tačiau, nes vardiklio formulė taip pat ją neštų, iš abiejų formulių pašaliname vardiklius (apačią), kad supaprastintume išraišką. Tokiu būdu lengviau su juo dirbti.

Toliau atliksime tą pačią analizę su vardiklio dalimi (apatine dalimi).

Šiuo atveju vienintelis skirtumas nuo pradinės dispersijos formulės yra jos vardiklio nebuvimas. Tai yra, mes neskirstome nei T, nei N. Tokiu būdu, paaiškinus dvi R kvadrato arba nustatymo koeficiento bendrosios išraiškos dalis, pamatysime pavyzdį.

Variacijos koeficientasLinijinis koreliacijos koeficientasRegresijos analizė

Nustatymo koeficiento aiškinimas

Tarkime, kad norime paaiškinti Cristiano Ronaldo įvarčių skaičių pagal jo sužaistų žaidimų skaičių. Manome, kad kuo daugiau sužaistų žaidimų, tuo daugiau įvarčių jis įmuš. Duomenys yra susiję su paskutiniais 8 sezonais. Taigi, ištraukus duomenis, modelis pateikia tokį įvertį:

Kaip matome iš grafiko, ryšys yra teigiamas. Kuo daugiau sužaistų rungtynių, žinoma, tuo daugiau įvarčių jis įmuša sezone. Tinkamumas, remiantis R kvadrato skaičiavimu, yra 0,835. Tai reiškia, kad tai yra modelis, kurio įverčiai gana gerai atitinka tikrąjį kintamąjį. Nors techniškai tai nebūtų teisinga, galime pasakyti maždaug taip, kad modelis paaiškina 83,5% tikrojo kintamojo.

Nustatymo koeficiento problema

Apibrėžimo koeficiento problema ir priežastis, kodėl atsiranda pakoreguotas determinacijos koeficientas, yra ta, kad tai neužkerta kelio nereikšmingiems aiškinamiesiems kintamiesiems. Tai yra, jei prie modelio bus pridėti penki paaiškinamieji kintamieji, kurie mažai susiję su tikslais, kuriuos Cristiano Ronaldo įmuša per sezoną, R kvadratas padidės. Štai kodėl daugelis ekonometrikos, statistikos ir matematikos ekspertų priešinasi R kvadrato naudojimui kaip reprezentatyviam tikrojo tinkamumo gerumo matui.

Koreguotas nustatymo koeficientas

Koreguotas nustatymo koeficientas (pakoreguotas R kvadratas) yra matas, apibrėžiantis procentinę dalį, paaiškintą regresijos dispersija, palyginti su paaiškinto kintamojo dispersija. Tai yra tas pats, kas R kvadratas, bet skiriasi: pakoreguotas determinacijos koeficientas baudžia kintamųjų įtraukimą.

Kaip jau minėjome anksčiau, modelio nustatymo koeficientas didėja, net jei mūsų įtraukti kintamieji nėra svarbūs. Kadangi tai yra problema, bandant ją išspręsti, pakoreguotas R kvadratas yra toks:

Formulėje N yra imties dydis, o k - paaiškinamųjų kintamųjų skaičius. Matematiškai išskaičiavus, kuo didesnės k vertės, tuo koreguotas R kvadratas bus toliau nuo įprasto R kvadrato. Ir atvirkščiai, esant mažesnėms k reikšmėms, tuo arčiau centrinė dalis bus 1, todėl pakoreguotas R kvadratas ir įprastas R kvadratas bus panašesni.

Prisimindami, kad k yra paaiškinamųjų kintamųjų skaičius, darome išvadą, kad tai negali būti nulis. Jei jis būtų nulis, modelio nebūtų. Mažiausiai turėsime paaiškinti vieną kintamąjį kitu kintamuoju. Kadangi k turi būti bent 1, pakoreguotas R kvadratas ir įprastas R kvadratas negali turėti tos pačios vertės. Be to, pakoreguotas R kvadratas visada bus mažesnis už įprastą R kvadratą.