Ano ang isang Chi-Square Statistic?
Isang chi-square ( χ 2) statistic ay isang pagsubok na sumusukat kung paano ihahambing ang mga inaasahan sa aktwal na sinusunod na data (o mga resulta ng modelo). Ang data na ginamit sa pagkalkula ng isang chi-square na istatistika ay dapat na random, hilaw, magkakaibang eksklusibo, iginuhit mula sa mga malayang variable, at iginuhit mula sa isang malaking sapat na sample. Halimbawa, ang mga resulta ng paghagis ng isang barya 100 beses nakakatugon sa mga pamantayang ito.
Ang mga pagsubok sa Chi-square ay madalas na ginagamit sa pagsubok ng hypothesis.
Ang Formula para sa Chi-Square Ay
χc2 = ∑ (Oi − Ei) 2Eiwhere: c = degree ng kalayaanO = sinusunod na halaga (s) E = inaasahang halaga (s) magsimula {aligned} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \ & \ textbf {kung saan:} \ & c = \ text {degree ng kalayaan} \ & O = \ text {sinusunod na halaga (s)} \ & E = \ text {inaasahang halaga (s) } \ \ end {aligned} χc2 = ∑Ei (Oi −Ei) 2 kung saan: c = degree ng kalayaanO = sinusunod na halaga (s) E = inaasahang halaga (s)
Ano ang Sinasabi sa iyo ng isang Chi-Square Statistic?
Mayroong dalawang pangunahing uri ng mga pagsubok sa chi-square: ang pagsubok ng kalayaan, na humihingi ng isang katanungan ng relasyon, tulad ng, "Mayroon bang kaugnayan sa pagitan ng mga marka ng kasarian at SAT?"; at ang mabuting pagsubok, na humihiling ng isang bagay tulad ng "Kung ang isang barya ay itatapon ng 100 beses, aakyat ba ito ng ulo ng 50 beses at mga buntot ng 50 beses?"
Para sa mga pagsubok na ito, ang antas ng kalayaan ay ginagamit upang matukoy kung ang isang tiyak na null hypothesis ay maaaring tanggihan batay sa kabuuang bilang ng mga variable at mga sample sa loob ng eksperimento.
Halimbawa, kapag isinasaalang-alang ang mga mag-aaral at pagpili ng kurso, isang halimbawang laki ng 30 o 40 mga mag-aaral ay malamang na hindi sapat na malaki upang makabuo ng makabuluhang data. Ang pagkuha ng pareho o magkaparehong mga resulta mula sa isang pag-aaral gamit ang isang sample na laki ng 400 o 500 mga mag-aaral ay mas may bisa.
Sa isa pang halimbawa, isaalang-alang ang paghagis ng isang barya 100 beses. Ang inaasahang resulta ng paghagis ng isang makatarungang barya 100 beses ay ang mga ulo ay lalabas ng 50 beses at ang mga buntot ay lalabas ng 50 beses. Ang aktwal na resulta ay maaaring tumaas ang mga ulo ng 45 beses at ang mga buntot ay umabot ng 55 beses. Ang chi-square na istatistika ay nagpapakita ng anumang mga pagkakaiba sa pagitan ng inaasahang resulta at ang aktwal na mga resulta.
Halimbawa ng isang Chi-Squared Test
Isipin ang isang random poll ay nakuha sa buong 2, 000 iba't ibang mga botante, kapwa lalaki at babae. Ang mga tao na tumugon ay inuri ayon sa kanilang kasarian at kung sila ay republikano, demokratiko, o independiyenteng. Isipin ang isang grid na may mga haligi na may label na republikano, demokratiko, at independyente, at dalawang hilera na may label na lalaki at babae. Ipagpalagay na ang data mula sa 2, 000 mga sumasagot ay ang mga sumusunod:
Ang unang hakbang upang makalkula ang chi squared statistic ay upang mahanap ang inaasahang mga dalas. Ang mga ito ay kinakalkula para sa bawat "cell" sa grid. Dahil mayroong dalawang kategorya ng kasarian at tatlong kategorya ng pananaw sa politika, mayroong anim na kabuuang inaasahang dalas. Ang pormula para sa inaasahang dalas ay:
E (r, c) = n (r) × c (r) sa kung saan man: r = hilera sa questionc = haligi sa tanong na = kaukulang kabuuan \ simulan {aligned} & E (r, c) = \ frac {n (r) beses c (r)} {n} \ & \ textbf {kung saan:} \ & r = \ text {hilera sa tanong} \ & c = \ text {haligi sa tanong} \ & n = \ teksto {kaukulang kabuuan} \ \ end {aligned} E (r, c) = nn (r) × c (r) kung saan: r = hilera sa questionc = haligi sa questionn = kaukulang kabuuan
Sa halimbawang ito, ang inaasahang mga frequency ay:
- E (1, 1) = (900 x 800) / 2, 000 = 360E (1, 2) = (900 x 800) / 2, 000 = 360E (1, 3) = (200 x 800) / 2, 000 = 80E (2, 1)) = (900 x 1, 200) / 2, 000 = 540E (2, 2) = (900 x 1, 200) / 2, 000 = 540E (2, 3) = (200 x 1, 200) / 2, 000 = 120
Susunod, ang mga ito ay ginagamit na mga halaga upang makalkula ang istatistika ng chi parisukat gamit ang sumusunod na pormula:
Chi-parisukat = ∑2E (r, c) kung saan: O (r, c) = sinusunod na data para sa ibinigay na hilera at haligi \ magsimula sa aligned} at \ text {Chi-squared} = \ sum \ frac {^ 2} {E (r, c)} \ & \ textbf {kung saan:} \ & O (r, c) = \ text {sinusubaybayan ang data para sa ibinigay na hilera at haligi} \ \ end {aligned} Chi-squared = ∑E (r, c) 2 kung saan: O (r, c) = sinusunod na data para sa ibinigay na hilera at haligi
Sa halimbawang ito, ang expression para sa bawat sinusunod na halaga ay:
- O (1, 1) = (400 - 360) 2/360 = 4.44O (1, 2) = (300 - 360) 2/360 = 10O (1, 3) = (100 - 80) 2/80 = 5O (2, 1) = (500 - 540) 2/540 = 2.96O (2, 2) = (600 - 540) 2/540 = 6.67O (2, 3) = (100 - 120) 2/120 = 3.33
Ang chi-squared na istatistika pagkatapos ay katumbas ng kabuuan ng mga halagang ito, o 32.41. Pagkatapos ay maaari nating tingnan ang isang chi-square na estadistika talahanayan upang makita, na ibinigay ang antas ng kalayaan sa aming set-up, kung ang resulta ay istatistika makabuluhan o hindi.
![Chi Chi](https://img.icotokenfund.com/img/entrepreneurs/386/chi-square-statistic-definition.jpg)