mandag den 5. september 2011

Statistisk usikkerhed i meningsmålinger

I sine artikler om de mange meningsmålinger der foretages under valgkampen, gør Berlingske ofte opmærksom på at der er en vis statistisk usikkerhed ved målingerne.
I Gallup-målingen har de største partier en statistisk usikkerhed på ca. +/- 3 procentpoint, for de mindste er usikkerheden ca. +/- 2 procentpoint. Den statistiske usikkerhed angiver det interval, den faktiske stemmeandel med 95 pct. sandsynlighed rammer inden for.
Tak for oplysningen. Det er en god forklaring af statistisk usikkerhed, som er let at forstå. Desværre er den også FORKERT.

Den statistiske usikkerhed beskriver ikke det interval som den faktiske stemmeandel med 95% sandsynlighed rammer inden for. Den betyder, at hvis man gik ud og lavede 100 Gallup-målinger, så ville den faktiske stemmeandel ligge indenfor intervallet i ca. 95 af målingerne. Ok - jeg indrømmer gerne at forskellen er subtil, og måske kun vigtig for os statistikere, der går op i den slags. Men alligevel.

De vidensbegærlige kan læse mere om konfidensintervaller på Wikipedia.

2 kommentarer:

  1. Kære Mikkel,

    Vi læste med stor interesse dit indlæg. Kan det virkelig passe, at det er forkert?

    Hvis vi siger, at "den statistiske usikkerhed angiver det interval, som den faktiske stemmeandel med 95 % sikkerhed rammer inden for". Så vil jeg da mene, at det er det samme som at sige, at 95 målingerne vil være retvisende - 5 vil være misvisende (Fordi det i inferens sammenhæng korrekte tal falder uden for målingernes konfidensinterval).

    Jeg er dog meget interesseret i at høre, hvad du mener er forkert. I så fald er det nemlig noget vi retter.

    Mvh

    August Hage
    Berlingske Research

    SvarSlet
    Svar
    1. Kære August,

      Jeg er klar over at forskellen er subtil. Men lad mig prøve at forklare: En meningsmåling forsøger at estimere vælgertilslutningen til de forskellige partier. Den sande vælgertilslutning er en ukendt men konstant størrelse. Den har ikke nogen sandsynlighedsfordeling da den regnes for konstant, og man kan derfor ikke tale om at den "rammer" eller "falder" et sted. Hvis man gentager et valg 100 gange i træk vil man (i teorien men dog næppe i praksis) få præcis samme resultat hver gang. Vælgertilslutningen er altså konstant men ukendt.

      Meningsmålingen og dens konfidensinterval er derimod en stokastisk variabel, som har en sandsynlighedsfordeling. Hvis man laver flere meningsmålinger vil de komme frem til forskellige resultater, idet det er en forskellig stikprøve blandt befolkningen der spørges hver gang. Hvis man laver 100 meningsmålinger vil den sande vælgertilslutning ligge inden for 95%-intervallet i ca. 95 af målingerne.

      Når I skriver: "Den statistiske usikkerhed angiver det interval, den faktiske stemmeandel med 95 pct. sandsynlighed rammer inden for" så er det derfor ikke fuldstændig sprogligt præcist. Jeg vil dog heller ikke sige at det er vildledende - der er mere tale om en spidsfindighed. Man kunne dog overveje at omformulere til noget i retning af: "Den statistiske usikkerhed angiver et interval som med 95% sandsynlighed indeholder den faktiske vælgertilslutning."

      Jeg synes dog på ingen måde at der her er tale om et stort problem. Der er mange andre og vigtigere problemer med den måde medierne generelt behandler meningsmålinger - se fx. http://www.fallacyfiles.org/readpoll.html for en gennemgang af nogle typiske fejlslutninger :-)

      De bedste hilsner,
      Mikkel

      Slet