tirsdag den 30. august 2011

Måling med 50.000 læsere: Helle taber stort

Ekstrabladet har gennemført en storstilet netafstemning om hvem læserne foretrækker som landets nye statsminister. Og hvor de traditionelle meningsmålinger normalt baserer sig på ca. 1000 udvalgte danskere, har Ekstrabladet formået at indsamle hele 50.000 stemmer.

Med så mange indsamlede stemmer må den statistiske nøjagtighed vel være helt i top? Ja, hvis der var tale om 50.000 tilfældigt udvalgte danskere, ville nøjagtigheden være helt nede omkring plus/minus 0.5 procentpoint, hvilket er en del bedre end ved de traditionelle meningsmålinger.

Men desværre er det jo ikke tilfældigt udvalgte danskere der stemmer på Ekstrabladets hjemmeside. For det første læser alle danskere ikke denne netavis, for det andet er det en bestemt type læsere der gider klikke på afstemninger, og for det tredje er der sikkert nogle ihærdige Thorning- og Løkke-fans der snyder og stemmer mere end en gang.

Ekstrabladet slutter artiklen med spørgsmålet
Men tror du overhovedet på meningsmålinger - eller netaftemninger?
Hvortil jeg kun kan svare, "Ja" til det første, og "Nej" til det sidste. Godt designede meningsmålinger kan give et meget præcist øjebliksbillede af holdningen i befolkningen, hvorimod netafstemninger stort set er ubrugelige.

Det kan rent faktisk godt lade sig gøre at lave netafstemninger med større validitet end den Ekstrabladet har lavet, men det er ikke nogen let opgave. De skal nemlig korrigeres for de tre fejlkilder jeg har nævnt ovenfor, foruden alle de øvrige fejlkilder der sikkert dukker op når man tænker lidt dybere over problematikken.

mandag den 29. august 2011

Hvilket parti er du enig med?

JP har lavet et valgkompas som kan måle hvilket parti du er mest enig med. Udfra 25 politiske spørgsmål, hvor man både skal svare på en skala fra "helt uenig" til "helt enig" og angive vigtigheden af spørgsmålet.

Denne slags test-dig-selv skemaer, som jeg også husker fra min barndoms Anders And blade, har dog ikke nødvendigvis nogen særlig statistisk validitet. Der er nemlig to problemer med den slags: For det første kan valget af spørgsmål give bias, og for det andet er resultatet kun nøjagtigt hvis svarene falder tilpas tæt på et af partierne. Lad mig uddybe:

JP beskriver ikke nærmere hvordan testen er designet, men oplyser blot følgende.
Jyllands-Posten har sendt de 25 udsagn til samtlige partier, der stiller op til folketingsvalget 2011. Dine svar sammenholdes med partiernes.
Det er dog på ingen måde ensbetydende med at testen finder det parti du er mest enig med. Det kommer helt an på hvordan spørgsmålene er udvalgt. Populært sagt: hvis man vælger 25 spørgsmål indenfor socialpolitikken, vil flertallet af danskerne nok hælde til den "røde" side, men hvis spørgsmålene vælges indenfor det økonomiske område, vil flertallet nok hælde til den "blå" side. Jeg er ikke sikker på at det forholder sig præcis sådan med socialpolitik og økonomi, men valget af hvilke spørgsmål der skal tages med giver helt sikkert en skævvridning. Det er med andre ord en meget svær statistisk udfordring at designe et retvisende test-dig-selv spørgeskema.

Det andet problem er, at det kun giver mening at erklære sig enig med et parti, hvis man reelt ligger tæt på dette partis holdninger. Det er ikke nok at finde det parti som er tættest, uden at kvantificere præcis hvor tæt. Testen giver ganske vist en procentsats, men hvis ens holdninger reelt ligger uden for de eksisterende partier, så burde testen ikke blot spytte et partinavn ud. For eksempel, hvis man ikke aner noget som helst om politik og synes intet er vigtigt, og man dermed svarer "hverken enig eller uenig" til det hele og markerer alle spørgsmål "ikke vigtigt", så får man følgende resultat:
Du har meget til fælles med Liberal Alliance (61%)
Det kan godt være at det siger noget om Liberal Alliance's holdninger, jeg ved det ikke, men et mere korrekt svar ville nok have været: "Tag dig sammen, og vend tilbage når du har sat dig lidt ind i tingene."

fredag den 26. august 2011

Så er der valg

I dag er der udskrevet folketingsvalg, og der er dermed en god chance for at medierne kommer til at flyde over med falske tal og statistikker. Jeg holder mig parat til at skyde dem ned. Godt valg!

torsdag den 25. august 2011

Alle får flere penge, men gennemsnittet falder

Ekstrabladet spørger læserskaren om de også er forsvundet ud af middelklassen siden 2002.
Er du også forsvundet ud af middelklassen?
1) Ja, jeg har fået flere penge siden 2002
2) Nej, jeg har fået færre penge siden 2002
3) Jeg har fået hverken flere eller færre penge siden 2002
Størstedelen svarer, at de har fået flere penge siden 2002. Bortset fra at internetafstemninger er fuldstændig ubrugelige idet de ikke spørger en tilfældigt udvalgt del af befolkningen, så er der også en mere subtil statistisk faldgrube skjult i dette spørgsmål.

Gennem et tyipsk arbejdsliv stiger ens indkomst med ens anciennitet. Typisk stiger indkomsten altså med alderen, og dermed vil størstedelen kunne svare "Ja" til ovenstående spørgsmål. Men samtidig kan den gennemsnitlige indkomst sagtens være faldende, selvom alle individuelt oplever deres indkomst som stigende.

Lad os sige vi har en lærling, en funktionær og en direktør der tjener, hhv. 10.000, 30.000 og 50.000 kroner. Tyve år senere er lærlingen blevet funktionær og tjener nu 20.000 kr. Funktionæren er blevet direktør og tjener 40.000 kr. Den gamle diriktør er død, og en ny ung mand er blevet lærling og tjener 5.000 kr. Alle er altså hver især steget i løn (eller død), men gennemsnitslønnen er faldet.

onsdag den 24. august 2011

108.000 flere fattige danskere

En analyse fra Arbejderbevægelsens erhvervsråd viser at antallet af "fattige" i Danmark siden 2002 er steget med 108.000 personer. Men hvad vil det sige at være fattig? Når man vil sætte et konkret tal på antallet af fattige, må man også have en konkret matematisk definition af fattigdom.

OECD definerer fattigdom relativt til en gennemsnitsborger. Denne definition af fattigdom er altså ikke målt efter om man har råd til en vis mængde mad, en bolig af en vis standard osv.

Fattigdom defineres som at tjene mindre end halvdelen af median-indkomsten.

Ekstrabladet skriver at
Gruppen af fattige - de, der tjener mindre end halvdelen af gennemsnittet - er steget med 108.000 personer siden 2002.
men det er ikke korrekt. Det er ikke halvdelen af gennemsnittet, men halvdelen af medianen, der definerer fattigdomsgrænsen. Og hvad er forskellen så? Jo, gennemsnittet svarer simpelthen til at lægge alle danskeres indkomst sammen og dividere med antallet af danskere. Hvis nogen bliver rigere, så stiger gennemsnittet og hvis nogen bliver fattigere så falder gennemsnittet.

Medianen svarer til at vi stiller alle danskere op på en lang række sorteret efter deres indkomst. Medianen er indkomsten for den person der står i midten af rækken. Hvis nogle af de rige bliver rigere eller nogen af de fattige bliver fattigere, så ændrer medianen sig ikke. Kun hvis indkomsten samlet set stiger eller falder, så ændres medianen. Fattigdomsmålet skal altså ses relativt til hvor rigt samfundet generelt er.

Analysen viser med andre ord ikke at der er blevet 108.000 flere fattige, i den forstand vi normalt bruger det ord, men i den særlige betydning som er beskrevet ovenfor. Derimod viser analysen klart at der er sket en øget polarisering mellem høj- og lavindkomstgrupperne og dermed større ulighed i samfundet. Det kan man så synes godt eller skidt om alt efter politisk ståsted.

tirsdag den 23. august 2011

Forskere: Tv-kiggeri er lige så farligt som rygning og fedme

Det er ikke nogen sund hobby at glo på fjernsyn, men nu er det også afsløret at det er direkte skadeligt.
Undersøgelsen viser, at for hver times tv man ser, svinder ens liv med 22 minutter.
Og hvorfor så det? Er det strålingen fra tv-skærmen? Nej, det skadelige er ifølge forskerne
at timer foran tv’et er timer uden fysisk aktivitet
Åh nej - ifølge den samme argumentation er det sikkert også dybt skadeligt at sove - og det er ellers en af mine absolutte yndlingsbeskæftigelser. Det må jeg hellere holde op med omgående.

Nej - vi har selvfølgelig igen fat i endnu en sammenblanding mellem årsag og statistisk korrelation. Det er næppe decideret skadeligt at se fjernsyn, men de som ser meget fjernsyn er statistisk set de samme mennesker som motionerer lidt og spiser usundt og ryger (og hvad har vi ellers af fordomme...)

mandag den 22. august 2011

DF: Den økonomiske debat klemmer os

DF står ifølge en ny meningsmåling til en gevaldig vælgerlussing. De står til kun 10,7 procent af stemmerne, hvilket er et fald på 2,5 procentpoint siden juni, hvor de stod til 13,2 procent. Et så dramatisk fald må vel have en god forklaring, så nu er det tid til at (over)fortolke tallene. Hvorfor går DF så meget tilbage?
Dansk Folkeparti bliver klemt i den økonomiske debat. Sådan forklarer partiets finansordfører, Kristian Thulesen Dahl, at DF i en ny meningsmåling fra Megafon blot står til 10,7 procent af stemmerne.
»Mange af vores vælgere er optaget af helt dagligdags spørgsmål. I kølvandet af den usikkerhed, der har været i verdensøkonomien de sidste par uger, har sendefladen - helt berettiget - været fyldt af det«, siger Kristian Thulesen Dahl.
Som jeg har skrevet om før, så er meningsmålingstal behæftet med usikkerhed. Når målingen siger 10,7 betyder det i virkeligheden et sted i intervallet (8,9 - 12,7) og når den siger 13,2 betyder det (11,2 - 15,4). Når de to intervaller overlapper er det med andre ord ikke usandsynligt at DF slet ikke er gået tilbage.

Så Kristian Thulesen Dahls gode historie om de underliggende årsager til partiets deroute er muligvis kun det: en god historie.


fredag den 19. august 2011

Venstre: Røde bompenge koster dig 18.000 kr.

Hvis de røde kommer til magten, så bliver det dyrt for de københavnske bilister. Står det til Socialdemokraterne og SF bliver der nemlig indført en betalingsring rundt om hovedstaden, så bil-folket skal betale når de kører på arbejde, og igen når de skal hjem. 18.000 kr. kommer det til at koste om året.

Men hvor kommer det tal fra? Det er tilsyneladende et tal Kristian Pihl lorentzen har regnet sig frem til, og han har ikke haft den store lommeregner fremme. Regnestykket er simpelt. Hvis man skal betale 40 kr. hver gang man passerer bommen, bliver det 80 kr. om dagen, og ganget med 225 arbejdsdage på et år, skal bilisten have 18.000 kr. op af lommen.

De Forenede Danske Moterejere (FDM), som mig bekendt ikke hører til de største kritikere af privatbilismen, har ganske vist en noget anden vurdering af prislejet:
Det vil betyde, at det sandsynligvis kommer til at koste 25 kr. pr. passage i myldretiden og 10 kr. i de øvrige dag- og aftentimer, hvis der kommer et regeringsskifte efter et folketingsvalg.
Vi gange op igen og får ca. 11.000 på år i myldretiden eller helt ned til 4.500 hvis man undgår de travleste perioder.

Hvem har så ret? Pointen er at ingen af de to gæt på prisen for at køre gennem byen har særlig stor validitet. Ingen ved hvad det kommer til at koste, fordi der ikke er fremlagt noget konkret forslag endnu. Og når man ikke ved hvad man taler om, så er det som bekendt, rent statistisk set, altid en god trumf at sætte et konkret tal på. Og helst et godt stort et.

Som en lille sidebemærkning er det god skik, når man er ude på at få et tal til at se stort ud, at gange det op med et andet stort tal, som fx. antallet af arbejdsdage på et år. Fyrre kroner for at køre gennem bommen lyder ikke så slemt som 18.000 om året.

Hvis jeg ikke havde min cykel, ville det koste mig 28,5 kr. hver vej at tage bussen. Over et helt år løber det op i 13.000. Set over hele mit arbejdsliv sparer den cykel mig alstå for over en halv million. Hvis alle danskere cyklede, kunne vi således spare et fire-cifret millard-beløb. Ja, man kan bare blive ved med at gange op indtil tallene bliver tilpas store.

torsdag den 18. august 2011

Om sammenhængen mellem penislængde og økonomisk vækst

Financial Times beretter om ny forskning som har fundet en sammenhæng mellem den gennemsnitlige penislængde og den økonomiske vækst. Resultatet er klart:
(...) egigeret penis længde på 13.5 cm (...) maksimerer bruttonationalproduktet [Egen oversættelse]
Der er ganske vist tale om for-sjov-forskning, og formålet er at vise den gode gamle statistik-pointe: Blot fordi to størrelser er korrelerede betyder det ikke at der er nogen sammenhæng af betydning. Heller ikke for størrelser på 13.5 cm.

onsdag den 17. august 2011

Hvad sker der med de meningsmålinger?

To meningsmålinger på samme dag giver forskellige resultater: 1) at der er dødt løb mellem rød og blå blok og 2) at rød blok fører klart med 55.5 procent af stemmerne. Politiken undrer sig og spørger en ekspert som er klar med en (bort)forklaring:
Ifølge Kresten Roland Johansen fra Danmarks Medie- og Journalisthøjskole, der underviser journaliststuderende i meningsmålinger, er forskellen overraskende.
- Forskellen i de tog målinger ligger uden for det, man normalt ville kunne forklare med den statistiske usikkerhed. Men det er levende mennesker, man spørger, så der er aldrig garanti for, at det giver et præcist øjebliksbillede af, hvad befolkningen mener, siger Kresten Roland Johansen.

Men er det nu også rigtigt? Nix - her er ikke behov for at anskue respondenterne som levende væsner - vi kan roligt nøjes med at se på de kolde tal: I en meningsmåling med omkring 1000 besvarelser som er den gængse standard vil den statistiske usikkerhed for blokkene ligge omkring plus/minus 3 procentpoint. Med andre ord, så er man ikke i stand til at bestemme blokkenes størrelse særlig præcist.


I de to aktuelle målinger er tallene hhv. ca. 50% og 55.5%, men konfidensintervallerne er hhv. ca. (47% - 53%) og (52% - 58%). Der er med andre ord IKKE nogen uoverensstemmelse mellem målingerne.

Den statistiske usikkerhed (konfidensintervallet) skal forstås på følgende måde. Lad os antage at der i virkeligheden er dødt løb mellem blokkene. Hvis vi nu spørger 1000 tilfældigt udvalgte vælgere hvem de vil stemme på, så vil vores meningsmåling ikke vise præcist 50%. Den vil afvige en smule, fordi vi ikke har spurgt alle vælgerne, men kun et lille udsnit. Gentager vi nu meningsmålingen 100 gange - med 1000 nye tilfældigt udvalgte vælgere i hver gentagelse - vil konfidensintervallet i ca. 95 af meningsmålingerne indholde det korrekte tal, nemlig 50%. De fleste konfidensintervaller alstå se ud som fx. (48% - 54%) eller (46% - 52%), men i ca. 5 af meningsmålingerne vil vi risikere at se konfidensintervaller som fx. (51% - 56%) selv om det korrekte tal er 50%.
 

tirsdag den 16. august 2011

Dagens første cigaret skader mest

Rygning er skadeligt - det ved vi - men nu har man også fundet ud af at den første morgen-smøg er den mest skadelige:
Ifølge undersøgelserne blev risikoen for at få lungekræft øget med 80 pct. blandt de rygere, der tændte den første cigaret inden for 30 minutter efter, at de var stået op.
Aha - man skal alstå lige vente en halv time før man begynder at pulse løs. Men, nej - det er selvfølgelig en gang vrøvl, og her er tale om en klassisk statistisk fejlslutning. Som de siger på amerikansk: "correlation ain't causation", eller på godt kancelli-dansk: At to variable er indbyrdes korrelerede betyder ikke at der er en direkte årsagssammenhæng. Lidt længere nede i artiklen får vi da også den rigtige forklaring:
Rygere, der tager en cigaret lige efter, de er vågnet, er ofte rygere, der (...) typisk ryger mere end andre rygere, og (...) inhalerer dybere.
Det er altså ikke vores luftveje der på magisk vis er mere modtagelige for kræftfremkaldende stoffer i en halv time efter vi vågner.

Udover at være forkert er overskriften i øvrigt også ufrivilligt morsom på en anden måde. Undersøgelsen viser at de som tager dagens første cigaret inden for en halv time har større kræft-risiko end de der venter. Men når de tålmodige rygere efter en halv times venten endelig får tændt cigaretten bliver det jo også for dem "dagens første", som jo efter sigende skulle være den mest skadelige.

mandag den 15. august 2011

Halvdelen af andelsboligerne sælges på under 75 dage

Under den overskrift bringer Politiken historien om at andelsboliger sælger hurtigere end ejerlejligheder. De skriver
Andelsboligers liggetider er kortere end ejerlejligheders. (...) Liggetiderne på andelsboliger solgt via ejendomsmæglere er en del lavere end de tilsvarende på ejerlejligheder (...) I dag sælges en andelsbolig i gennemsnit 28 dage hurtigere end en ejerlejlighed.
Graf over liggetider for andelsboliger og ejerlejligheder.
Som dokumentation viser de en graf over de gennemsnitlige liggetider for de to boligtyper, sakset fra ejendomsmæglernes fælles hjemmeside.

Men der er et problem med grafen: Den er vildledende. Ved første øjekast viser den en meget stor forskel på de to kurver, men når ser nærmere på den lodrette akse, vil man opdage at den ikke starter i nul, men derimod ved 170 dage. Politikens journalister gør da også i billedteksten opmærksom på at grafen er svær at læse:
Den øverste graf er ejerlejligheder, den nederste andelslejligheder. Læg mærke til, at antal dage starter højt, så forskellen ser større ud end i virkeligheden. I dag er der 28 dages længere liggetid på en ejerlejlighed end på en andelslejlighed. Kilde: Boligsiden.dk
Bedre graf over liggetider for andelsboliger og ejerlejligheder.
Ja - det er da en lille hjælp at billedteksten fortæller at grafen er misvisende. Men ville det ikke have været lidt smartere at lave en bedre graf? Det er ikke svært, da tallene er frit tilgængelige på boligsiden. Den forbedrede graf viser at de to boligtyper begge har en gennemsnitlig liggetid omkring 200 dage. Liggetiden er rigtig nok lidt lavere for andelsboliger, men det ser ikke nær så dramatisk ud.

fredag den 12. august 2011

Vejret er bedre på iPhone end på Android



Ifølge Politiken er DMI's vejrudsigter mere regnfulde på Android telefoner end på Apples iPhone.
Det regner simpelthen mere på Androidbrugerne, hvis man skal tro vejrudsigterne fra DMI's to applikationer, som er rettet til henholdsvis Apples iPhone og Googles Android-styresystem.
Dertil er kun at sige: Nej - det gør det så ikke. Men hvorfor ser vejrudsigterne så ikke ens ud på de to smarte telefoner? Årsagen er den simple at Android-app'en viser statistiske usikkerheder hvor iPhonen kun viser den mest sandsynlige regnmængde.

DMI forklarer på sin hjemmeside hvordan usikkerhederne skal fortolkes.

De farvede søljer på nedbøren skal forstås således, at den mørkeste blå indeholder nedbørudsigten fra 75% af modelkørslerne. Den mellemblå indeholder 15% og den helt lyse de sidste 10 procent. På den måde læser du søjlerne, så millimeterne i den helt mørke er de mest sandsynlige.
Med andre ord viser usikkerhedsopgørelsen ikke blot hvornår det bliver regnvejr, men også hvor sikker DMI er i sin sag. Så mangler vi bare at Politikens journalister lærer at aflæse farvekoderne.

torsdag den 11. august 2011

Høje mennesker får oftere kræft

Åh nej - nu kan man også få kræft af at være høj: fpn skriver:
Forskere har fundet en sammenhæng mellem højde og forekomst af 10 almindelige kræfttyper. For hver 10 cm du som kvinde er højere end 152 cm, er din risiko for at få kræft forøget med 16 pct.
Det lyder ikke godt - 16% øget risiko er da en hel del, eller hvad? Relative tal er svære at forstå, og det hjælper altid at se på de absolutte tal i stedet for. Artiklen har da også en fakta-boks:
Kræft og højde
  • Under 150 cm: 7,5 kræfttilfælde årligt per 1.000 kvinder
  • 160 cm: 8,3 kræfttilfælde årligt per 1.000 kvinder
  • Over 174 cm: 10 kræfttilfælde årligt per 1.000 kvinder
Nu ser tallene knap så skræmmende ud - en stigning fra 7,5 til 8,3 tilfælde per 1.000 kvinder - uanset hvad, er det stadig små tal vi taler om, så der er ingen grund til at gå i panik. Her er med andre ord tale om en signifikant men ubetydelig øget risiko.

Til sammenligning har rygere en øget risiko for lungekræft på over 2000% - se det er en både signifikant og betydelig risiko.

onsdag den 10. august 2011

Vi vil se Helle Thorning-Schmidt nøgen

Det, danskerne allermest ønsker at vide om Danmarks måske kommende statsminister, er, hvordan hun ser ud uden tøj på. På trods af at historien er genbrug fra tidligere på året, så har den spredt sig til stort set samtlige danske elektroniske nyhedsmedier. Når aviserne er så hurtige til at videreformidle (kopiere) denne banebrydende genbrugs-nyhed, må der da ligge en tilbundsgående og statistisk velfunderet analyse til grund.

Eller hvad? Metoden er ifølge artiklen
(...) en gennemgang af de mest populære søgninger på den mest anvendte internetsøgemaskine Google.
Jeg tør godt gætte på, at de kloge journalister har tastet "helle thorning-schmidt" i Google's søgefelt og set på hvilke forslag søgemaskinen har givet. Når jeg prøver skriver Google:
helle thorning-schmidt
helle thorning-schmidt nøgen
helle thorning-schmidt wiki
helle thorning-schmidt cv
helle thorning-schmidt blog
helle thorning-schmidt tale
helle thorning-schmidt skilsmisse
helle thorning-schmidt facebook
helle thorning-schmidt adresse
helle thorning-schmidt twitter
Men er det ensbetydende med at vi er vilde med at nøgen-Google Helle? Google tilbyder en service kaldet Søgeindsigt, og hvis man taster "helle thorning" ind der, er billedet et andet. De mest populære søgninger er
Topsøgninger
helle thorning schmidt
helle thorning smith
lars løkke
socialdemokratiet
helle thorning smidt
anders fogh
villy søvndal
socialdemokraterne
lars løkke rasmussen
pia kjærsgaard
Med andre ord: Danskerne har svært ved at stave til Schmidt men vil gerne vide noget om Helle, Socialdemokraterne og deres politiske modstandere.

tirsdag den 9. august 2011

Netmediernes kamp mod hierarkiet

I et interessant indlæg på b.dk beretter Morten Bay om hvordan moderne Amerikanske medievirksomheder med stor succes omlægger deres struktur fra de traditionelle hierarkier til flade netværk. Og succesen er til at tage at føle på, for eksempel for medievirksomheden Netflix
(...) hvis film-streamingtjeneste nu sidder på næsten 30% af det amerikanske bredbåndsforbrug.
Når jeg ser sådan et overraskende stort tal, bliver jeg selvfølgelig nysgerrig. Kan det virkelig passe at 30% af amerikanernes netværkstraffik består af videofilm fra Netflix? Jeg checker lige den bagvedliggende undersøgelse på Wired.
Netflix accounts for 22.2 percent of all U.S. broadband traffic
Nå - nu er vi nede på 22%, men lidt længere nede fremgår det at
at peak times, Netflix hits 30 percent of all traffic.
Så, ja, Netflix er store - rigtig store, når man ser på virksomhedens andel i amerikanernes netforbrug målt i forbrugt båndbredde. Til min overraskelse, endda større en peer-to-peer fildeling. Til sammenligning står BitTorrent i Europa for 60% af peak trafikken. Flere tal og baggrund kan findes hos Sandine som står bag undersøgelsen.

mandag den 8. august 2011

Aktiekurser

08:03: Ekspert: De danske markeder åbner i minus 
Alt imens de asiatiske børser åbner med store fald, spår dansk ekspert at markederne herhjemme vil følge trop. 
09.36 Danske aktier åbner overraskende i plus
Det danske aktiemarked har allerede været ude på en rutsjebanetur. De 20 største danske aktier åbnede først med et fald, men gik derefter i den modsatte grøft og er nu på et gennemsnitligt plus på 0,8 procent.
Kilde: NPinvestor
10:35 Breaking News: De danske aktier stiger med over en procent
(...) efter 20 minutters handel er de 20 mest omsatte aktier steget med over én procent
Og her kl. 11.00 er kursten tilbage hvor den startede og hastigt på vej nedad.

Jeg er ikke ekspert i aktiemarkederne (og jeg tvivler på at mange af de såkaldte eksperter egentlig er det), men en ting jeg dog helt sikker på: Hvis journalisterne insisterer på at skrive "breaking news" hver gang aktiemarkedet ændrer sig en procent i den ene eller anden retning, så har de fast arbejde mange år fremover.

fredag den 5. august 2011

Måske er vi alligevel helt alene i Universet

Sandsynlighedsregning er somme tider en svær størrelse - men andre gange er det ret let. Forskere har gennem tiden forsøgt at sætte tal på sandsynligheden for at der er liv i universet ud over det vi kender her på Jorden. For at estimere denne sandsynlighed kræver det at man vurderer hvor mange planeter der er beboelige samt hvor sandsynligt det er at liv opstår på en beboelig planet.

Ingeniøren bringer seneste nyt i den sag, og giver en indsigtsfuld vurdering med på vejen:
Hvis man fandt liv på Mars ville det straks se meget lysere ud for sandsynligheden for, at liv er mere udbredt i universet, end det blot ene tilfælde, vi kender indtil nu.
Ja - det er kloge ord. Hvis der er liv på Mars, så er sandsynligheden nok noget hen i retning af 100% for at der er liv andre steder end på Jorden... På Mars for eksempel.

torsdag den 4. august 2011

USA skal spare 360 storebæltsbroer

DR bringer den triste nyhed at USA alligevel ikke har råd til at bygge 360 nye storebæltsbroer - der skal spares:
Den amerikanske stat står foran besparelser for, hvad der svarer til 360 storebæltsbroer de næste ti år.
Det kunne ellers have været spændende at se hvor de ville have placeret alle de storebæltsbroer.

Nej, der er selvfølgelig ikke tale om rigtige broer, men om at USA skal spare et beløb der svarer til 360 gange anlægsomkostningerne for vor hjemlige storebæltsbro, nemlig i alt 2400 mia. dollars. Men da almindelige mennesker åbenbart er ikke er i stand til at forstå store tal, skal det naturligvis sættes i perspektiv til noget andet stort og dyrt. Og hvad er større og dyrere en vores egen gode gamle storebæltsbro?

Her er tale om et gammelt kneb indenfor uforsigtig omgang med statistik. Hvis man vil have et tal til at se stort ud, så sammenligner man det bare med noget der er meget mindre, og ser stort på en af statistikkens vigtigste grundsætninger: "Man må aldrig sammenligne æbler og pærer," eller budgetbesparelser og broer for den sags skyld.

Men det bliver værre endnu:
Beløbet er så astronomisk, at det målt i storebæltsbroer kunne have skabt en broforbindelse mellem Esbjerg og Manhattan.
360 storebæltsbroer er også så mange, at der må en æble-pære sammenligning til for at begribe omfanget. Denne gang kan broerne nå til Manhattan - lidt skuffende at de ikke kan nå helt til månen, men ok. Tænk i øvrigt lige lidt over hvad det ville koste rent faktisk at bygge en bro fra Esbjerg til New York - en hel del mere end 2400 mia. dollars.

Lidt senere i artiklen besinder journalisten sig, og sammenligner i stedet med USA's bruttonationalprodukt.
Det svarer til mellem en og to procent af USA's BNP om året.
Nu lyder det pludselig knap så voldsomt. Jeg ville nok have skrevet følgende:

USA skal spare  hvad der svarer til prisen på 4 billioner æsker tændstikker. Hvis man lagde alle disse tændstikæsker ovenpå hinanden ville de nå fra Jorden til Månen 600 gange. Alternativt ville de kunne nå fra Jorden og helt til Solen, men det ville nok være en dårlig ide, da der i så fald nok ville gå ild i dem.

onsdag den 3. august 2011

Pas på lommetyve

Når man er på ferie risikerer man at blive bestjålet, og så er det jo interessant at vide hvilke situationer der er forbundet med størst risiko så man kan forsøge at undgå dem. Topdanmark har ifølge rejseliv.dk undersøgt
(...) over tusinde af den type sager, som deres kunder har anmeldt. Og det viser sig, at to trediedele af alle tyverierne har fundet sted på offentlige steder
På baggrund af undersøgelsen opstiller rejseliv.dk en top-fem over hvor vi intetanende turister bliver franarret vores ejendele og værdier:

Her bliver du bestjålet

  1. Offentlige steder
  2. Bilen
  3. Hotellet
  4. Ved røveri
  5. Ferieboliger, der er lejet privat
Det giver stof til eftertanke - jeg vil i hvert fald være ekstra påpasselig næste gang jeg parkerer bilen på den offentlige parkeringsplads ved hotellet. Bør man helt undgå bilen? Bussen og toget er begge offentlige steder, så det er endnu mere farligt. På hotellet og i de private ferieboliger er der stor risiko for tyveri. Måske bør man vælge en køjeseng i fællesrum på vandrerhjem - den mulighed er ikke på risiko-listen.

Men er det god statistik eller talmagi? Hvad siger top-fem listen os egentlig? Ingenting faktisk. For det første er risiko-kategorierne så brede, at de stort set er meningsløse. Kan man undgå offentlige steder når man er på ferie? Ja, men det bliver nok ikke den mest spændende ferie. For det andet kunne man underopdele kategorierne yderligere - så ville de nye underkategorier dumpe langt ned af listen. "Offentlige steder" kunne for eksempel inddeles i museer, cafeer, restauranter, gågader, rådhuspladser, osv. Alt efter hvilke kategorier man vælger, kan man få listen til at se ud præcis som man har lyst.

tirsdag den 2. august 2011

To milliongevinster vundet på et år

Ekstrabladet bringer den utrolige historie om "held-butikken" i Tappernøje:
Sydsjællændere og andre øst-danskere, som kommer forbi Tappernøje på det sydlige Sjælland bør overveje et smut forbi den lokale Spar-købmand på Brøderupvej, hvis man har hang til lotto og tror på held. For held har de indtil videre haft masser af hos købmanden i den lille by. To gange inden for de sidste ni måneder har Spar-købmanden produceret en lotto-millionær.
To gange lotto-million indenfor ni måneder. Der må da bestemt være noget særligt ved den butik, for som EB skriver:
Temmelig usandsynligt for en by af den ringe størrelse. 
Eller er det? De to gevinster er temmelig sikkert vundet med ca. ni måneders mellemrum - selvom "indenfor ni måneder" strengt taget kunne dække over to gevinster på samme dag, men så ville det nok have fremgået af artiklen. Og hvis nu de to million-gevinster blev vundet indenfor samme år i stedet, var artiklen sikkert alligevel blevet skrevet.

Så hvor stor er sandsynligheden egentlig for at en af Danske Spils forhandlere sælger to million-kuponer indenfor et år? Der er ca. 4000 forhandlere i Danmark og omkring 100 lotto-millionærer per år. Hvis vi antager a gevinsterne er tilfældigt fordelt mellem alle forhandlere er sandsynligheden for to eller flere gevinster hos en af forhandlerne lig med $1-\frac{4000}{4000}\cdot\frac{3999}{4000}\cdot\cdot\cdot\frac{3901}{4000}\approx 70\%$. Det er med andre ord temmelig sandsynligt at der er to milliongevinster hos samme forhandler indenfor et år.

Men hov -  artiklen siger jo usandsynligt "for en by af den ringe størrelse." Det er jo klart at der er større sandsynlighed for at en forhandler der sælger mange lottokuponer får flere milliongevinster, og Tappernøje måske ikke danmarks lottokupon-metropol nummer et med sine kun ca. 1600 indbyggere. Men det argument holder vist desværre heller ikke: Til sammenligning må Danmarks 5.5 mio. indbyggere deles om landets ca. 4000 lotto-forhandlere hvilket giver omkring 1400 indbyggere per forhandler.

Jeg glæder mig til at Ekstrabladet en gang i fremtiden kan proklamere det usandsynlige tilfælde at ingen lotto-forhandler opnået at producere to lotto-millionærer i løbet af et år. Se det ville være en rigtig nyhed.

mandag den 1. august 2011

Se hvor udbredt dit efternavn er

Udbredelsen af efternavnet "Schmidt"
Jyllandsposten har lavet et interaktivt danmarkskort, hvor du kan se hvordan efternavne er fordelt imellem landets postdistrikter. Mit navn, Schmidt, er for eksempel mest udbredt i Sønderjylland, hvilket ikke kommer som nogen overraskelse.

Statistisk set er det ofte forbundet med problemer at vise data på et kort på denne måde, fordi nogle distrikter er små og andre er meget store. Hvis man viser de rå indbyggertal, vil det sætte fokus på de store distrikter, da der her bor flest mennesker.

Alternativt kan man som JP vise relative indbyggertal, eksempelvis som antal personer pr. 1000. Det løser dog ikke problemet, idet det har en tendens til at sætte fokus på de små distrikter. Årsagen er, at små distrikter har større statistisk udsving på grund af det lille datagrundlag. Generelt kan man sige at jo større datagrundlag des større statistisk nøjagtighed. Og med større statistisk udsving, er der også flere små distrikter der, rent tilfældigt, har et relativt stort antal borgere med et bestemt efternavn, og som derfor bliver fremhævet på kortet.

Udbredelsen af efternavnet "Smith"
Lad os eksempelvis se på mine alternativt stavende navnebrødre, nemlig efternavnet Smith. Fremhævet med rødt er en række forskellige småkommuner hvor der tilsyneladende er en særligt høj Smith-koncentration.

Postdistrikter med relativt flest indbyggere med dette navn
Balle: 6,61 pr. 1000
Errindlev: 5,71 pr. 1000
Marslev: 5,68 pr. 1000
Bevtoft: 3,47 pr. 1000
Knebel: 3,35 pr. 1000

På kortet ser det ikke ud til at der er specielt mange Smith'er i hovedstadsområdet. Men ser man på de rå tal, er billedet det modsatte. Top-fem listen over distrikter domineres af store Østsjællandske distrikter.
Postdistrikter med flest indbyggere med dette navn
København S: 50
Frederiksberg: 43
Roskilde: 41
Hillerød: 31
København N: 28
Man skal altid være forsigtig når man sammenligner grupper af forskellig størrelse. Alle ved at man aldrig må sammenligne æbler og pærer, men man skal også passe på med at sammenligne Københavner-æbler og Balle-æbler.