Skip to content
info@sfk.se

Insändare SFK StaM: Två extrema saker du bör känna till…

Två extrema saker du bör känna till…

Diskuterar du felprocenter? Hanterar du proportioner? Intresserad av lite kunskap?

Läs då detta!

Det matematiska uttrycker kvot är väldigt användbart i många sammanhang. Många andra alternativa uttryck är andel, proportion, procentsats, felkvot, rättkvot, chans, risk, sannolikhet, etc.

Tidningarna älskar kvoter och sålunda ser man rubriktexter som ”en av fem män över 75 år lider av…” med en illustration som visar fyra grå siluetter och en röd. Vi fattar!

För väldigt små kvoter kan man se ”…4 per 100000 nyfödda har denna åkomma…” som ett alternativ för 0.00004 eller 0.004 % som är svårare att greppa (4 per 100000 indikerar att det är 4 fall per år i Sverige ty det föds omkring 90000 barn per år). Dylika proportioner ser vi snarast som konstanter för en viss process, på samma sätt som vi ser 1/6 som en konstant proportion för ’1:a’ vid kast med tärning. Många konstanter är naturligtvis inte ristade i sten, med förbättringsarbete försöker man påverka dem åt rätt håll.

Vari ligger det extrema som rubriken antyder? Det har att göra med det statistiska utfallets variation då man försöker skatta en proportion med mätningar. Vid en proportion som ’15 av skolans alla 220 elever saknar…’ finns det ingen osäkerhet, om man skulle mäta igen samma dag så blir resultatet detsamma ty detta är ju en totalundersökning. Men stickprov bland skolans elever kommer att ge olika resultat eftersom det inte blir samma individer som undersöks.

Alla som spelar spel med tärning har observerat variation i processen: ”titta så många ’6:or’ du fått, antingen är det fel på tärningen eller så fuskar du!” trots att det är samma gamla tärning och du aldrig skulle kunna komma på tanken att fuska…

Varians. Inom den ’statistiska matematiken’ finns det ett väldefinierat uttryck för varians (ordet varians (variance) används för att skilja från det allmänna och luddiga variation).

Om du frågar en person som kan ämnet kan hen på några minuter (15 minuter?) visa dig att formeln för proportioner blir ”p(1 – p)/n” som kan läsas ’felkvoten gånger rättkvoten dividerat med stickprovets storlek’. (Uttrycket blir en aning längre om vi pratar om data från begränsade populationer, men i allmänhet har detta ingen praktisk betydelse.)

Vad händer då kvoten är hög, t.ex. nära 0.5 – extrem sak nr 1

Variansen ökar då ’p’ ökar fram till att ’p’ = 0.50 då variansen minskar igen. (Variansen är 0 då ’p’ = 0 eller ’p’ = 1 ty då är ju allt ’felaktigt’ eller ’inte felaktigt’ så då finns ingen variation mellan stickprov.)

Så om man skattar eller mäter något då kvoten är nära 0.5 har man som mest osäkerhet i resultatet. Inte sällan balanserar politiska ställningstagande runt 0.5, ett tydligt exempel är Brexit-omröstningen där det var stor osäkerhet i skattningarna. Man kan naturligtvis minska variansen genom att ta ett större stickprov, men det kostar… Om du upprepade gånger antecknar ’antal pojkar bland de senast 30 födda på förlossningen’ så får du stor variation i resultatet eftersom andelen pojkar är 0.5. Man kan också vända på resonemanget: hur mycket data behöver jag för att med viss säkerhet påstå att proportionen pojkar har ändrats (om man nu anser att den förändrats…)?

Det diskuteras ofta antal kvinnor och män i styrelser. Om man antar att det inte finns skevhet i urvalet eller skevhet bland ansökningarna kan det ju vara svårt att anklaga ett företag på obalans i styrelsen baserat på det lilla antal medlemmar som trots allt finns i styrelser. (Allt i ’Extrem sak 1’ kan redovisas mycket mer konkret men inte här…)

Vad händer då antal hittade felaktiga är noll – extrem sak nr 2

Nu vänder vi oss till ’p’-skalans lägre (eller högre) ände. För en tid sedan kunde man i tidningarna läsa om att en bilmodell hade haft problem med styrningen på en viss vägsträcka i Stockholm. Tanken var tydligen att det kanske var något i elektroniken som stördes av t.ex. järnbalkar e.d.

Så man använde exakt samma bilmärke och körde sträckan upprepade gånger utan att få någon störning. Visst noterade man detta med belåtenhet, men hur kan man tolka dessa data (dvs 0 felaktiga körningar bland ’n’ genomförda körningar)?

Att skatta felkvoten med ’0/n’ är ju meningslöst men, å andra sidan, säga att p = 0 vore ju att säga att felet inte existerar… Den som inte vill fördjupa sig i ämnet kan använda följande oerhört praktiska tumregel:

”formeln 3/n ger övre gränsen på ett intervall som med 95% säkerhet omfattar det korrekta p-värdet.”

Ett exempel: antal att man genomfört 150 tester/avsyningar/prover och hittat 0 fel. Då får vi övre gränsen 3/150 = 1/50 = 0.02 = 2%. Vi har alltså ett intervall [0 – 2]%. Tolkningen är att vi inte kan utesluta att ’p’ faktiskt är noll men ’p’ kan också vara så högt som 2% och ändå ofta ge utfallet 0.

Det där med kvot är ingen lätt sak…

Avslutningsvis. Att ha kunskap om ovanstående extrema lägen ger en mycket starkare position då man skall tolka data eller argumentera i kvalitetsfrågor.

Alltså: vid kvoter nära 0.5 blir stickproven osäkra, ”felmarginalen blir stor”.
antal felaktiga = noll är ett bedrägligt resultat, men kan hanteras med tumregeln ovan (eller mer avancerade metoder som ger en något mer noggrann siffra.)

(Se också http://www.indstat.se , knapp [Statistikhörnan] och texterna ’7’ och ’15’ samt länken http://ovn.ing-stat.se/nollfelp/simnollfelp1.php)

Behöver du hjälp? Hör av dig!

Ingemar Sjöström, SFK-StaM

 

Back To Top