|
| Hva pokker bruger man Chebyshevs uligheds-~ Fra : Carsten Riis |
Dato : 30-03-02 23:45 |
|
Hej statistik hajer og andre talknusere
Jeg sidder her dybt frusteret over, at mine data* ikke er
normalfordelt jf. den empiriske regel om, at to tredje del af dataerne
skal være ind for en standardafvigelse og 95% af dataerne skal befinde
sig indenfor 2 gange standardafvigelsen.
Tilgengæld opfylder mine data Chebyshevs uligheds-regel om, at mindst
75% af dataerne skal være indenfor 2 gange standardafvigelsen og 89%
af dataerne indenfor 3 gange standardafvigelsen.
Den tredje regel i Chebyshevs uligheds-regel kan jeg ikke "afkode"
(1 - 1/k~2)*100%
Hvad er k i denne sammenhæng???
Men der står i min lærebog, at chebyshevs uligheds-regel egentlig ikke
siges noget om populationen? (Det kan selvfølgelig også være, at jeg
ikke forstår bogens tekst om chebyshev)
Jeg har følgende spørgsmål (udover det ovenstående)
Please forklar mig på almindelig dansk, hvad chebyshev skal bruges
til, hvis ikke det er til at fastslå om ens data er normalfordelt?
Hvilke analyser kan man foretage på en næsten normal fordelt
datamængde? Der er 10 ud af 17 datasæt, hvor under 64% (2 sæt nede på
52%) af data indenfor 1 gange standardvigelsen; 5 ud af 17 datasæt
hvor 93% (2 sæt på 83%) af data er indenfor 2 gange
standardafvigelsen. alle data sæt har 100% af data er indenfor 3 gange
standardafvigelsen.
Please hjælp mig
Med venlig hilsen
Carsten Riis
*: arbejdsløshedstal fordelt på alder i datasæt af store kommuner/
amter i 2001.
Hvert datasæt findes ti gange hvor der fordeles på ledighedsgrad.
| |
Kasper Daniel Hansen (31-03-2002)
| Kommentar Fra : Kasper Daniel Hansen |
Dato : 31-03-02 04:34 |
|
> Jeg sidder her dybt frusteret over, at mine
data* ikke er
> normalfordelt jf. den empiriske regel om, at to
tredje del af dataerne
> skal være ind for en standardafvigelse og 95% af
dataerne skal befinde
> sig indenfor 2 gange standardafvigelsen.
Hvor store er afvigelserne?
> Tilgengæld opfylder mine data Chebyshevs
uligheds-regel om, at mindst
> 75% af dataerne skal være indenfor 2 gange
standardafvigelsen og 89%
> af dataerne indenfor 3 gange standardafvigelsen.
>
> Den tredje regel i Chebyshevs uligheds-regel kan
jeg ikke "afkode"
> (1 - 1/k~2)*100%
> Hvad er k i denne sammenhæng???
I det øverst afsnit er k hhv. 2 og 3. Så hvis du
vil have at vide hvor mange
procent der er indenfor k gange
standardafvigelsen, så kan du bruge formlen.
> Men der står i min lærebog, at chebyshevs
uligheds-regel egentlig ikke
> siges noget om populationen? (Det kan
selvfølgelig også være, at jeg
> ikke forstår bogens tekst om chebyshev)
Nej, det er helt rimeligt.
> Jeg har følgende spørgsmål (udover det
ovenstående)
> Please forklar mig på almindelig dansk, hvad
chebyshev skal bruges
> til, hvis ikke det er til at fastslå om ens data
er normalfordelt?
Chebychevs ulighed gælder for næsten alle
fordelinger. Du skal virkelig være ude i noget
helt specielt for at du ikke kan regne med den
(fordelingen skal ikke ´have en varians). Det kan
du se bort fra i de fleste tilfælde bortset fra
ekstrem værdi modellering (f.eks. forekomsten af
stormfolde, orkaner etc.). Men det kan jeg ikke
forestille mig at du skal bruge.
> Hvilke analyser kan man foretage på en næsten
normal fordelt
> datamængde? Der er 10 ud af 17 datasæt, hvor
under 64% (2 sæt nede på
> 52%) af data indenfor 1 gange standardvigelsen;
5 ud af 17 datasæt
> hvor 93% (2 sæt på 83%) af data er indenfor 2
gange
> standardafvigelsen. alle data sæt har 100% af
data er indenfor 3 gange
> standardafvigelsen.
Hvor mange observationer har du i hvert datasæt.
Det lyder som mange, men for en sikkerheds
skyld... Ovenstående betragtninger er en
tommelfingerregel - det skal ikke gælde eksakt.
93% er i den forbindelse _meget_ tæt på 95%. De
64% lyder lidt værre. Har du set på "om data er
klokkeformet fordelt". Hvis det er tilfældet så
bare brug normalfordelingen, hvis ikke skal der
nok andet til.
> *: arbejdsløshedstal fordelt på alder i datasæt
af store kommuner/
> amter i 2001.
> Hvert datasæt findes ti gange hvor der fordeles
på ledighedsgrad.
Hvordan ser dine data helt præcist ud - det lyder
som om der er tale om "tælledata" altså at I
f.eks. har en tabel som denne
Ledighedsgrad/alder: 20-25 25-30 30+
Lidt x11 x12
x13
mellem x21 x22
x23
meget x31 x32
x33
så skal du benytte en helt anden analyse form!
hmm det var lidt rodet, men det er sent :)
Kasper
| |
Carsten Riis (31-03-2002)
| Kommentar Fra : Carsten Riis |
Dato : 31-03-02 14:12 |
|
"Kasper Daniel Hansen" <kdh@omk.dk> wrote in message news:<a8602f$jin$1@sunsite.dk>...
> > Jeg sidder her dybt frusteret over, at mine
> data* ikke er
> > normalfordelt jf. den empiriske regel om, at to
> tredje del af dataerne
> > skal være ind for en standardafvigelse og 95% af
> dataerne skal befinde
> > sig indenfor 2 gange standardafvigelsen.
>
> Hvor store er afvigelserne?
>
Der er 10 datasæt som er under 64%. heraf 2 omkring 52%
> Hvor mange observationer har du i hvert datasæt.
Ialt er 477000 mennesker berørt af arbejdsløshed i 2001.
De er så fordelt på de 17 datasæt (amter og store kommuner)
> Det lyder som mange, men for en sikkerheds
> skyld... Ovenstående betragtninger er en
> tommelfingerregel - det skal ikke gælde eksakt.
> 93% er i den forbindelse _meget_ tæt på 95%. De
> 64% lyder lidt værre. Har du set på "om data er
> klokkeformet fordelt".
Ja, ofte med en skævhed (pearsons) mod personer over gennemsnittet.
> Hvordan ser dine data helt præcist ud - det lyder
> som om der er tale om "tælledata" altså at I
> f.eks. har en tabel som denne
> Ledighedsgrad/alder: 20-25 25-30 30+
> Lidt x11 x12 x13
> mellem x21 x22 x23
> meget x31 x32 x33
>
Næsten
Fx. for ledighedsgrad 0,901-1,000
alder --->>>> 20-24 25-29 30-34
amt (lodret
Bornholm x10 x11 x12
Fredriksborg x21 x22 x23
Fyn x31 x32 x33
Hvis du (eller andre) vil, så kan jeg sende dig de "rå data" med de
beregninger jeg allerede har foretaget (det drejer sig om ca. 1
Megabyte data ukomprimeret).
Med venlige påske hilsner
Carsten Riis
Amt
| |
Kasper Daniel Hansen (01-04-2002)
| Kommentar Fra : Kasper Daniel Hansen |
Dato : 01-04-02 01:19 |
|
> Næsten
>
> Fx. for ledighedsgrad 0,901-1,000
>
> alder --->>>> 20-24 25-29 30-34
> amt (lodret
> Bornholm x10 x11 x12
> Fredriksborg x21 x22 x23
> Fyn x31 x32 x33
>
Hvert af x'erne må så være antallet af personer i
den given kategori. Jeg vil gå ud fra
at du regner på det som om xij er normal fordelt?
Dette vil være forholdsvist usædvanligt,
du betragter nogle antalstabeller og disse
analyseres sædvanligvis ved
poissonfordelings/polynomialfordelingsmodeller.
Når du siger at et datasæt er under 64% hvad er
det så helt præcist du udregner spredningen af?
Kasper
(som frabeder sig 1MB over posten :) ).
| |
Carsten Riis (01-04-2002)
| Kommentar Fra : Carsten Riis |
Dato : 01-04-02 16:31 |
|
"Kasper Daniel Hansen" <kdh@omk.dk> wrote in message news:<a888vt$qkb$1@sunsite.dk>...
> > Næsten
> >
> > Fx. for ledighedsgrad 0,901-1,000
> >
> > alder --->>>> 20-24 25-29 30-34
> > amt (lodret
> > Bornholm x10 x11 x12
> > Fredriksborg x21 x22 x23
> > Fyn x31 x32 x33
> >
>
> Hvert af x'erne må så være antallet af personer i
> den given kategori.
jep.
> Jeg vil gå ud fra
> at du regner på det som om xij er normal fordelt?
Jeg regner det ud som om hvert amt skal være normalfordelt.
Totalt set (alle amter summeret) er totalt er normalfordelt, men det
er enkelte amter som ikke er det.
> Dette vil være forholdsvist usædvanligt,
> du betragter nogle antalstabeller og disse
> analyseres sædvanligvis ved
> poissonfordelings/polynomialfordelingsmodeller.
>
Okay dokey. Det vil jeg så gøre.
> Når du siger at et datasæt er under 64% hvad er
> det så helt præcist du udregner spredningen af?
>
Den empiriske regel siger jo, at ca. 68% af data skal være indenfor 1
gange standardafvigelsen fra gennemsnittet
Konkret er der fx 38.687 mennesker i Københavns Amt som har været
berørt af arbejdsløshed i 2001. gennemsnitsalderen er på 40,75 år og
standardafvigelsen er 11,63.
Det antal ledige som er mellem 29 og 52 (jeg regner så med hele
intervaller dvs. 25-55 år, da jeg ikke har antal ledige for hvert år
for sig, men kun i intervaller a 5 år) er på 25.301. Altså på 65,4% af
de ledige som findes i Københavns Amt er indenfor 1 standardafvigelse
af gennemsnittet.
> Kasper
>
> (som frabeder sig 1MB over posten :) ).
Fair nok.
Filen bliver altså på ca. 200 kb vha. winzip.
Og det kan laves endnu mindre, men så ryger pivot-systemet.
Med venlig hilsen
Carsten Riis
| |
|
|