Kandu.dk - Normal fordeling hvorfor ?


/ Forside / Karriere / Uddannelse / Højere uddannelser / Nyhedsindlæg

Glemt dit kodeord?

Brugernavn*

Kodeord *

Husk mig

Brugerservice

Kom godt i gang

Bliv medlem

Seneste indlæg

Find en bruger

Stil et spørgsmål

Skriv et tip

Fortæl en ven

Pointsystemet

Kontakt Kandu.dk

Emnevisning

Kategorier

Alfabetisk

Karriere

Interesser

Teknologi

Reklame

Top 10 brugere

Højere uddannelser

#	Navn	Point
1	Nordsted1	1588
2	erling_l	1224
3	ans	1150
4	dova	895
5	gert_h	800
6	molokyle	661
7	berpox	610
8	creamygirl	610
9	3773	570
10	jomfruane	570

Normal fordeling hvorfor ?
Fra : Anders Christiansen

Dato : 11-10-04 19:05

Hvad betyder det for mig at min data ikke er normalt fordelt ?

Mine data er et udtryk for energi forbrug hos ca. 400 individer, som
jeg skal relatere til nogle svar fra nogle spørgeskemaer.

Mine dataer er ikke normalfordelte, hvis jeg bruger swilk funktionen i
STATA 6.0. Jeg kan ved hjælp af ladder funktionen finde nogle
transformationer, som ikke kan udelukkes at være normalt fordelte.
Lnskew0 giver ikke et normalt fordelt resultat, igen ifølge swilk.

Men hvad betyder det for mig ?

jeg havde tænkt mig at bruge nptrend, som er bruger wilcoxon rank sum
(tror jeg nok) og regression.

Skal jeg bruge de normaliserede data i begge tests, eller kan jeg
bruge ikke normaltfordelte data i de to tests?

Håber at der er nogen der forstår mere end mig, der gider at hjælpe
mig.

Hilsen

Anders Christiansen
Stud. Med. (fortvivlet)

Jens Axel Søgaard (11-10-2004)

Kommentar
Fra : Jens Axel Søgaard

Dato : 11-10-04 19:46

Anders Christiansen wrote:

> Hvad betyder det for mig at min data ikke er normalt fordelt ?

At du er nødt til at finde en anden fordeling?

> Mine data er et udtryk for energi forbrug hos ca. 400 individer, som
> jeg skal relatere til nogle svar fra nogle spørgeskemaer.

Tør man spørge om, hvilke typer spørgsmål og svar det drejer sig om?

Selv er jeg ikke en statistikhaj, men mon ikke der er andre
her i gruppen, der har et bud, hvis du afslører lidt mere om
datatypen. Jeg har på fornemmelsen, at svaret afhænger ganske
meget af datatypen.

--
Jens Axel Søgaard

Aage Andersen (11-10-2004)

Kommentar
Fra : Aage Andersen

Dato : 11-10-04 20:20

Martin Jørgensen (11-10-2004)

Kommentar
Fra : Martin Jørgensen

Dato : 11-10-04 21:02

Anders Christiansen wrote:

> Hvad betyder det for mig at min data ikke er normalt fordelt ?

At det ikke er let at regne videre med dem. Du ved vel godt hvordan en
normalfordelingskurve ser ud?

> Mine data er et udtryk for energi forbrug hos ca. 400 individer, som
> jeg skal relatere til nogle svar fra nogle spørgeskemaer.

Tjaa, prøv at ændre alfa-værdien... øøhm, signifikans-niveauet eller
hvad det nu hedder i dit program. SVJH kan du sætte den til 10% istedet
for f.eks. 5% og så kan det være at dataene passer bedre Glad

> Mine dataer er ikke normalfordelte, hvis jeg bruger swilk funktionen i
> STATA 6.0. Jeg kan ved hjælp af ladder funktionen finde nogle
> transformationer, som ikke kan udelukkes at være normalt fordelte.
> Lnskew0 giver ikke et normalt fordelt resultat, igen ifølge swilk.
>
> Men hvad betyder det for mig ?

Hvad syntes du selv? Så må du lade være med at lave statistik på dataene.

> jeg havde tænkt mig at bruge nptrend, som er bruger wilcoxon rank sum
> (tror jeg nok) og regression.

Vildt gæt: nptrend = normal probability trend? Wilcoxon rank sum = hvad?
(det skal du fortælle mig)?

Regression er vist noget med rette linjer.

> Skal jeg bruge de normaliserede data i begge tests, eller kan jeg
> bruge ikke normaltfordelte data i de to tests?

Prøv at forklar hvad det hedder på dansk istedet for hvad du læser på
computerskærmen, så kan det være at jeg kan hjælpe lidt mere.

> Håber at der er nogen der forstår mere end mig, der gider at hjælpe
> mig.

Hvad for data snakker vi om, sådan mere præcist (noget med energi,
skriver du?).

mvh.
Martin Jørgensen

--
---------------------------------------------------------------------------
Home of Martin Jørgensen - http://www.martinjoergensen.dk

Jesper Harder (11-10-2004)

Kommentar
Fra : Jesper Harder

Dato : 11-10-04 21:24

christiansen.anders@gmail.com (Anders Christiansen) writes:

> Hvad betyder det for mig at min data ikke er normalt fordelt ?
>
> Mine data er et udtryk for energi forbrug hos ca. 400 individer, som
> jeg skal relatere til nogle svar fra nogle spørgeskemaer.

Kan energiforbruget nogensinde være negativt?

Hvis det ikke er tilfældet, kan vi a priori afgøre, at fordelingen
umuligt kan være normaltfordelt. En Gauss-kurve strækker sig jo fra
minus uendelig til uendelig, og der vil således altid være en
ikke-forsvindende sandsynlighed for en negativ energi.

--
Jesper Harder <http://purl.org/harder/>

Jeppe Stig Nielsen (11-10-2004)

Kommentar
Fra : Jeppe Stig Nielsen

Dato : 11-10-04 22:08

Jesper Harder wrote:
>
> Kan energiforbruget nogensinde være negativt?
>
> Hvis det ikke er tilfældet, kan vi a priori afgøre, at fordelingen
> umuligt kan være normaltfordelt. En Gauss-kurve strækker sig jo fra
> minus uendelig til uendelig, og der vil således altid være en
> ikke-forsvindende sandsynlighed for en negativ energi.

Rent principielt har du ret, men i praksis kan man ofte bruge en normal-
fordelingsmodel alligevel. Man kan fx regne med at højden af unge
kvinder er normalfordelt.

At man lige bruger normalfordelingen i mange tilfælde frem for en anden
fordeling, hænger som bekendt sammen med den centrale grænseværdi-
sætning. Den kan (med lidt god vilje) fortolkes sådan at en størrelse
der afhænger af mange små, uafhængige bidrag, med tilnærmelse er normal-
fordelt.

Hvis de små bidrag fungerer multiplikativt, kan det være man skal følge
Aages forslag om at tage logaritmen til størrelsen.

--
Jeppe Stig Nielsen <URL:http://jeppesn.dk/>. «

"Je n'ai pas eu besoin de cette hypothèse (I had no need of that
hypothesis)" --- Laplace (1749-1827)

David T. Metz (12-10-2004)

Kommentar
Fra : David T. Metz

Dato : 12-10-04 12:38

Jesper Harder wrote:

> Kan energiforbruget nogensinde være negativt?
>
> Hvis det ikke er tilfældet, kan vi a priori afgøre, at fordelingen
> umuligt kan være normaltfordelt.

Det er jo bare et spørgsmål om at vælge nulpunkt, så den indvending er
irrelevant.

David

Aage Andersen (12-10-2004)

Kommentar
Fra : Aage Andersen

Dato : 12-10-04 12:49

"David T. Metz"
> Jesper Harder wrote:
>
>> Kan energiforbruget nogensinde være negativt?
>>
>> Hvis det ikke er tilfældet, kan vi a priori afgøre, at fordelingen
>> umuligt kan være normaltfordelt.
>
> Det er jo bare et spørgsmål om at vælge nulpunkt, så den indvending er
> irrelevant.
>
> David

Det er ikke korrekt. Selvom man skifter nulpunkt vil fordelingen have en
nedre grænse. Det har en normalfordeling ikke, som bemærket af Jeppe Stig.

Det er derfor jeg foreslaar at tage logaritmen. Den har ingen nedre grænse.

mvh Aage

David T. Metz (12-10-2004)

Kommentar
Fra : David T. Metz

Dato : 12-10-04 13:00

Aage Andersen wrote:
> "David T. Metz"
>> Jesper Harder wrote:
>>
>>> Kan energiforbruget nogensinde være negativt?
>>>
>>> Hvis det ikke er tilfældet, kan vi a priori afgøre, at fordelingen
>>> umuligt kan være normaltfordelt.
>>
>> Det er jo bare et spørgsmål om at vælge nulpunkt, så den indvending
>> er irrelevant.

>
> Det er ikke korrekt. Selvom man skifter nulpunkt vil fordelingen have
> en nedre grænse.

Undskyld, men *hvilken* fordeling vil have en nedre grænse (den målte?) og
hvad er problemet? Med et endeligt antal målinger er der altid en nedre
grænse.

> Det har en normalfordeling ikke, som bemærket af
> Jeppe Stig.
> Det er derfor jeg foreslaar at tage logaritmen. Den har ingen nedre
> grænse.

For at jeg skal forstå hvad du mener her bliver jeg vist nødt til at få svar
på ovst.

Det jeg taler om er bare hvor man sætter "nul" i sine data.

David

Aage Andersen (12-10-2004)

Kommentar
Fra : Aage Andersen

Dato : 12-10-04 14:25

"David T. Metz"
> Undskyld, men *hvilken* fordeling vil have en nedre grænse (den målte?) og
> hvad er problemet? Med et endeligt antal målinger er der altid en nedre
> grænse.

Jeg mener den teoretiske fordeling af mulige data.

Da der er tale om energiforbrug gaar jeg ud fra at dette aldrig er negativt.
Det oprindelige spørgsmaal siger ikke noget om hvilken form for
energiforbug,
der er tale om. Jeg har forestillet mig det var elektrisk energi.
Der er selvfølgelig den mulighed at en "forbruger" sender energi ud paa
nettet
med sin vindmølle men jeg tvivler paa at dette er relevant i den stillede
opgave.

Hvis der f.eks er tale om fødeindtagelse vil de mulige værdier for energi
ogsaa
altid være >= 0, medmindre der er tale om f.eks malkekøer.

mvh Aage

David T. Metz (13-10-2004)

Kommentar
Fra : David T. Metz

Dato : 13-10-04 12:50

Aage Andersen wrote:
> "David T. Metz"
>> Undskyld, men *hvilken* fordeling vil have en nedre grænse (den
>> målte?) og hvad er problemet? Med et endeligt antal målinger er der
>> altid en nedre grænse.
>
> Jeg mener den teoretiske fordeling af mulige data.

Oki-doki. Men så er det jo bare et spørgsmål om hvordan man sætter sin skala
op. Sætter man fx middeltallet til 0 så får man nogle med negativ værdi. Det
er såmænd blot den helt banale pointe jeg har prøvet at fremsætte.

David

Hans Henrik Hansen (12-10-2004)

Kommentar
Fra : Hans Henrik Hansen

Dato : 12-10-04 17:10

David T. Metz <dtm.ioa@cbs.dk.invalid> wrote:
....
> Undskyld, men *hvilken* fordeling vil have en nedre grænse (den målte?) og
> hvad er problemet? Med et endeligt antal målinger er der altid en nedre
> grænse.

Jeg tror, du blander *målingerne* ('stikprøven') og *fordelingen* (som
jo er en [hypotetisk] model) sammen!?

Det er klassisk at antage fx. 'sideafvigelse' ved skydning mod en skive
som værende normalfordelt om sigtepunktet: Uanset hvor mange skud, der
afgives (stikprøven), vil de naturligvis alle have en endelig
sideafvigelse - men der kan ikke (à priori) defineres nogen numerisk
grænse for *mulig* sideafvigelse.
[Og lad nu være med at fortælle mig, at våbnet kun har en endelig
skudvidde - for i så fald får du blot et 'lasergevær' udleveret! :)]
....
> Det jeg taler om er bare hvor man sætter "nul" i sine data.

Løser ikke 'problemet': Energiforbruget kan i den givne sammenhæng næppe
antage værdier < 0.

--
(fjern slet fra mail adr.)
med venlig hilsen
Hans

David T. Metz (13-10-2004)

Kommentar
Fra : David T. Metz

Dato : 13-10-04 12:53

Hans Henrik Hansen wrote:
> David T. Metz <dtm.ioa@cbs.dk.invalid> wrote:
> ...
>> Undskyld, men *hvilken* fordeling vil have en nedre grænse (den
>> målte?) og hvad er problemet? Med et endeligt antal målinger er der
>> altid en nedre grænse.
>
> Jeg tror, du blander *målingerne* ('stikprøven') og *fordelingen* (som
> jo er en [hypotetisk] model) sammen!?

Jeg tror vi har snakket lidt forbi hinanden, men jeg er ikke helt sikker.

> [Og lad nu være med at fortælle mig, at våbnet kun har en endelig
> skudvidde - for i så fald får du blot et 'lasergevær' udleveret! :)]
> ...

Alt empirisk er endeligt. Men det er en helt anden diskussion. Lad os netop
forsøge at undgå at sammenblande dem.

>> Det jeg taler om er bare hvor man sætter "nul" i sine data.
>
> Løser ikke 'problemet': Energiforbruget kan i den givne sammenhæng
> næppe antage værdier < 0.

Det er *alene* afhængigt af skalavalg. Skalavalget er er jo ikke dikteret af
Gud.

David

Jens Axel Søgaard (13-10-2004)

Kommentar
Fra : Jens Axel Søgaard

Dato : 13-10-04 13:16

David T. Metz wrote:
> Hans Henrik Hansen wrote:

>>>Det jeg taler om er bare hvor man sætter "nul" i sine data.
>>
>>Løser ikke 'problemet': Energiforbruget kan i den givne sammenhæng
>>næppe antage værdier < 0.

> Det er *alene* afhængigt af skalavalg. Skalavalget er er jo ikke dikteret af
> Gud.

Kurven for en normalfordeling er klokkeformet. Det betyder, at der i
modellen er mulighed for at observere udfald vilkårligt langt fra
middelværdien (omtalt som "nulpunkt" tidligere i diskussionen). Derfor
vil der kunne forekomme negative observationer i modellen, uanset hvilken
middelværdi, der benyttes.

Hvis det man forsøger at modellere har den egenskab, at negative
observationer aldrig forekommer, så er det ikke oplagt, at en
normalfordeling beskriver sitationen godt.

Hvis sandsynligheden for et negativt udfald er meget lille (dvs middelværdien
er stor), så vil man i nogle situationer med god tilnærmelse kunne anvende
en normalfordeling som model alligevel.

--
Jens Axel Søgaard

David T. Metz (13-10-2004)

Kommentar
Fra : David T. Metz

Dato : 13-10-04 14:25

Jens Axel Søgaard wrote:

> Hvis det man forsøger at modellere har den egenskab, at negative
> observationer aldrig forekommer, så er det ikke oplagt, at en
> normalfordeling beskriver sitationen godt.

På den anden side udelukker det det heller ikke. Legemshøjde har været nævnt
og adskillige andre naturlige forhold kunne nævnes.

David

Jens Axel Søgaard (13-10-2004)

Kommentar
Fra : Jens Axel Søgaard

Dato : 13-10-04 14:34

David T. Metz wrote:
> Jens Axel Søgaard wrote:
>
>
>>Hvis det man forsøger at modellere har den egenskab, at negative
>>observationer aldrig forekommer, så er det ikke oplagt, at en
>>normalfordeling beskriver sitationen godt.
>
>
> På den anden side udelukker det det heller ikke. Legemshøjde har været nævnt
> og adskillige andre naturlige forhold kunne nævnes.

Det er det, der står i sidste afsnit Glad

Men jeg mener ikke, at man kan sige det *alene* drejer
sig om skalavalg.

--
Jens Axel Søgaard

David T. Metz (13-10-2004)

Kommentar
Fra : David T. Metz

Dato : 13-10-04 14:56

Jens Axel Søgaard wrote:
> David T. Metz wrote:
>> Jens Axel Søgaard wrote:
>>
>>
>>> Hvis det man forsøger at modellere har den egenskab, at negative
>>> observationer aldrig forekommer, så er det ikke oplagt, at en
>>> normalfordeling beskriver sitationen godt.
>>
>>
>> På den anden side udelukker det det heller ikke. Legemshøjde har
>> været nævnt og adskillige andre naturlige forhold kunne nævnes.
>
> Det er det, der står i sidste afsnit Glad

Ikke helt. Du skrev:
"Hvis sandsynligheden for et negativt udfald er meget lille", og for fx
legemshøjde og de fleste andre naturlige forhold er den nul, dvs. ikke
"meget lille", men ikke-eksisterende.

> Men jeg mener ikke, at man kan sige det *alene* drejer
> sig om skalavalg.

Nå, så lad os da ryge en fredspibe på det.

David

Jens Axel Søgaard (13-10-2004)

Kommentar
Fra : Jens Axel Søgaard

Dato : 13-10-04 16:43

David T. Metz wrote:

> Ikke helt. Du skrev:
> "Hvis sandsynligheden for et negativt udfald er meget lille", og for fx
> legemshøjde og de fleste andre naturlige forhold er den nul, dvs. ikke
> "meget lille", men ikke-eksisterende.

Oh - Med "Hvis sandsynligheden for et negativt udfald er meget lille"
mente jeg sansynligheden i den normalfordelte model - det kunne
have været tydeligere.

> Nå, så lad os da ryge en fredspibe på det.

Gi'r du?

--
Jens Axel Søgaard

Martin Jørgensen (13-10-2004)

Kommentar
Fra : Martin Jørgensen

Dato : 13-10-04 19:38

Jens Axel Søgaard wrote:

-snip-

> Hvis sandsynligheden for et negativt udfald er meget lille (dvs
> middelværdien
> er stor), så vil man i nogle situationer med god tilnærmelse kunne anvende

Du har fuldstændigt glemt at spredningen også spiller ind, så det er
faktisk ikke helt korrekt det du skriver. Hvis jeg skal korrigere dig
lidt, så vil jeg sige at en stor middelværdi og stor spredning altså
godt kan have større sandsynlighed for neg. udfald end lille middelværdi
og lille spredning. Ergo er din påstand er ikke endegyldigt sand. Men
det er selvfølgelig bare en detalje...

> en normalfordeling som model alligevel.

I praksis følger måledata næppe i virkeligheden en normalfordeling. Det
er kun i teorien de gør det og man kan så på forskellige måder beregne
om hvorvidt man kan *antage* at - selvom data ikke følger en
normalfordeling - så "lader" vi som om de alligevel er normalfordelte...

mvh.
Martin Jørgensen

--
---------------------------------------------------------------------------
Home of Martin Jørgensen - http://www.martinjoergensen.dk

Jens Axel Søgaard (13-10-2004)

Kommentar
Fra : Jens Axel Søgaard

Dato : 13-10-04 21:21

Martin Jørgensen wrote:

> Jens Axel Søgaard wrote:

>> Hvis sandsynligheden for et negativt udfald er meget lille (dvs
>> middelværdien
>> er stor), så vil man i nogle situationer med god tilnærmelse kunne
>> anvende

> Du har fuldstændigt glemt at spredningen også spiller ind, så det er
> faktisk ikke helt korrekt det du skriver. Hvis jeg skal korrigere dig
> lidt, så vil jeg sige at en stor middelværdi og stor spredning altså
> godt kan have større sandsynlighed for neg. udfald end lille middelværdi
> og lille spredning. Ergo er din påstand er ikke endegyldigt sand. Men
> det er selvfølgelig bare en detalje...

Heldigvis spiller spredningen ikke den store rolle med hensyn til min
hovedpointe, som var, at så snart man har valgt en normalfordeling
som model, så man acceptere at P(X<0)>0 uanset, hvilken middelværdi
og spredning man anvender.

--
Jens Axel Søgaard

Peter Makholm (12-10-2004)

Kommentar
Fra : Peter Makholm

Dato : 12-10-04 12:46

"David T. Metz" <dtm.ioa@cbs.dk.invalid> writes:

> Jesper Harder wrote:
>
>> Kan energiforbruget nogensinde være negativt?
>>
>> Hvis det ikke er tilfældet, kan vi a priori afgøre, at fordelingen
>> umuligt kan være normaltfordelt.
>
> Det er jo bare et spørgsmål om at vælge nulpunkt, så den indvending er
> irrelevant.

Nej, hvis noget er normalfordelt så er der en positiv sandsynlighed
(dvs ikke-nul) for et udfald i et givet interval vilkårlig langt væk
fra gennemsnittet. Når man har en mindste-energi kan dette
selvfølgelig ikke passe med normalfordelingen.

Så skal man selvfølgelig tænke på at 'normalfordeling' bare er en
model for den virkelighed man ønsker at beskriver og at man ikke skal
lade sig tyranisere af modellen.

--
Peter Makholm | 'Cause suicide is painless
peter@makholm.net | It brings on many changes
http://hacking.dk | And I can take or leave it if I please
| -- Suicide is painless

David T. Metz (12-10-2004)

Kommentar
Fra : David T. Metz

Dato : 12-10-04 13:02

Peter Makholm wrote:
> Når man har en mindste-energi kan dette
> selvfølgelig ikke passe med normalfordelingen.

Med et endeligt antal målinger vil der altid være en største- og en
mindsteværdi.

> Så skal man selvfølgelig tænke på at 'normalfordeling' bare er en
> model for den virkelighed man ønsker at beskriver og at man ikke skal
> lade sig tyranisere af modellen.

Præcis.

David

Peter Makholm (12-10-2004)

Kommentar
Fra : Peter Makholm

Dato : 12-10-04 13:25

"David T. Metz" <dtm.ioa@cbs.dk.invalid> writes:

> Peter Makholm wrote:
>> Når man har en mindste-energi kan dette
>> selvfølgelig ikke passe med normalfordelingen.
>
> Med et endeligt antal målinger vil der altid være en største- og en
> mindsteværdi.

Selvfølgelig. Men der er forskel på en mindste måling og en mindst
mulige værdi.

Hvis vi nu tæller æbler på æbletræer, så mener jeg at der er en
forskel på at vi ikke finder træer med under 45 æbler på og at vi ikke
finder træer med under 0 æbler på.

Hvis nu vores målinger viser målinger fra 19 til 63 med 40 æbler som
gennemsnit så er det mindre problematisk at bare råbe 'normalfordelt!'
end hvis gennemsnittet er 5 og målingerne går fra 0 til 15 æbler.

--
Peter Makholm | What if:
peter@makholm.net | Tanenbaum had convinced Linus that his
http://hacking.dk | operating system really was obsolete

David T. Metz (12-10-2004)

Kommentar
Fra : David T. Metz

Dato : 12-10-04 13:42

Peter Makholm wrote:

> Hvis vi nu tæller æbler på æbletræer, så mener jeg at der er en
> forskel på at vi ikke finder træer med under 45 æbler på og at vi ikke
> finder træer med under 0 æbler på.

Fair nok, men i denne sammenhæng er det helt "tilfældigt" idet statistikken
er ligeglad med vores skalaers referentialitet. Det er jo kun fordi du ikke
har en reference til hvad "-1 æble" skulle betyde, at du synes det gør en
forskel.

> Hvis nu vores målinger viser målinger fra 19 til 63 med 40 æbler som
> gennemsnit så er det mindre problematisk at bare råbe 'normalfordelt!'
> end hvis gennemsnittet er 5 og målingerne går fra 0 til 15 æbler.

Jeg tror ikke vi er uenige her.

David

Jeppe Stig Nielsen (13-10-2004)

Kommentar
Fra : Jeppe Stig Nielsen

Dato : 13-10-04 16:35

Peter Makholm wrote:
>
> Så skal man selvfølgelig tænke på at 'normalfordeling' bare er en
> model for den virkelighed man ønsker at beskriver og at man ikke skal
> lade sig tyranisere af modellen.

Kan I nævne én eneste praktisk anvendelse af en normalfordelingsmodel
hvor den alleryderste »hale« ikke er absurd.

Hvis man fx betragter x-koordinaten X af en partikels hastighed når
partiklen indgår i en gas (som i statistisk mekanik), så er denne jo
normalfordelt. Men det skulle betyde at der er en positiv sandsynlighed
for at denne partikel alene har større kinetisk energi end energien af
hele det synlige kosmos, inklusive mørkt stof, vakuumenergi og det hele.
Og hvad så?

Vi véd jo alle at »halen« af en frekvensfunktion (tæthedsfunktion)
aftager hurtigere end eksponentielt, så den slags indvendinger er ret
åndsvage i praksis.

Hvis vi fx siger at højden af unge kvinder er normalfordelt med
middelværdi 168 cm og spredning 20 cm (bare for at vælge nogle tal),
så er sandsynligheden for at en kvinde er under 0 cm ifølge modellen
på ... øh, min regnemaskine svarer 0, men den kan ikke klare positive
tal under 10^{-100}.

--
Jeppe Stig Nielsen <URL:http://jeppesn.dk/>. «

"Je n'ai pas eu besoin de cette hypothèse (I had no need of that
hypothesis)" --- Laplace (1749-1827)

Hans Henrik Hansen (13-10-2004)

Kommentar
Fra : Hans Henrik Hansen

Dato : 13-10-04 18:17

Jeppe Stig Nielsen <mail@jeppesn.dk> wrote:

....
> Hvis man fx betragter x-koordinaten X af en partikels hastighed når
> partiklen indgår i en gas (som i statistisk mekanik), så er denne jo
> normalfordelt.

Kan man overhovedet sige/skrive sådan?
Bør man ikke rettere skrive: "...kan den med (overordentlig) god
tilnærmelse beskrives/modelleres som værende normalfordelt"?

eller: "...antages denne traditionelt at være normalfordelt"?

--
(fjern slet fra mail adr.)
med venlig hilsen
Hans

Martin Jørgensen (13-10-2004)

Kommentar
Fra : Martin Jørgensen

Dato : 13-10-04 19:31

Jeppe Stig Nielsen wrote:

-snip-

> Vi véd jo alle at »halen« af en frekvensfunktion (tæthedsfunktion)
> aftager hurtigere end eksponentielt, så den slags indvendinger er ret
> åndsvage i praksis.
>
> Hvis vi fx siger at højden af unge kvinder er normalfordelt med
> middelværdi 168 cm og spredning 20 cm (bare for at vælge nogle tal),
> så er sandsynligheden for at en kvinde er under 0 cm ifølge modellen
> på ... øh, min regnemaskine svarer 0, men den kan ikke klare positive
> tal under 10^{-100}.

Det her svar er ikke lige specielt møntet på dig, Jeppe, da jeg kan se
at der er mange (evt. nogle stykker) der er inde på den diskussion der
med at en kvindes højde f.eks. bliver negativ når man siger at højden er
normalfordelt....

Jeg mener at det er noget værre pjat i er ude i, fordi man allerede i
det øjeblik man siger at noget er normalfordelt, regner med en
usikkerhed - signifikans - f.eks. 5%.... Det betyder altså at i 5% af
tilfældene kan man ikke anvende normalfordelingen som beskrivelsesmodel
for variationen i måledata - det antager man ihvertfald gælder.... Og
eksemplet med din spredning på 20 cm er da rimelig nok (som du skriver,
bare for at tage nogle tal).

Så vedr. din kommentar med præcisionen af tal på din lommeregner, så er
jeg sikker på at den godt kan vise at 5% = 0,05.... Det kan vist selv de
simpleste lommeregnere og derfor så kan man regne med at en kvindes
højde *aldrig* nogensinde bliver negativ og den er milevidt fra nærme
sig det negative...

Det er godtnok noget tid siden jeg har haft statistik, så korrekt mig
hvis jeg skriver noget forkert. Det her er sådan frit fra hukommelsen.

mvh.
Martin Jørgensen

--
---------------------------------------------------------------------------
Home of Martin Jørgensen - http://www.martinjoergensen.dk

Hans Henrik Hansen (13-10-2004)

Kommentar
Fra : Hans Henrik Hansen

Dato : 13-10-04 20:01

Martin Jørgensen wrote:
....
> Jeg mener at det er noget værre pjat i er ude i, fordi man allerede i
> det øjeblik man siger at noget er normalfordelt, regner med en
> usikkerhed - signifikans - f.eks. 5%.... Det betyder altså at i 5% af
> tilfældene kan man ikke anvende normalfordelingen som beskrivelsesmodel
> for variationen i måledata - det antager man ihvertfald gælder....

Nej, her mener jeg (uden *helt* at være på sikker grund!), at du formulerer
dog temmelig upræcist: For mig hører 'signifikans'(-niveau) (og
'konfidensinterval') sammen med udsagn om (estimater vedr.) en fordeling
*på basis af en (flere?) stikprøve(r)*.
Via en stikprøve kunne man fx. estimere en (normal)fordelings parametre
(middelværdi/varians) som befindende sig inden for nærmere angivne
intervaller - med eksempelvis 95% sandsynlighed/'trovædighed' ('konfidens')
for at de 'estimerede intervaller' *omslutter* de 'sande' parameterværdier
(?)

--
med venlig hilsen
Hans

Martin Jørgensen (14-10-2004)

Kommentar
Fra : Martin Jørgensen

Dato : 14-10-04 20:12

Hans Henrik Hansen wrote:

> Martin Jørgensen wrote:
> ...
>
>>Jeg mener at det er noget værre pjat i er ude i, fordi man allerede i
>>det øjeblik man siger at noget er normalfordelt, regner med en
>>usikkerhed - signifikans - f.eks. 5%.... Det betyder altså at i 5% af
>>tilfældene kan man ikke anvende normalfordelingen som beskrivelsesmodel
>>for variationen i måledata - det antager man ihvertfald gælder....
>
>
> Nej, her mener jeg (uden *helt* at være på sikker grund!), at du formulerer
> dog temmelig upræcist: For mig hører 'signifikans'(-niveau) (og

Det kan sagtens ske Glad

Er lang tid siden jeg havde statistik og har
ikke åbnet en bog siden dag om statistik...

> 'konfidensinterval') sammen med udsagn om (estimater vedr.) en fordeling
> *på basis af en (flere?) stikprøve(r)*.

Det hører vist også sammen med hypoteseprøvning og jeg mener også at det
er det man bruger når man bestemmer om man vil antage at noget følger en
normalfordeling... Skidt pyt, jeg gider ikke at slå det op...

> Via en stikprøve kunne man fx. estimere en (normal)fordelings parametre
> (middelværdi/varians) som befindende sig inden for nærmere angivne
> intervaller - med eksempelvis 95% sandsynlighed/'trovædighed' ('konfidens')
> for at de 'estimerede intervaller' *omslutter* de 'sande' parameterværdier
> (?)

Nååååh, nu forstår jeg hvad du mener Glad

Nej, jeg tænker ikke på konfidens-intervaller og signifikans i den
forbindelse. Jeg tænker på "normalfordelingstests".... Hvis du er
interesseret skal jeg prøve at slå det op så jeg kan give dig et mere
præcist svar. Jeg kan huske at i programmet "Statgraphics", som vi
brugte på DTU, testes der for 4 ting... Og hvis alle 4 ting ligger under
- hmmm: signifikans-niveauet??? (kan godt være at det hedder noget
andet), så siger man at man kan antage at data følger en normalfordeling.

Dvs. Man bruger altså en grænse når man matematisk fastslår om data
følger en normalfordeling og her tænker jeg ikke på
konfidens-intervaller, fordi det siger *absolut* intet om hvorvidt data
følger en normalfordeling eller ej. Det må du give mig ret i, ikke sandt?

Du har måske ret i at vi går forbi hinanden mht. ordet
"signifikans-niveau" og det skyldes at jeg ikke kan huske hvad den
grænse ellers hedder som ihvertfald defineres i Statgraphics.

mvh.
Martin Jørgensen

--
---------------------------------------------------------------------------
Home of Martin Jørgensen - http://www.martinjoergensen.dk

Hans Henrik Hansen (14-10-2004)

Kommentar
Fra : Hans Henrik Hansen

Dato : 14-10-04 22:31

Martin Jørgensen wrote:
....
> Du har måske ret i at vi går forbi hinanden mht. ordet
> "signifikans-niveau" og det skyldes at jeg ikke kan huske hvad den
> grænse ellers hedder som ihvertfald defineres i Statgraphics.

Ja, mit (meget ufuldstændige) kendskab til sagen begrænser sig faktisk til
det, jeg skrev om - test for, hvorvidt aktuelle stikprøver kan antages at
tilhøre den ene eller ander fordeling kender jeg faktisk intet til! :)

Men her er sikkert nogle klogere hoveder - med mere paratviden - der bedre
kan sætte begreberne på plads for os alle!?

--
(slet 'fjern' fra mail-adr.)
med venlig hilsen
Hans

Omnolog HMH (11-10-2004)

Kommentar
Fra : Omnolog HMH

Dato : 11-10-04 22:31

"Anders Christiansen" <christiansen.anders@gmail.com> wrote in message
news:1341e4ab.0410111004.2acbefa0@posting.google.com...
> Hvad betyder det for mig at min data ikke er normalt fordelt ?

Der er jo nogle statistik modeller, der forudsætter, at stikprøven er
normalfordelt. Er den ikke det, må du prøve at transformere den (som en
anden een også foreslog)

Alternativt må du jo finde nogle statistiske tests, der ikke har denne
forudsætning.

Ellers må du spørge Anders Helmer. Han ved alt.

Anders Christiansen (12-10-2004)

Kommentar
Fra : Anders Christiansen

Dato : 12-10-04 12:50

"Omnolog HMH" <hhestbechrouladea@oohay.dk> wrote in message
>
> Ellers må du spørge Anders Helmer. Han ved alt.

Ja men han tager ikke sin telefon

Anders Christiansen (12-10-2004)

Kommentar
Fra : Anders Christiansen

Dato : 12-10-04 13:06

> Der er jo nogle statistik modeller, der forudsætter, at stikprøven er
> normalfordelt. Er den ikke det, må du prøve at transformere den (som en
> anden een også foreslog)

Hvilke er disse ? hvor kan man finde ud af sådan noget ?

>
> Alternativt må du jo finde nogle statistiske tests, der ikke har denne
> forudsætning.

Hvilke tests er det ? hvor kan jeg læse om disse ? (bare for at
variere ordlyden, det er godt at kunne, når man skriver opgave Glad

)

Omnolog HMH (12-10-2004)

Kommentar
Fra : Omnolog HMH

Dato : 12-10-04 18:03

"Anders Christiansen" <christiansen.anders@gmail.com> wrote in message
news:1341e4ab.0410120405.101419a7@posting.google.com...
> > Der er jo nogle statistik modeller, der forudsætter, at stikprøven er
> > normalfordelt. Er den ikke det, må du prøve at transformere den (som en
> > anden een også foreslog)
>
> Hvilke er disse ? hvor kan man finde ud af sådan noget ?

En bog? eller en statistiker? Der er gratis statistik-support på uni i
nærheden af hvor de faglige tutorer for naturvidenskab holder til.
Bogen kunne fx være Zar (Biostatistiscs, så vidt jeg husker) eller Altman
(Practical statistics for medical research).

>
> >
> > Alternativt må du jo finde nogle statistiske tests, der ikke har denne
> > forudsætning.
>
> Hvilke tests er det ? hvor kan jeg læse om disse ? (bare for at
> variere ordlyden, det er godt at kunne, når man skriver opgave Glad

)

prøv med en statistiker eller en bog. Ellers burde forudsætningerne for de
forskellige tests jo også være listet op et eller andet sted i det program
du bruger.

Går det hele i vasken må du jo spørge en biolog.

Carsten Troelsgaard (12-10-2004)

Kommentar
Fra : Carsten Troelsgaard

Dato : 12-10-04 09:09

"Anders Christiansen" <christiansen.anders@gmail.com> skrev i en meddelelse
news:1341e4ab.0410111004.2acbefa0@posting.google.com...
> Hvad betyder det for mig at min data ikke er normalt fordelt ?
>
> Mine data er et udtryk for energi forbrug hos ca. 400 individer, som
> jeg skal relatere til nogle svar fra nogle spørgeskemaer.

> Mine dataer er ikke normalfordelte,

snip

> Men hvad betyder det for mig ?

At dine data ikke er tilfældige. Du kan hypotisere om hvorfor/hvordan, og teste dine hypoteser. Data
kan fx have en aldersafhængighed som du så må prøve at teste for - og nej, jeg er heller ikke
statistik-haj.

Carsten

Carsten Svaneborg (12-10-2004)

Kommentar
Fra : Carsten Svaneborg

Dato : 12-10-04 12:47

Carsten Troelsgaard wrote:
> At dine data ikke er tilfældige.

Du kan ikke fra fordelingen konkluderer om dine tal er tilfældige
eller ej. Du kan f.eks. have normalt fordelte tilfældige tal,
uniformt fordelte tilfældige tal, sindsyg-fordeling tilfældige tal.

Om en sekvens af tal er tilfældig eller ej, afhænger af i hvor
høj grad du kan forudsige sekvensen, dvs. om korrelationsfunktionerne
er deltafunktioner eller ej.

--
Mvh. Carsten Svaneborg
http://www.softwarepatenter.dk

Jesper Harder (12-10-2004)

Kommentar
Fra : Jesper Harder

Dato : 12-10-04 17:36

"David T. Metz" <dtm.ioa@cbs.dk.invalid> writes:

> Jesper Harder wrote:
>
>> Kan energiforbruget nogensinde være negativt?
>>
>> Hvis det ikke er tilfældet, kan vi a priori afgøre, at fordelingen
>> umuligt kan være normaltfordelt.
>
> Det er jo bare et spørgsmål om at vælge nulpunkt, så den indvending er
> irrelevant.

Nej, problemet forsvinder ikke ved at skifte nulpunkt. Det er ikke en
helt usædvanlig eksperimentel situation at måle en størrelse med et
konfidensinterval som overlapper med en ufysisk region.

Det giver fx ikke mening at aflevere et konfidensinterval på
[-1.0,1.0] kg på en måling af en masse, fordi den nedre grænse er
ufysisk. I de tilfælde har man forskellige metoder til at udlede en
ensidig konfidensgrænse.

--
Jesper Harder <http://purl.org/harder/>

Martin Jørgensen (13-10-2004)

Kommentar
Fra : Martin Jørgensen

Dato : 13-10-04 19:46

Jesper Harder wrote:

-snip-
> Det giver fx ikke mening at aflevere et konfidensinterval på
> [-1.0,1.0] kg på en måling af en masse, fordi den nedre grænse er
> ufysisk. I de tilfælde har man forskellige metoder til at udlede en
> ensidig konfidensgrænse.

Når man antager at data er normalfordelte, så giver det da fint mening
at have et interval i området [-1.0,1.0]
(kg/bananer/æbler/dollars/liter/meter/osv. osv. osv)... I praksis kan en
masse vist ikke være negativ det har du ret i, men enten antager man
altså at data følger en normalfordeling eller også lader man
fuldstændigt vær. Der er ikke nogen mellemvej...

Så hvad er det for forskellige metoder du snakker om?

mvh.
Martin Jørgensen

--
---------------------------------------------------------------------------
Home of Martin Jørgensen - http://www.martinjoergensen.dk

N/A (13-10-2004)

Kommentar
Fra : N/A

Dato : 13-10-04 19:31

Jesper Harder (13-10-2004)

Kommentar
Fra : Jesper Harder

Dato : 13-10-04 20:35

Martin Jørgensen <unoder.spam@spam.jay.net> writes:

> Når man antager at data er normalfordelte, så giver det da fint mening
> at have et interval i området [-1.0,1.0]
> (kg/bananer/æbler/dollars/liter/meter/osv. osv. osv)... I praksis kan en
> masse vist ikke være negativ det har du ret i, men enten antager man
> altså at data følger en normalfordeling eller også lader man
> fuldstændigt vær. Der er ikke nogen mellemvej...

Det er muligt du mener det, men sådan gør man normalt ikke.

> Så hvad er det for forskellige metoder du snakker om?

Particle Data Group har et afsnit om emnet i deres toårlige oversigt
over partikelfysikdata, se

S. Eidelman et al., Phys.Lett. B 592, 1, (2004)

for den seneste.

--
Jesper Harder <http://purl.org/harder/>

Carsten Svaneborg (15-10-2004)

Kommentar
Fra : Carsten Svaneborg

Dato : 15-10-04 12:09

Jesper Harder wrote:
> S. Eidelman et al., Phys.Lett. B 592, 1, (2004)

Siderne 275-297

--
Mvh. Carsten Svaneborg
http://www.softwarepatenter.dk

Jesper Harder (14-10-2004)

Kommentar
Fra : Jesper Harder

Dato : 14-10-04 22:17

Martin Jørgensen <unoder.spam@spam.jay.net> writes:

> Jo, jeg gør og alle andre jeg kender gør det også sådan. Du kan ikke
> bare skære halvdelen af en normalfordelingskurve og lade som at den
> anden halvdel ikke eksisterer

Du har aldrig hørt om Bayesiske intervaller?

>> S. Eidelman et al., Phys.Lett. B 592, 1, (2004)
>
> Det vil altså sige at du ikke gider at forklare hvilke metoder det er du
> taler om.... hmm. Ja, så kan vi jo ikke debattere.

Nej, jeg gider altså ikke gentage noget, som du selv kan læse dig til
-- hvorfor bruge tid på at at forklare noget, som er udmærket
beskrevet i ovenstående reference. Hvis der er noget du ikke forstår
i den eksisterende litteratur om emnet, vil jeg gerne snakke mere om
det.

--
Jesper Harder <http://purl.org/harder/>

Niels L Ellegaard (16-10-2004)

Kommentar
Fra : Niels L Ellegaard

Dato : 16-10-04 01:35

On Fri, 15 Oct 2004 13:09:10 +0200
Carsten Svaneborg <zqex@sted.i.tyskland.de> wrote:

> Jesper Harder wrote:
> > S. Eidelman et al., Phys.Lett. B 592, 1, (2004)
>
> Siderne 275-297

Her er et hurtigt link, men man kan læse artikelen hvis man har abonnement
http://dx.doi.org/10.1016/j.physleb.2004.06.013

Har jeg forstået det følgende rigtigt?

På side 286 og 287 henviser din artikel til forskellige metoder til at estimere gennemsnitlige værdier for neutrinoers masse, M, ud fra deres energi og impuls. De vil gerne konstruere en model, hvor den kvadrerede masse, M^2, er normalfordelt, men samtidig vil man gerne undgå at den kvadrerede masse er negativ (for så bliver massen jo imaginær og det er noget rod). Hvis f(M^2,sigma,mu) angiver en normalfordeling med middelværdi mu og varians sigma^2, så indfører de en betinget fordeling p(M^2,sigma,mu) på følgende form

p(x,sigma,mu) = 0 for x <= 0
p(x,sigma,mu) = f(x,sigma,mu) / int_0^infinity dx f(x,sigma,mu)

Denne fordeling kan fittes til data ved hjælp af maximum likelihood eller bayesisk statistik efter behag, og den kan de bruges til at finde konfidensintervaler for neutrinoens masse. Hvis jeg har forstået metoden rigtigt, så tror jeg ikke at man vinder så meget ved at bruge den til at beskrive danskeres energiforbrug. Selvfølgelig er jeg enig i at man ikke kan have negativt energiforbrug (med mindre man ejer en vindmølle), men min intuition siger mig at man ikke vinder må meget ved at forsøge at tage højde for dette problem.

Jeg er også i tvivl om hvorvidt jeg forstod det oprindelige spørgsmål korrekt. Så vidt jeg forstod, så brugte han en trappefunktion g(x) til at transformere sine data. Hvis vi vil lader den stokastiske variabel P angive energiforbruget for en en tilfældigt valgt dansker, så testede han efter om man kunne finde en trappefunktion g(x), således at g(P) er normalfordelt. Er dette korrekt?

På forhånd tak

Niels

Niels L Ellegaard (16-10-2004)

Kommentar
Fra : Niels L Ellegaard

Dato : 16-10-04 08:05

On Sat, 16 Oct 2004 02:35:25 +0200
Niels L Ellegaard <gnalle@ruc.dk> wrote:

> Jeg er også i tvivl om hvorvidt jeg forstod det oprindelige spørgsmål korrekt. Så vidt jeg
> forstod, så brugte han en trappefunktion g(x) til at transformere sine data. Hvis vi vil lader den >stokastiske variabel P angive energiforbruget for en en tilfældigt valgt dansker, så testede han
> efter om man kunne finde en trappefunktion g(x), således at g(P) er normalfordelt. Er dette >·korrekt?

Svar til mig selv. Hehe... det var dog noget frygteligt vrøvl. Man skal ikke skrive usenetbeskeder om natten. :)

Niels L Ellegaard (17-10-2004)

Kommentar
Fra : Niels L Ellegaard

Dato : 17-10-04 10:00

On Sat, 16 Oct 2004 16:59:35 +0200
Martin Jørgensen <unoder.spam@spam.jay.net> wrote:
> Niels L Ellegaard wrote:
> > Her er et hurtigt link, men man kan læse artikelen hvis man har abonnement
> > http://dx.doi.org/10.1016/j.physleb.2004.06.013
> Error - DOI Not Found

Ups. Her er et bedre link
http://dx.doi.org/10.1016/j.physletb.2004.06.013

Jesper Harder (17-10-2004)

Kommentar
Fra : Jesper Harder

Dato : 17-10-04 18:45

Martin Jørgensen <unoder.spam@spam.jay.net> writes:

> Okay, så havde jeg altså ret. Det er en hel del lettere at du
> demonstrerede at du overhovedet forstår hvad der står i din
> reference, ikke mindst fordi det tager evigheder for mig evt. at
> bestille den bog så det er fuldstændigt urealistisk at tro at jeg
> gider at slå det op i din reference.

Er det urealistisk at du bruger ti sekunder på at finde den på Google:

<http://pdg.lbl.gov/2004/reviews/contents_sports.html>

Specifikt afsnit 32.3.2.5. i

<http://pdg.lbl.gov/2004/reviews/statrpp.pdf>

--
Jesper Harder <http://purl.org/harder/>

Søg

Reklame

Statistik

Spørgsmål :	177688
Tips :	31970
Nyheder :	719565
Indlæg :	6409899
Brugere :	218896

Månedens bedste

Årets bedste

Sidste års bedste