Så vidt jeg husker, kan du ikke bare tage en stikprøve, der med 95%
konfidensinterval kan fortælle noget om totalpopulationen.
Det du skal gøre, er at bruge en normalforselingsmodel og opstille hypotesen
om, at den udtagne stikprøve kan antages at stamme fra samme population...
Hvis hypotesen Ho kan antages at være korrekt, skal du lave en t-test på
data, for at undersøge om data er forenelige med den opstillede hypotese.
Det er i den forbindelse at 95% konfidensintervallet kommer ind i
sammenhængen...
Jeg klipper lige fra en tidligere opgave
Test / signifikans
En statistisk test, giver mulighed for at undersøge om data er forenelige
med den opstillede hypotese. Formålet med den statistiske test er at
undersøge om data understøtter eller modsiger nulhypotesen. I statistik
benytter man normalt de såkaldte signifikansgrænser 95%, 99% og 99,9%. Med
disse grænser menes, at hvis udfaldet af et forsøg tilhører de yderste
grænser af mulige udfald, må nulhypotesen man har opstillet ikke kunne
accepteres.
Teststørrelsen beregnes på baggrund af observationerne og beregningen af
teststørrelsen afhænger af, hvilken sandsynlighedsfordeling der beregnes ud
fra.. Det er vigtigt, at det er muligt at bestemme hvilken fordeling
test-størrelsen stammer fra, under forudsætning af at H0 er sand.
Eksempel
[
http://www.psychstat.smsu.edu/introbook/sbk23.htm]
Hvis signifikansgrænsen er 95% ( det gule skraverede område i billedet) og
der er 14 observationer i en tosidet variansanalyse slås der op i en tabel
under tosidede P-værdier på 0.05 og bruger rækken med 13 frihedsgrader. Den
tilsvarende fraktil er fundet til 2.160. Altså vil værdier af
test-størrelsen t der under -2,160 og over 2.160 blive betragtet som værende
i modstrid med H0 hypotesen, hvilket medfører at nulhypotesen forkastes, da
kun 5 ud af 100 stikprøver rammer i det gule område
[
http://www.statdem.sdu.dk/undervis/basal/oversigt3.html]
Selvom, at det er almindeligt at lægge et signifikansgrænsen omkring 95 %,
er det muligt at lægge hvilket som helst signifikansniveau, alt efter hvor
sikker man er på den statistiske model og de antagelser der er forbundet med
denne model. Hvis man i stedet lægger signifikansgrænsen på 10 % vil dette
medføre, at man forkaster flere nulhypoteser, samtidig med, at hvis
signifikansgrænsen lægges under 95% vil flere nulhypoteser blive godtaget
jo mindre signifikansniveau, man vælger jo mere skal stikprøvens middelværdi
afvige fra den teoretiske middelværdi før nulhypotesen forkastes.
/Martin
"Carsten Riis" <carsten.riis@privat.dk> wrote in message
news:3CCD833A.582AFE77@privat.dk...
> Hej stat-hajer og talknusere.
>
> Jeg fik ikke rigtig svar sidste gang jeg spurgte og det var sikkert
> fordi jeg ikke lavede benarbejdet godt nok. Nu har jeg så holdt lidt
> pause med det der stikprøve-halløj og mener da også, at jeg kommet et
> stykke videre:
>
> Jeg har flere populationer som hver har en begrænset antal observationer
> i sig. Fx en jobdatabase indeholder 1984 stillingsopslag.
> Jeg har besluttet jeg vil udtage en stikprøve som med 95% sikkerhed kan
> sige noget om totalpopulationen.
> Det jeg vil finde er antal stilingsopslag med aldersprofil. Og hvorledes
> disse profiler ser ud.
>
>
> Nu er der i min tykke statistikbog har følgende formel for
> stikprøveudtagning (jeg tilpasser den lige til ren tekst).
>
>
> N * pstreg*(1 - pstreg)
> n = -----------------------------------
> N * (B^2 / 4) + pstreg*(1 - pstreg)
>
>
> pstreg er sandsynligheden for en bestemt observation
> n er stikprøvestørrelse
> N er populationen
> B er hvad er i bogen kaldes sampling error.
>
> Den bestemte observation skal være at en observation indeholder en
> aldersprofil. Jeg har ved undersøgelse af stillingsopslag fundet ud af,
> at 15% af stillingsopslagene i aviserne indeholder en aldersprofil.
> Disse 15% kan jeg bruge som udgangspunkt for stillingsopslag i
> jobdatabaserne.
>
>
>
> Det er jeg ikke forstår er hvad der menes med sampling error. Jeg har
> fået fingre i en norsk statistikbog som kalder for sikkerhedsniveau.
>
> I forklaringen i den engelske bog omkring sampling error, så skriver de
> noget om, at det de fejl som man ikke kan undgåes, når man udtager en
> stikprøve dvs. der ville ingen sampling error være, hvis man udtog hele
> populationen.
> Det er jo ret logisk.
> Og der er da også en formel som kan udregne sampling error.
> Men der hvor jeg syntes det bliver kryptisk er, at man skal kende
> stikprøvestørrelsen for kunne beregne sampling error. Det er sikkert
> også helt rigtig.
> Det kryptiste er hvorledes kan jeg beregne n, som er afhængig af B, som
> igen er afhængig af n.
> Sådan som jeg ser det er det hønen og ægget om igen.
>
> Back to reality:
>
> Jeg har jo besluttet, at jeg vil vide noget med 95% sikkerhed om
> populationen dvs. at der er 5% usikkerhed.
> Derudover ved jeg at der i aviser er i 15% af stillingsopslagene som
> indeholder en aldersprofil.
> Populationen er på 1984 stillingsopslag.
> Stikprøven udtages simpel tilfældig.
>
> N = 1984
> B = 0,05
> pstreg = 0,15
>
> Når jeg så putter disse tal i formlen, så får jeg en stikprøvestørrelse
> på 49,72 observationer.
> Oprundet vil det sige 50 tilfældigt udtrukne observationer kan sige
> noget om populationen med 95% sikkerhed.
>
> Er det rigtig forstået?
> Hvis ikke, så forklar mig venligst lige hvad jeg så skal gøre for at
> udtage en stikprøve som med 95% sikkerhed kan sige noget om
> populationens aldersprofil i omfang og struktur.
>
> Jeg er ved at gå Chiquita over alle de formler.
>
> Med desperate hilsner
>
> Carsten Riis