/ Forside / Karriere / Uddannelse / Højere uddannelser / Nyhedsindlæg
Login
Glemt dit kodeord?
Brugernavn

Kodeord


Reklame
Top 10 brugere
Højere uddannelser
#NavnPoint
Nordsted1 1588
erling_l 1224
ans 1150
dova 895
gert_h 800
molokyle 661
berpox 610
creamygirl 610
3773 570
10  jomfruane 570
Statistisk formel
Fra : Bjarke Dahl Ebert


Dato : 03-12-03 01:07

Hej dk.videnskab,

Jeg har et problem med et integral der optræder i et konkret statistisk
problem (det er en længere historie)


Model: Vi har en krukke med (mange) kugler i - røde og blå. Andelen af
røde kugler, p, er stokastisk: uniformt fordelt i [0;1], men ellers ukendt.
Vi trækker nu A røde kugler og B blå kugler.

Problem: Hvad er sandsynligheden for at p<.5? Dvs. hvad er
sandsynligheden for at der er flere blå end røde kugler i krukken.


Jeg er kommet frem til at det er relevant at se på integralet
\int_0^{1/2} x^A (1-x)^B dx.
Men det fører ikke til andet end timers bøvl at forsøge at regne på det.

Jeg ville være udmærket tilfreds med en approksimation af log(P), hvor P
er den ovennævnte sandsynlighed.
Er der nogen der kender sådan en?

Det skulle undre mig meget om ikke det har noget med binomialfordelingen
at gøre



-Bjarke


--
<URL:http://trebe.dk/>


 
 
Martin Jorgensen (03-12-2003)
Kommentar
Fra : Martin Jorgensen


Dato : 03-12-03 15:38

Bjarke Dahl Ebert wrote:
> Hej dk.videnskab,
>
> Jeg har et problem med et integral der optræder i et konkret
> statistisk problem (det er en længere historie)

Jeg syntes det kunne være sjovere, hvis du bare stillede dit spørgsmål og så
høstede de forskellige tilbagemeldinger (svar)...

Men okay:

> Model: Vi har en krukke med (mange) kugler i - røde og blå. Andelen af
> røde kugler, p, er stokastisk: uniformt fordelt i [0;1], men ellers
> ukendt. Vi trækker nu A røde kugler og B blå kugler.

Uniformt fordel i [0;1]? Arealet under grafen skal være lig 1. Betyder det
så ikke at p = 0.5 for at trække hhv. en blå eller rød kugle, når du skriver
at fordelingen er uniform? Et interval på 0 og 1 (diskret fordeling) er jo
kun 2 udfald => p = ½ hvis fordelingen er uniform???

> Problem: Hvad er sandsynligheden for at p<.5? Dvs. hvad er
> sandsynligheden for at der er flere blå end røde kugler i krukken.

Hmm... Jeg er lidt forvirret over din måde at stille opgaven op... Du
skriver ikke engang hvor mange røde eller blå kugler der er. Kun at andelen
er stokastisk?

> Jeg er kommet frem til at det er relevant at se på integralet
> \int_0^{1/2} x^A (1-x)^B dx.
> Men det fører ikke til andet end timers bøvl at forsøge at regne på
> det.

Prøv lige at omformulere dit spørgsmål og start forfra (fra før du kommer
frem til integralet)... Så kan det være jeg kan hjælpe. Prøv at forklare
hvorfor dit integrale ser sådan ud. Så tror jeg godt at jeg kan supplere med
noget...

> Jeg ville være udmærket tilfreds med en approksimation af log(P),
> hvor P er den ovennævnte sandsynlighed.

P følger ikke en normal-fordeling? Hvis det er en opgave du regner fra et
sted, kan du så ikke bare lige skrive opgaveteksten? Det kan selvfølgelig
godt være at det bare er mig som ikke forstår problemet...

> Er der nogen der kender sådan en?
>
> Det skulle undre mig meget om ikke det har noget med
> binomialfordelingen at gøre

Binomialfordelingen er en diskret fordeling. Den skal du bruge, hvis du
efter at have trukket en kugle, ligger kuglerne tilbage igen før næste kugle
trækkes. I modsat fald: Hypergeometrisk fordeling, hvor P = antal
gunstige/antal mulige kombinationer.

For binomialfordelingen gælder endvidere:
1) De n forsøg er uafhængige.
2) Der er kun 2 mulige udfald pr. forsøg.
3) Sandsynligheden for succes, p, skal være ens i alle n forsøg.
4) Der er n forsøg, hvor n er en konstant.

Men du forvirrer mig, eller også forstår jeg ikke helt din opgave. Prøv at
omformulere dig/uddyb/besvar det jeg skriver...

mvh.
Martin Jørgensen

--
---------------------------------------------------------------------------
Home of Martin Jørgensen - http://www.martinjoergensen.dk



Henning Makholm (03-12-2003)
Kommentar
Fra : Henning Makholm


Dato : 03-12-03 17:20

Scripsit "Martin Jorgensen" <megafedt@hotmail.com>
> Bjarke Dahl Ebert wrote:

> > Problem: Hvad er sandsynligheden for at p<.5? Dvs. hvad er
> > sandsynligheden for at der er flere blå end røde kugler i krukken.

> Hmm... Jeg er lidt forvirret over din måde at stille opgaven op... Du
> skriver ikke engang hvor mange røde eller blå kugler der er. Kun at andelen
> er stokastisk?

Ja, det er det der er pointen.

Så vidt jeg forstår Bjarke, består eksperimentet i:

1. Vælg et tal X ligefordelt mellem 0 og 1.

2. Vælg N flere tal Y1, Y2, ... Yn uafhængige og ligefordelt mellem 0 og 1

3. Lad M være antallet af Yi'er som opfylder Yi > X.

N er givet på forhånd. M er en diskret stokastisk variabel der
afhænger på en eller anden måde af X og Yi'erne.

Spørgsmål: For et givet k, hvad er så sandsynligheden P( X>½ | M=k )?

--
Henning Makholm "*Vi vil ha wienerbrød!*"

Niels L. Ellegaard (04-12-2003)
Kommentar
Fra : Niels L. Ellegaard


Dato : 04-12-03 21:35

Henning Makholm <henning@makholm.net> writes:

> Så vidt jeg forstår Bjarke, består eksperimentet i:
> 1. Vælg et tal X ligefordelt mellem 0 og 1.
> 2. Vælg N flere tal Y1, Y2, ... Yn uafhængige og ligefordelt mellem 0 og 1
> 3. Lad M være antallet af Yi'er som opfylder Yi > X.
> N er givet på forhånd. M er en diskret stokastisk variabel der
> afhænger på en eller anden måde af X og Yi'erne.
> Spørgsmål: For et givet k, hvad er så sandsynligheden P( X>½ | M=k )?

De fleste bøger om Bayesisk statistik indeholder en gennemregning af
den betingede fordelingsfunktion p(X|k). De regner ofte på en mere
generel opgave hvor X er betafordelt:
http://mathworld.wolfram.com/BetaDistribution.html

Her et link til et sæt undervisningsnoter, hvor det hele er regnet
ud i afsnit 1.2:
http://www.eas.asu.edu/~morrell/556/Lecture14.pdf

Noterne bruger lidt anden notation end Henning:
theta svarer til X
k svarer til M
M og S er parametre der beskriver fordelingen af theta.
Bjarkes opgave svarer til specialtilfældet S=1 og M=0.

God regnelyst

Niels


--
Niels L Ellegaard http://dirac.ruc.dk/~gnalle/

Bjarke Dahl Ebert (03-12-2003)
Kommentar
Fra : Bjarke Dahl Ebert


Dato : 03-12-03 18:41

Martin Jorgensen wrote:

>>Model: Vi har en krukke med (mange) kugler i - røde og blå. Andelen af
>>røde kugler, p, er stokastisk: uniformt fordelt i [0;1], men ellers
>>ukendt. Vi trækker nu A røde kugler og B blå kugler.
>
>
> Uniformt fordel i [0;1]? Arealet under grafen skal være lig 1. Betyder det
> så ikke at p = 0.5 for at trække hhv. en blå eller rød kugle, når du skriver
> at fordelingen er uniform? Et interval på 0 og 1 (diskret fordeling) er jo
> kun 2 udfald => p = ½ hvis fordelingen er uniform???

Jeg har fortrudt at jeg kaldte parametren p.
Jeg vil, inspireret af Henning Makholms indlæg, fra nu af kalde den X. X
er uniformt fordelt mellem 0 og 1.

Sandsynligheden for at trække en rød vil ganske rigtigt være ½.
Men hvis første kugle er rød, så er der 2/3 chance for at den næste også
er rød (ikke så svært at regne ud - jeg giver detaljer på anmodning)
Du taler om sandsynligheden for at trække en rød, når X ligger fast.
Men eksperimentet her er omvendt: Antal røde og blå trukne kugler ligger
fast, og vi skal vurdere sandsynligheden for at X<½.
X er en ukendt parameter for krukken. Jo flere kugler vi trækker, desto
bedre kan vi estimere X.

> Hmm... Jeg er lidt forvirret over din måde at stille opgaven op... Du
> skriver ikke engang hvor mange røde eller blå kugler der er. Kun at andelen
> er stokastisk?

Præcis. Andelen af røde kugler, X, er ukendt.
A priori ved vi blot at X er uniformt fordelt i [0;1] (det lover
købmanden, som solgte os krukken)


>>Jeg er kommet frem til at det er relevant at se på integralet
>>\int_0^{1/2} x^A (1-x)^B dx.

> Prøv at forklare
> hvorfor dit integrale ser sådan ud. Så tror jeg godt at jeg kan supplere med
> noget...

Jeg vil gøre et forsøg.
Vi vælger en tilfældig krukke, parametriseret ved den stokastiske
variabel X. Vi kan ikke observere værdien af X, andet end gennem
udtrækninger af kugler.
Vi har gjort en observation OBS, nemlig at vi trak A røde og B blå.
Vi skal beregne sandsynligheden for X<½, givet denne observation.

P(X<½ | OBS) = P(OBS | X<½) * P(X<½) / P(OBS)

Her kommer integralet ind i billedet:
P(OBS | X<½) * P(X<½) = int_0^{1/2} P(OBS | X=x) dx
= int_0^{1/2} x^A (1-x)^B

forudsat at rækkefølgen af kuglerne regnes som en del af observationen.
(hvis vi ikke regner kuglernes rækkefølge med, så giver det blot en
binomial-faktor oven i, som ophæves af en tilsvarende faktor på P(OBS)).

> P følger ikke en normal-fordeling?

?? P er et TAL, der afhænger af A og B. Givet A og B er P en konstant.
Du kan skrive P(A,B).
Hvis A=B, er P(A,B)=1/2.
Man kan også regne ud at P(1,0)=1/4 (Læses: hvis vi trak en rød kugle,
og intet andet, så er den kun 1/4 chance for at der er flest blå kugler)


> Hvis det er en opgave du regner fra et
> sted, kan du så ikke bare lige skrive opgaveteksten? Det kan selvfølgelig
> godt være at det bare er mig som ikke forstår problemet...

Det er ikke en skoleopgave, men som sagt et problem der opstår i en
konkret kontekst, som jeg er ved at finde en løsning på.

Jeg kan godt røbe hvad det er .
I en meningsmåling har kandidat rød modtaget A stemmer og kandidat blå
har modtaget B stemmer. Hvad er sandsynligheden for at rød ville vinde
hvis man spurgte hele verden.


> Binomialfordelingen er en diskret fordeling. Den skal du bruge, hvis du
> efter at have trukket en kugle, ligger kuglerne tilbage igen før næste kugle
> trækkes. I modsat fald: Hypergeometrisk fordeling, hvor P = antal
> gunstige/antal mulige kombinationer.

Nej, jeg har garderet mig ved at sige at der er mange kugler.
Så betyder tilbagelægning intet.
Der skal jo alligevel være så mange kugler, at det giver mening at sige
at .54023405972283498298 af dem er røde.

Men læg du bare tilbage hvis du vil...


Mvh. Bjarke



Jonas Møller Larsen (03-12-2003)
Kommentar
Fra : Jonas Møller Larsen


Dato : 03-12-03 22:13

Bjarke Dahl Ebert wrote:
> Vi har gjort en observation OBS, nemlig at vi trak A røde og B blå.
> Vi skal beregne sandsynligheden for X<½, givet denne observation.
>
> P(X<½ | OBS) = P(OBS | X<½) * P(X<½) / P(OBS)

Det er Bayes' formel.

> Her kommer integralet ind i billedet:
> P(OBS | X<½) * P(X<½) = int_0^{1/2} P(OBS | X=x) dx
> = int_0^{1/2} x^A (1-x)^B

Det ville være mere naturligt at starte med at beregne sandsynligheden
for, at X har en bestemt værdi, dvs. ligger mellem x og x+dx, hvor dx er
infinitesimal:

P(x<X<x+dx | OBS) = P(OBS | x<X<x+dx) * P(x<X<x+dx) / P(OBS)

A priori har vi, at P(x<X<x+dx) = dx (uafhængigt af x). Givet at
x<X<x+dx, er sandsynligheden for at reproducere observationen P(OBS |
x<X<x+dx) = x^A (1-x)^B, så ved indsættelse i Bayes' formel:

P(x<X<x+dx | OBS) = x^A (1-x)^B * dx / P(OBS)

Dette er den nye (ikke-uniforme) fordeling, som X adlyder, efter at vi
har udtrukket kuglerne. Vi kan integrere fordelingen for at finde
sandsynligheden for, at X er mindre end 1/2:

P(X<½ | OBS) = int_0^{1/2} P(x<X<x+dx | OBS)

Det er det samme resultat, som du har, og jeg tror faktisk, du har brugt
den samme fremgangsmåde, men det er noget lidt andet, du skriver.

> (hvis vi ikke regner kuglernes rækkefølge med, så giver det blot en
> binomial-faktor oven i, som ophæves af en tilsvarende faktor på P(OBS)).

Ja.

--
Jonas Møller Larsen


Martin Jorgensen (04-12-2003)
Kommentar
Fra : Martin Jorgensen


Dato : 04-12-03 16:06

Bjarke Dahl Ebert wrote:
> Martin Jorgensen wrote:
-SNIP-
>> Prøv at forklare
>> hvorfor dit integrale ser sådan ud. Så tror jeg godt at jeg kan
>> supplere med noget...
>
> Jeg vil gøre et forsøg.
> Vi vælger en tilfældig krukke, parametriseret ved den stokastiske
> variabel X. Vi kan ikke observere værdien af X, andet end gennem
> udtrækninger af kugler.
-SNIP (en forklaring givet)-

Hmm. Jeg har kigget tråden igennem i går og ligesom i går kan jeg ikke finde
ud af den opgave, så jeg tror at jeg nok har lovet for meget for jeg kan
ikke rigtigt supplere med andet end det jeg har skrevet

Jeg har aldrig regnet opgaver, som ligner det du nu laver, desværre...

mvh.
Martin Jørgensen


--
---------------------------------------------------------------------------
Home of Martin Jørgensen - http://www.martinjoergensen.dk



Jonas Møller Larsen (03-12-2003)
Kommentar
Fra : Jonas Møller Larsen


Dato : 03-12-03 16:46

Bjarke Dahl Ebert wrote:
> Model: Vi har en krukke med (mange) kugler i - røde og blå. Andelen af
> røde kugler, p, er stokastisk: uniformt fordelt i [0;1], men ellers ukendt.
> Vi trækker nu A røde kugler og B blå kugler.

Med tilbagelægning, ikke? (Ellers ændrer p sig, efterhånden som du
trækker kugler op af krukken.)

> Problem: Hvad er sandsynligheden for at p<.5? Dvs. hvad er
> sandsynligheden for at der er flere blå end røde kugler i krukken.

Du kan bruge Bayes' formel.

> Jeg er kommet frem til at det er relevant at se på integralet
> \int_0^{1/2} x^A (1-x)^B dx.

Bayes formel giver

\int_0^{1/2} x^A (1-x)^B dx divideret med \int_0^1 x^A (1-x)^B dx.

Det er det samme integral i tæller og nævner, men grænserne er forskellige.

> Men det fører ikke til andet end timers bøvl at forsøge at regne på det.

Jeg har ikke prøvet at løse det. Måske skal man bruge, at A og B er heltal.

--
Jonas Møller Larsen


Bjarke Dahl Ebert (03-12-2003)
Kommentar
Fra : Bjarke Dahl Ebert


Dato : 03-12-03 19:36

Jonas Møller Larsen wrote:

> Bjarke Dahl Ebert wrote:
>
>> Model: Vi har en krukke med (mange) kugler i - røde og blå. Andelen af
>> røde kugler, p, er stokastisk: uniformt fordelt i [0;1], men ellers
>> ukendt.
>> Vi trækker nu A røde kugler og B blå kugler.
>
>
> Med tilbagelægning, ikke? (Ellers ændrer p sig, efterhånden som du
> trækker kugler op af krukken.)

Jo, jeg tænker bare på krukken som en automat der spytter røde kugler ud
med sandsynligheden X, og blå med sandsynligheden 1-X (som uafhængige
hændelser).
X er ikke nødvendigvis rational.

>> Problem: Hvad er sandsynligheden for at p<.5? Dvs. hvad er
>> sandsynligheden for at der er flere blå end røde kugler i krukken.
>
>
> Du kan bruge Bayes' formel.
>
>> Jeg er kommet frem til at det er relevant at se på integralet
>> \int_0^{1/2} x^A (1-x)^B dx.
>
>
> Bayes formel giver
>
> \int_0^{1/2} x^A (1-x)^B dx divideret med \int_0^1 x^A (1-x)^B dx.
>
> Det er det samme integral i tæller og nævner, men grænserne er forskellige.

Det er lige præcis den brøk af integraler jeg har siddet og brugt en
blok papir på.
Jeg vil straks gå på jagt efter Bayes' formel.

Mange tak for henvisningen!


Bjarke



Rasmus Villemoes (04-12-2003)
Kommentar
Fra : Rasmus Villemoes


Dato : 04-12-03 13:20

Jonas Møller Larsen <nospam@nospam.nospam> writes:

> \int_0^{1/2} x^A (1-x)^B dx divideret med \int_0^1 x^A (1-x)^B dx.
>
> Det er det samme integral i tæller og nævner, men grænserne er forskellige.
>
>> Men det fører ikke til andet end timers bøvl at forsøge at regne på det.
>
> Jeg har ikke prøvet at løse det. Måske skal man bruge, at A og B er heltal.
>

Mathematica giver et svar, men det er ikke så pænt: Resultatet bliver

Hypergeometric2F1[1 + A, 2 + A + B, 2 + A, -1] * (A+B+1)! /
((1+A) * A! * B!)

Hypergeometric2F1[a, b, c, z] er defineret ved

sum_{k=0}^{infty} (a)_k (b)_k / (c)_k z^k/k!

Jeg ved ikke om det hjælper noget, men der kan nok reduceres en smule
på det.

Mvh Rasmus

--

Jeppe Stig Nielsen (03-12-2003)
Kommentar
Fra : Jeppe Stig Nielsen


Dato : 03-12-03 18:49

Bjarke Dahl Ebert wrote:
>
> Jeg er kommet frem til at det er relevant at se på integralet
> \int_0^{1/2} x^A (1-x)^B dx.

Jeg har en formelsamling hvor et lignende bestemt integral giver noget
med tre forekomster af Gamma-funktionen (lidt som i definitionen af
en binomialkoefficient).

Siden http://integrals.wolfram.com/ kan vist kun klare ubestemte
integraler, men med din integrand svarer den med noget med noget
hypergeometrisk værk.

--
Jeppe Stig Nielsen <URL:http://jeppesn.dk/>. «

"Je n'ai pas eu besoin de cette hypothèse (I had no need of that
hypothesis)" --- Laplace (1749-1827)

Martin C. Petersen (03-12-2003)
Kommentar
Fra : Martin C. Petersen


Dato : 03-12-03 21:50

Bjarke Dahl Ebert wrote:
> Jeg er kommet frem til at det er relevant at se på integralet
> \int_0^{1/2} x^A (1-x)^B dx.
Jeg får, når n og m er positive heltal, ved partiel integration et passende
antal gange:
\int_0^{1/2}x^n(1-x)^m dx = n!m!/(n+m+1)! - (1/2)^(n+m+1)\sum_{j=1}^n
(n!m!)/(m+j+1)!

Desuden er (for n og m heltal):
\int_0^1 x^n(1-x)^m dx = n!m!/(n+m+1)!

Martin



Martin C. Petersen (04-12-2003)
Kommentar
Fra : Martin C. Petersen


Dato : 04-12-03 15:53

> Jeg får, når n og m er positive heltal, ved partiel integration et
> passende antal gange:
> \int_0^{1/2}x^n(1-x)^m dx = n!m!/(n+m+1)! - (1/2)^(n+m+1)\sum_{j=1}^n
> (n!m!)/(m+j+1)!
Hov, der manglede lige et led (j=0 i summen):
\int_0^{1/2}x^n(1-x)^m dx =
n!m!/(n+m+1)! - (1/2)^(n+m+1)\sum_{j=0}^n (n!m!)/(m+j+1)!

> Desuden er (for n og m heltal):
> \int_0^1 x^n(1-x)^m dx = n!m!/(n+m+1)!
Sandsynligheden bliver således:
P = 1 - (1/2)^(n+m+1)\sum_{j=0}^n (n+m+1)!/(j+m+1)!


Martin



Bjarke Dahl Ebert (06-12-2003)
Kommentar
Fra : Bjarke Dahl Ebert


Dato : 06-12-03 19:54

Bjarke Dahl Ebert wrote:

> Jeg har et problem med et integral der optræder i et konkret statistisk
> problem (det er en længere historie)
> [...]

Tak for alle svarene - de var vældigt brugbare. Beta- og
Gammafunktionerne er åbenbart noget man bør få læst lidt op på...

Jeg tror det ender med at jeg "snyder" lidt:
Lad os sige at man har observeret (A,B), (i betydningen A røde og B blå
kugler), og A<B.
Så vurderer jeg sandsynligheden for de to udsagn X<½ og X>=½ ved at sige
at i første tilfælde "er X sandsynligvis i nærheden af A/(A+B)", så jeg
antager bare X=A/(A+B)", og i det andet tilfælde antager jeg blot X=½.

Så jeg antager "X=A/(A+B) eller X=½", og regner så på
p1 = P(OBS | X=A/(A+B)) = (A/(A+B))^A*(B/(A+B))^B
p2 = P(OBS | X=½) = (1/2)^(A+B)

Så får jeg P(X<½) ~ p1/(p1+p2).

Eksempel: A=10, B=20.
p1 = .33^10 * .67^20 = 5.09 * 10^-9
p2 = .5^30 = = .93 * 10^-9

P(X<½) = 84.5%

Ikke eksakt kalkyle, men
(1) det var det ikke i forvejen (ideen om uniform fordeling var jo
grebet ud af luften)
(2) nu kan jeg i det mindste regne på det



Bjarke



--
<URL:http://trebe.dk/>


Søg
Reklame
Statistik
Spørgsmål : 177501
Tips : 31968
Nyheder : 719565
Indlæg : 6408527
Brugere : 218887

Månedens bedste
Årets bedste
Sidste års bedste