Kandu.dk - Måske for meget forlangt


/ Forside / Interesser / Familie & Relationer / Slægtsforskning / Nyhedsindlæg

Glemt dit kodeord?

Brugernavn*

Kodeord *

Husk mig

Brugerservice

Kom godt i gang

Bliv medlem

Seneste indlæg

Find en bruger

Stil et spørgsmål

Skriv et tip

Fortæl en ven

Pointsystemet

Kontakt Kandu.dk

Emnevisning

Kategorier

Alfabetisk

Karriere

Interesser

Teknologi

Reklame

Top 10 brugere

Slægtsforskning

#	Navn	Point
1	senta	50517
2	svendgive..	41640
3	vith	39181
4	modersvil..	17589
5	Påsse	14847
6	LisBJensen	13749
7	jyttemor	12290
8	jkrjk2	11934
9	Bille1948	10898
10	Varla	8031

Måske for meget forlangt
Fra : Flemming Svendsen

Dato : 10-01-03 07:09

Søger man, i DDD efter eksempelvis "Tygesen", får man ikke Thygesen med, som
man gør i mormondatabasen.
(Fonetisk søgning hedder det vist)

Ville det være umuligt at lave?
Tænk bare på Svendsen, Svensen. Svendson, Schwensen og så videre . . . .
Bare et bitte pip.
Måske pip?
Hilsen Flemming Svendsen, Korsør

Kurt Hansen (10-01-2003)

Kommentar
Fra : Kurt Hansen

Dato : 10-01-03 08:25

Fri, 10 Jan 2003 07:09:06 +0100, skrev Flemming Svendsen:

> Glad

Der er desværre ikke noget at grine af her Sur

>Søger man, i DDD efter eksempelvis "Tygesen", får man ikke Thygesen med, som
>man gør i mormondatabasen.
>(Fonetisk søgning hedder det vist)
>
>Ville det være umuligt at lave?

Ork nej, det er faktisk uhyre nemt at lave. Jeg er endda lige ved at
tro, at koden til fonetisk søgning kan findes på nettet i indtil flere
forskellige programmeringssprog.

Igennem hele forløbet med kildeindtastning er vi blevet belært om, at
vi skal skrive *kildetro* (med ganske få undtagelser). De indtastede
data er derfor en syndig forvirring af alle mulige og umulige tælleres
til tider groteske stavefærdigheder. Ikke noget problem, sagde
DDA/KOKI i sin tid og gør det vel stadig, det er vigtigt med
bogstavret indtastning - så kan man altid lave søgerutiner der
kompenserer herfor.

Disse søgerutiner er bare aldrig blevet laver og bliver det formentlig
heller aldrig. Hvorfor ikke? Standardsvaret vil med ulidelig sikkerhed
hedde: Ressourcemangel.

Nu har flere tusinde mennesker gennem efterhånden flere år tonset data
til Odense, hvor de efter - til tider - måned lang sagsbehandling,
bliver kørt igennem den store knuser. Så brænder man kopier på
fejlbehæftede CD'er og sælger dem for urimelige priser til de
selvsamme mennesker, som har brugt deres fritid på at indtaste lortet.
Herefter lægger man - igen med urimelig lang forsinkelse - skidtet ud
på online-serveren, hvor man via en amputeret søgefunktion måske /
måske ikke, kan være heldig at ramme personer som man *ved* findes i
databasen. Gør man sin søgning for bred, for at opfange eventuelle
staveforbistringer, ramler man hovedet ind i den anden chikane: der
kan max. vises 100 poster.

Ofte giver søgninger intet resultet, eller man får smasket en
fejlmeddelelse i ansigtet, eller serveren er simpelthen nede i flere
dage.

Tænk at betro sådanne folk ansvaret for arkivering af rigets
elektroniske efterladenskaber. Hvis Rigsarlivet, landsarkiverne og
lokalarkiverne behandlede vore papirarkivalier på samme amatøragtige
måde, var vi ilde stedt.

>Tænk bare på Svendsen, Svensen. Svendson, Schwensen og så videre . . . .
>Bare et bitte pip.
>Måske pip?

Eksemplerne er legio. Det er dog forholdsvist simpelt at programmere
sig ud af, men som sagt... Sur

Jeg vil dog ikke undlade at henlede opmærksomheden på de begrænsede
muligheder der er for at bruge wildcards i søgningen. Det står
beskrevet i den orange kolonne til højre for søgeformularen på DDD.

Venlig hilsen
Kurt hansen

Flemming Svendsen (10-01-2003)

Kommentar
Fra : Flemming Svendsen

Dato : 10-01-03 10:00

"Kurt Hansen" <kurt@towle.dk> skrev i en meddelelse
news:uurs1vo2hks475ec25n8o9cjlvnrpn9pml@4ax.com...
> Fri, 10 Jan 2003 07:09:06 +0100, skrev Flemming Svendsen:

> Der er desværre ikke noget at grine af her Sur

Tak for svar.
Det var nu osse bare et lille smil.
Jeg er for tiden ved at indtaste FT 1840 for Helsingør.

Når jeg kan se et navn er stavet helt i hampen, må jeg indrømme jeg retter
det op - efter min sunde fornuft.
Men er jeg i tvivl - - skriver jeg det kildetro Eks: "Jantsen" (som kun få
vil søge på,) og tilføjer i nederste felt : [ Jantzen] så skulle der være en
mulighed for at finde ham.
Men ikke alle gør det, og jeg ved heller ikke om det skaber forvirring i
maskineriet.
Problemet er at filen bliver på noget nær 8000 poster, det vil være næsten
uoverkommeligt at løbe det hele igennem.
Men lad os nu ikke tærske langhalm på problemet, det står vist uden for mine
evner at ændre tingenes tilstand med de bevillinger der kan tilfalde
kulturen. For tiden . . .
Hilsen Flemming Svendsen.

Lars Jørgen Helbo (10-01-2003)

Kommentar
Fra : Lars Jørgen Helbo

Dato : 10-01-03 10:21

On Fri, 10 Jan 2003 07:09:06 +0100, "Flemming Svendsen"
<zeus1@mail.dk> wrote:

> Glad

>Søger man, i DDD efter eksempelvis "Tygesen", får man ikke Thygesen med, som
>man gør i mormondatabasen.
>(Fonetisk søgning hedder det vist)
>
>Ville det være umuligt at lave?
>Tænk bare på Svendsen, Svensen. Svendson, Schwensen og så videre . . . .
>Bare et bitte pip.
>Måske pip?

Det kan godt lade sig gøre; men eksperterne er noget uenige om,
hvordan man skal gøre det.

Jeg er enig i, at FamilySearch fungerer fint på det punkt; men
desværre er det tilsyneladende en hemmelighed, hvordan de har lavet
det. Det er dog ikke bare fonetisk søgning. Hvis man søger efter Maren
Hansdatter får man f.eks. også Maren Hansen. Ligeledes, hvis man søger
efter Maren Hansdoter, får man både Maren Hansdatter og Maren Hansen.

Man skal også være opmærksom på, at den traditionelle amerikansk
udviklede fonetiske søgning, kaldet soundex, ikke umiddelbart kan
bruges i Danmark. Problemet er, at soundex-algoritmen kun tager hensyn
til konsonanter. Alle vokaler fjernes inden sammenligningen af
navnene. Det er skidt i Danmark, hvor vi f.eks. vil betragte Poulsen
og Povlsen eller Laurits og Lavrits som samme navn.

Der findes dog en specielt tilpasset dansk version af soundex, som
tager hensyn til det. Hvis nogen er interesserede i program-koden, kan
de henvende sig. Men det løser altså stadigvæk ikke problemet med
Hansen/Hansdatter.

En anden mulighed er en søgning, som bygger på et tabelsystem. Man
kunne f.eks. tage hele FT-1801, dele op i fornavn og efternavn og
derefter sortere den alfabetisk. Man ville så få en liste med alle
forekommende navne, og dem kunne man så "putte i kasser", d.v.s man
beslutter manuelt, hvilke navne, der skal betragtes som synonyme. Hvis
man så bagefter søger på et af navnene i en kasse, vil man som
resultat få alle i denne kasse. Her kunne man så beslutte, at Hansen
og Hansdatter skal betragtes som synonyme.

Problemet ved det er, at det er et stort arbejde, som først bør sættes
i gang, når man har hele årgange. Ellers skulle man jo starte forfra,
hver gang en ny FT bliver færdig. Måske bør årgangen også være
korrekturlæst, før man starter.

Et andet problem er, at der efter opdelingen i "kasser" vil være en
rest af meget sjældne navne, som nok skal klares på en anden måde,
hvis det hele ikke skal blive for tungt.

Der er altså nogle problemer i sagen; men der arbejdes med det, og
hvis du kigger på de forskellige programmer til søgning på cd'erne, så
vil du opdage, at der allerede er muligheder her. Disse programmer kan
du bl.a. finde ved at kigge her:

http://www.dis-danmark.dk/i_hjprog.htm
--
Lars Jørgen Helbo <lars@helbo.org>
http://www.helbo.org
http://www.helhedsskolen.dk
http://www.salldata.dk

Kurt Hansen (10-01-2003)

Kommentar
Fra : Kurt Hansen

Dato : 10-01-03 16:42

Fri, 10 Jan 2003 10:21:17 +0100, skrev Lars Jørgen Helbo:

>On Fri, 10 Jan 2003 07:09:06 +0100, "Flemming Svendsen"
><zeus1@mail.dk> wrote:
>
>> Glad

>>Søger man, i DDD efter eksempelvis "Tygesen", får man ikke Thygesen med, som
>>man gør i mormondatabasen.
>>(Fonetisk søgning hedder det vist)
>>
>>Ville det være umuligt at lave?
>>Tænk bare på Svendsen, Svensen. Svendson, Schwensen og så videre . . . .
>>Bare et bitte pip.
>>Måske pip?
>
>Det kan godt lade sig gøre; men eksperterne er noget uenige om,
>hvordan man skal gøre det.

Eksperter har det med at være uenige, især når det drejer sig om
diffuse problemer, f.eks. drivhuseffekten og torskebestanden i
Østersøen. Her har vi imidlertid at gøre med noget meget konkret, der
umiddelbart kan efterprøves, måles og vejes, så eventuelle
diskussioner frem og tilbage er spild af tid. Smøg ærmerne op og kom
igang.

>Jeg er enig i, at FamilySearch fungerer fint på det punkt; men
>desværre er det tilsyneladende en hemmelighed, hvordan de har lavet
>det. Det er dog ikke bare fonetisk søgning. Hvis man søger efter Maren
>Hansdatter får man f.eks. også Maren Hansen. Ligeledes, hvis man søger
>efter Maren Hansdoter, får man både Maren Hansdatter og Maren Hansen.

Almidelig husmandslogik lyder noget i denne retning:

Man forsyner søgeformularen med nogle valg:
1. Skal søgningen være præcis - altså som det der indtastes i feltet
2. eller skal der søges på tværs af stavevarianter
3. Skal der søges på specifikt køn, eller alle forekomster
o.s.v., o.s.v.

Først parser man navnefeltet og undersøger det for patronymer. Hvis
der forekommer endelser a la -sen eller -datter, eller varianter heraf
(specificeret i et array, eller hvad sådan noget nu hedder), så beder
man bare søgerutinen om at finde alle forekomster - uanset endelse.
Det kan vel ikke være så svært.

>En anden mulighed er en søgning, som bygger på et tabelsystem. Man
>kunne f.eks. tage hele FT-1801, dele op i fornavn og efternavn og
>derefter sortere den alfabetisk. Man ville så få en liste med alle
>forekommende navne, og dem kunne man så "putte i kasser", d.v.s man
>beslutter manuelt, hvilke navne, der skal betragtes som synonyme. Hvis
>man så bagefter søger på et af navnene i en kasse, vil man som
>resultat få alle i denne kasse. Her kunne man så beslutte, at Hansen
>og Hansdatter skal betragtes som synonyme.

*Det* er i hvert fald nemt. Når jeg indtaster lister af forskellig
art, bruger jeg f.eks. bogstavet X som mellemrum istedet for
mellemrunstangenten. På et splitsekund kan jeg derefter bede Excel om
at opdele navnefeltet i lige så mange felter som der brug for og så
har jeg hver navnedel i hver sit felt og så kan jeg sortere alt det
jeg har lyst til.

>Problemet ved det er, at det er et stort arbejde, som først bør sættes
>i gang, når man har hele årgange. Ellers skulle man jo starte forfra,
>hver gang en ny FT bliver færdig. Måske bør årgangen også være
>korrekturlæst, før man starter.

Sikke noget fis. Når først det grundlæggende arbejde er gjort, f.eks.
oprettelse af nogle tabeller med kvindefornavne og mandefornavne,
varianter af patronymer m.m. er lavet (og lad det så tage et par
timer), så er det kun et spørgsmål om løbende at tilføje "nyheder"
efterhånden som man kommer i tanker om varianter, man ikke havde tænkt
på i første omgang.

Faktisk kan man jo bare lave en rutine på serveren der danner en log
over de søgninger der ikke har givet noget resultat. Dem kigger man på
hver fredag i starten og sorterer dem fra som er oplagt brugersjusk og
piller så dem ud der kan bruges og fylder i de allerede eksisterende
tabeller. På den måde trænes systemet til at blive bedre og bedre og
inden ret længe, vil hit-procentern være øget betragteligt i forhold
til nu.

Gør det nu ikke til noget stort og meget bekosteligt. Vi *kan* altså
godt nøjes med noget der forbedrer det nuværende med 90% istedet for
100%.

>Et andet problem er, at der efter opdelingen i "kasser" vil være en
>rest af meget sjældne navne, som nok skal klares på en anden måde,
>hvis det hele ikke skal blive for tungt.

Jeg er overbevist om at flertallet af brugere søger på flertallet af
navne. Den lille rest du taler om, må altså ikke blokere for at
implementere en forbedring, der vil løse *de fleste* af de nuværende
problemer.

>Der er altså nogle problemer i sagen; men der arbejdes med det, og

Aha! Hvad arbejdes der på? Har man specificeret et krav til en ny
søgerutine? Hvornår kan det forventes klar o.s.v.?

Venlig hilsen
Kurt hansen

John Thomsen (23-01-2003)

Kommentar
Fra : John Thomsen

Dato : 23-01-03 18:56

On Fri, 10 Jan 2003 16:42:23 +0100, Kurt Hansen <kurt@towle.dk> wrote:

>Man forsyner søgeformularen med nogle valg:
>1. Skal søgningen være præcis - altså som det der indtastes i feltet
>2. eller skal der søges på tværs af stavevarianter
>3. Skal der søges på specifikt køn, eller alle forekomster
>o.s.v., o.s.v.

Hvem kan ikke bare tænke på f.eks. stavekontrollen i alm.
tekstbehandling, som sagtens kan finde kan finde "det rigtige" uanset
man har stavet T(h)yges(s)en med eller uden h og dobbelt-s eller endda
brugt dansk eller tysk y - eller dansk med to prikker over.

Vi har det jo også i den anden ende med aa og å, ikk?

Venligst
John

Bo (10-01-2003)

Kommentar
Fra : Bo

Dato : 10-01-03 17:37

> Søger man, i DDD efter eksempelvis "Tygesen", får man ikke Thygesen med,
som
> man gør i mormondatabasen.
> (Fonetisk søgning hedder det vist)

Hvis du har filerne eller CD'en kan LynFT lave diverse søgninger, også
fonetiske. Her hedder det Fuzzy søgning og finder ord som ikke er helt
identiske men tæt på.
Søgning på Tygesen giver således også Thygesen men også Tagesen. Der kan
vælges en bred og en smal søgning.

LynFT gratis på www.boekelund.dk

Bo

Poul Erik Jensen (11-01-2003)

Kommentar
Fra : Poul Erik Jensen

Dato : 11-01-03 01:50

Nhæ, det er såmænd ikke for meget.

Teori og omhyggelighed er en udmærket ting, men i denne sag kvæles alle
initiativer i fødslen, fordi der er nogle kloge hoveder der ikke kan blive
enige om en bestemt metodik, der kan ikke kan blive pretiøs nok - eller der
går politik i sagen imens der ikke sker andet end at tiden går.

Jeg er ikke overraskende særdeles enig i Kurts fremstilling og finder at
Lars bliver alt for meget "ekspert", når han refererer det de skriftkloge i
Odense bilder folk ind.

Blot for det ikke bare skal være sort eller misforstås, så er det er da godt
der også sker noget uden for DDAs regi, hvor Lars er langt mere kreativt og
resultaterne allerede kan ses.
--
Med venlig hilsen Poul Erik Jensen
http://www.genealog.dk
http://www.sundbyoester.igroups.dk

Søg

Reklame

Statistik

Spørgsmål :	177730
Tips :	31970
Nyheder :	719565
Indlæg :	6410247
Brugere :	218900

Månedens bedste

Årets bedste

Sidste års bedste