Kandu.dk - Søgerobot og skjulte sider/filer


/ Forside / Teknologi / Internet / Sikkerhed / Nyhedsindlæg

Glemt dit kodeord?

Brugernavn*

Kodeord *

Husk mig

Brugerservice

Kom godt i gang

Bliv medlem

Seneste indlæg

Find en bruger

Stil et spørgsmål

Skriv et tip

Fortæl en ven

Pointsystemet

Kontakt Kandu.dk

Emnevisning

Kategorier

Alfabetisk

Karriere

Interesser

Teknologi

Reklame

Top 10 brugere

Sikkerhed

#	Navn	Point
1	stl_s	37026
2	arlet	26827
3	miritdk	20260
4	o.v.n.	12167
5	als	8951
6	refi	8694
7	tedd	8272
8	BjarneD	7338
9	Klaudi	7257
10	molokyle	6481

Søgerobot og skjulte sider/filer
Fra : Kim Ludvigsen

Dato : 24-12-03 09:58

Jeg har lige tjekket loggen på en hjemmeside, jeg hoster, og til min
overraskelse ser jeg, at alexa.coms crawler har hentet en fil
(statistik-program), der ikke er linket til fra siderne. Hvordan i
alverden kan det lade sig gøre?

Så vidt jeg har kunnet få at vide, har ejeren af sitet ikke installeret
alexa.coms værktøjsbjælke, der ellers netop holder øje med, hvad
brugeren besøger. Ejeren af sitet har dog været inde på alexa.com, og
har senere været inde og tjekke statistikken - kan alexa have "fulgt
efter" ham? Det skal måske bemærkes, at crawleren ikke har gættet på
forskellige filnavne, men har bedt præcist om det rette, men at den til
gengæld ikke har medtaget de nødvendige parametre (navn på logfil mm.).
Han bruger Mozilla til at besøge statistiksiden.

Xpostet til dk.edb.internet og dk.edb.sikkerhed med opfølgning til
sikkerhedsgruppen.

--
Mvh. Kim Ludvigsen

Christian E. Lysel (24-12-2003)

Kommentar
Fra : Christian E. Lysel

Dato : 24-12-03 11:03

In article <3FE95531.5424@kimludvigsen.dk>, Kim Ludvigsen wrote:
> brugeren besøger. Ejeren af sitet har dog været inde på alexa.com, og
> har senere været inde og tjekke statistikken - kan alexa have "fulgt

Hvis det modsatte er tilfældet kan alexa.com se det på klientens
refere tag.

--
Mvh.
Christian E. Lysel
http://www.spindelnet.dk/

Kim Ludvigsen (24-12-2003)

Kommentar
Fra : Kim Ludvigsen

Dato : 24-12-03 11:53

Christian E. Lysel wrote:
>
> In article <3FE95531.5424@kimludvigsen.dk>, Kim Ludvigsen wrote:
> > brugeren besøger. Ejeren af sitet har dog været inde på alexa.com, og
> > har senere været inde og tjekke statistikken - kan alexa have "fulgt
>
> Hvis det modsatte er tilfældet kan alexa.com se det på klientens
> refere tag.

Hvorfor tænkte jeg ikke på det... checke, checke... Nej, alexa.com
fremstår ikke som et link på statistiksiden.

--
Mvh. Kim Ludvigsen

Kasper Dupont (24-12-2003)

Kommentar
Fra : Kasper Dupont

Dato : 24-12-03 17:32

Kim Ludvigsen wrote:
>
> Christian E. Lysel wrote:
> >
> > In article <3FE95531.5424@kimludvigsen.dk>, Kim Ludvigsen wrote:
> > > brugeren besøger. Ejeren af sitet har dog været inde på alexa.com, og
> > > har senere været inde og tjekke statistikken - kan alexa have "fulgt
> >
> > Hvis det modsatte er tilfældet kan alexa.com se det på klientens
> > refere tag.
>
> Hvorfor tænkte jeg ikke på det... checke, checke... Nej, alexa.com
> fremstår ikke som et link på statistiksiden.

Du behøver ikke have links til alexa.com. Det er nok,
at der findes et eksternt link. Der er mange andre
stedder, hvor referer headers bliver brugt til
statistik sider. Hvis du blot har haft et eneste
link til et sted, hvor der findes sådan en side med
statistik over referer headers, så kan din side være
blevet fundet.

--
Kasper Dupont -- der bruger for meget tid paa usenet.
For sending spam use mailto:aaarep@daimi.au.dk
/* Would you like fries with that? */

Kim Ludvigsen (28-12-2003)

Kommentar
Fra : Kim Ludvigsen

Dato : 28-12-03 01:57

Kasper Dupont wrote:

> Du behøver ikke have links til alexa.com. Det er nok,
> at der findes et eksternt link.

Det eneste eksterne link på statistiksiden er til statistik-programmets
hjemmeside. Det er et open source-program, og den slags plejer at være
mere forsigtige med indsamling og videregivelse af oplysninger (eller
også er jeg bare for godtroende). Men det er nok den forklaring, der er
mest sandsynlig.

--
Mvh. Kim Ludvigsen

Kasper Dupont (28-12-2003)

Kommentar
Fra : Kasper Dupont

Dato : 28-12-03 08:19

Kim Ludvigsen wrote:
>
> Kasper Dupont wrote:
>
> > Du behøver ikke have links til alexa.com. Det er nok,
> > at der findes et eksternt link.
>
> Det eneste eksterne link på statistiksiden er til statistik-programmets
> hjemmeside. Det er et open source-program, og den slags plejer at være
> mere forsigtige med indsamling og videregivelse af oplysninger (eller
> også er jeg bare for godtroende). Men det er nok den forklaring, der er
> mest sandsynlig.

Det er vel ikke usandsynligt, at programmet selv bliver
brugt til at lave statistik over hjemmesiden du nævner.
Hvis linket til programmets hjemmeside findes som
default, så vil det nok findes så mange stedder, at
søgemaskinerne for længst har fundet den side. Derfra
kan de måske finde en statistikside, som på et tidspunkt
har indeholdt et link til din statistikside.

--
Kasper Dupont -- der bruger for meget tid paa usenet.
For sending spam use mailto:aaarep@daimi.au.dk
/* Would you like fries with that? */

Christian E. Lysel (25-12-2003)

Kommentar
Fra : Christian E. Lysel

Dato : 25-12-03 12:02

In article <3FE96FFC.4BA5@kimludvigsen.dk>, Kim Ludvigsen wrote:
> Hvorfor tænkte jeg ikke på det... checke, checke... Nej, alexa.com
> fremstår ikke som et link på statistiksiden.

Hvis du er inde på din statestik side, og derefter manuelt indtaster
alexa.com (eller et af deres andre sites), mener jeg også at
refere taget bliver brugt.

--
Mvh.
Christian E. Lysel
http://www.spindelnet.dk/

Kasper Dupont (26-12-2003)

Kommentar
Fra : Kasper Dupont

Dato : 26-12-03 12:17

"Christian E. Lysel" wrote:
>
> Hvis du er inde på din statestik side, og derefter manuelt indtaster
> alexa.com (eller et af deres andre sites), mener jeg også at
> refere taget bliver brugt.

Der findes nok nogen browsere, der gør det.
Men det er helt klart en fejl i browseren.

--
Kasper Dupont -- der bruger for meget tid paa usenet.
For sending spam use mailto:aaarep@daimi.au.dk
/* Would you like fries with that? */

Kim Ludvigsen (28-12-2003)

Kommentar
Fra : Kim Ludvigsen

Dato : 28-12-03 01:44

Kasper Dupont wrote:
>
> "Christian E. Lysel" wrote:
> >
> > Hvis du er inde på din statestik side, og derefter manuelt indtaster
> > alexa.com (eller et af deres andre sites), mener jeg også at
> > refere taget bliver brugt.
>
> Der findes nok nogen browsere, der gør det.
> Men det er helt klart en fejl i browseren.

Enig, og jeg kan ikke forestille mig, at det skulle være tilfældet med
Mozilla.

--
Mvh. Kim Ludvigsen

Nikolaj Hviid (27-12-2003)

Kommentar
Fra : Nikolaj Hviid

Dato : 27-12-03 10:33

Prøv at læse disse artikler på html.dk http://www.html.dk/artikler/00007 og
http://www.html.dk/artikler/00003 Så har du da lidt mere at bestemme overfor
søgemaskinerne.

Mvh.
Nikolaj Hviid

Kasper Dupont (27-12-2003)

Kommentar
Fra : Kasper Dupont

Dato : 27-12-03 11:34

Nikolaj Hviid wrote:
>
> Prøv at læse disse artikler på html.dk http://www.html.dk/artikler/00007 og
> http://www.html.dk/artikler/00003 Så har du da lidt mere at bestemme overfor
> søgemaskinerne.

Artikel 3 er fin nok. Jeg vil anbefale, at bruge
robots.txt fremfor et robots meta tag. Brug kun
meta tagget hvis robots.txt ikke er muligt. Se i
øvrigt også:

http://www.robotstxt.org/wc/exclusion.html

Hvad angår problemet med, at robots.txt kan bruges
til at finde dine hemmelige dokumenter, så er der
en simpel løsning. Lad være med at skrive den fulde
sti i robots.txt filen. Du skal bare skrive nok til,
at filen identificeres entydigt, og håb så på, at
man ikke kan gætte resten. Det bliver frarådet at
lave en robots.txt fil med dette indhold:

User-agent: *
Disallow: /meget_hemmelig_side.htm

Men de nævner ikke, at man bare kunne have skrevet
følgende i sin robots.txt fil:

User-agent: *
Disallow: /mege

Sidstnævnte vil også forbyde roboterne at hente
siden selvom de måtte finde den. Og dog kan man
ikke udfra robots.txt filen se, hvad den forbudte
fil faktisk hedder.

Bemærk, at en fil listet i robots.txt faktisk
stadig kan dukkes op i en søgemaskine. Hvis der
findes mange links til siden, og et søgeord
indgår enten i linkteksten eller i URLen, så kan
Google godt finde på at aflevere URLen som et
søgeresultat, selvom Google aldrig har hentet
siden. Det vil selvfølgelig være uden det sædvanlige
uddrag fra siden og adgang til en cachet udgave.

--
Kasper Dupont -- der bruger for meget tid paa usenet.
For sending spam use mailto:aaarep@daimi.au.dk
/* Would you like fries with that? */

Kim Ludvigsen (28-12-2003)

Kommentar
Fra : Kim Ludvigsen

Dato : 28-12-03 01:50

Nikolaj Hviid wrote:
>
> Prøv at læse disse artikler på html.dk http://www.html.dk/artikler/00007 og
> http://www.html.dk/artikler/00003 Så har du da lidt mere at bestemme overfor
> søgemaskinerne.

Jeg kender godt robots.txt. Jeg har ikke brugt den, fordi jeg ikke
regnede med, at robotterne kunne finde sider, der ikke var linket til.
Det er ikke fordi, det er en katastrofe, jeg undrer mig bare.

--
Mvh. Kim Ludvigsen

Søg

Reklame

Statistik

Spørgsmål :	177705
Tips :	31970
Nyheder :	719565
Indlæg :	6410014
Brugere :	218897

Månedens bedste

Årets bedste

Sidste års bedste