/ Forside / Teknologi / Operativsystemer / Linux / Nyhedsindlæg
Login
Glemt dit kodeord?
Brugernavn

Kodeord


Reklame
Top 10 brugere
Linux
#NavnPoint
o.v.n. 11177
peque 7911
dk 4814
e.c 2359
Uranus 1334
emesen 1334
stone47 1307
linuxrules 1214
Octon 1100
10  BjarneD 875
rekursiv wget cross domain?
Fra : Thomas Damgaard Niel~


Dato : 30-01-04 13:07

Hej,

Hvis jeg vil lave et mirror af et site med alle billeder er jeg vant til
at gøre noget i stil med:

$ wget -r -A "html,jpg,gif,png" http://minserver.dk/dok.html

Problemet er bare at det ikke henter links/billeder som ligger udenfor
http://minserver.dk/.
Jeg vil gerne have at den laver et mirror af dem der ligger på
http://minandenserver.dk/images/* osv.

Jeg kan ikke rigtigt finde noget om det i manualen.

Kan I hjælpe mig?

Mvh
Thomas Damgaard

 
 
Jesper Louis Anderse~ (30-01-2004)
Kommentar
Fra : Jesper Louis Anderse~


Dato : 30-01-04 15:19

On Fri, 30 Jan 2004 13:07:03 +0100,
Thomas Damgaard Nielsen <tdn@ircnet.org> wrote:
>
> $ wget -r -A "html,jpg,gif,png" http://minserver.dk/dok.html
>
> Problemet er bare at det ikke henter links/billeder som ligger udenfor
> http://minserver.dk/.
> Jeg vil gerne have at den laver et mirror af dem der ligger på
> http://minandenserver.dk/images/* osv.
>
> Jeg kan ikke rigtigt finde noget om det i manualen.

wget -c --tries=45 --waitretry=10 --mirror --wait=30 \
   -HDimages.aoeu.com,aoeu.com http://aoeu.com

Hvis du partout _vil_ droppe --wait=30 boer du nok lige laese
http://www.robotstxt.org/wc/guidelines.html

wget er ioevrigt noget skidt programmel. Folkene der har skrevet det
kender blandt andet ikke til usleep():

http://mail-index.netbsd.org/netbsd-bugs/2004/01/24/0011.html

(og laeser man lidt videre finder man ud af at de heller ikke forstaar
nanosleep())

Jeg er begyndt at foretraekke 'curl' i stedet, sat sammen med lidt
scripting til at parse HTML med. Noget crude awk(1) kan man som regel
komme rimeligt langt med.

--
Jesper

Thomas Damgaard Niel~ (31-01-2004)
Kommentar
Fra : Thomas Damgaard Niel~


Dato : 31-01-04 00:59

Jesper Louis Andersen wrote:

> wget -c --tries=45 --waitretry=10 --mirror --wait=30 \
>    -HDimages.aoeu.com,aoeu.com http://aoeu.com

Tak for det!
Men hvad nu hvis det er _alle_ domæner jeg gerne vil have.
Altså hvis jeg ikke har en specificeret liste over dem?


> Hvis du partout _vil_ droppe --wait=30 boer du nok lige laese
> http://www.robotstxt.org/wc/guidelines.html

Vil jeg da lige gøre.


> Jeg er begyndt at foretraekke 'curl' i stedet, sat sammen med lidt
> scripting til at parse HTML med. Noget crude awk(1) kan man som regel
> komme rimeligt langt med.

OK.
Jeg vil se nermere på curl.

Mvh
Thomas Damgaard

Thomas Damgaard Niel~ (31-01-2004)
Kommentar
Fra : Thomas Damgaard Niel~


Dato : 31-01-04 01:39

Jesper Louis Andersen wrote:

> wget -c --tries=45 --waitretry=10 --mirror --wait=30 \
>    -HDimages.aoeu.com,aoeu.com http://aoeu.com
>
> Hvis du partout _vil_ droppe --wait=30 boer du nok lige laese
> http://www.robotstxt.org/wc/guidelines.html

Ved godt det ikke altid er så venligt... Men det er til brug på egne
servere.. Kan man få wget til at ignorere robots.txt ?

Mvh
Thomas Damgaard


Søg
Reklame
Statistik
Spørgsmål : 177551
Tips : 31968
Nyheder : 719565
Indlæg : 6408836
Brugere : 218887

Månedens bedste
Årets bedste
Sidste års bedste