On Fri, 30 Jan 2004 13:07:03 +0100,
Thomas Damgaard Nielsen <tdn@ircnet.org> wrote:
>
> $ wget -r -A "html,jpg,gif,png"
http://minserver.dk/dok.html
>
> Problemet er bare at det ikke henter links/billeder som ligger udenfor
>
http://minserver.dk/.
> Jeg vil gerne have at den laver et mirror af dem der ligger på
>
http://minandenserver.dk/images/* osv.
>
> Jeg kan ikke rigtigt finde noget om det i manualen.
wget -c --tries=45 --waitretry=10 --mirror --wait=30 \
-HDimages.aoeu.com,aoeu.com
http://aoeu.com
Hvis du partout _vil_ droppe --wait=30 boer du nok lige laese
http://www.robotstxt.org/wc/guidelines.html
wget er ioevrigt noget skidt programmel. Folkene der har skrevet det
kender blandt andet ikke til usleep():
http://mail-index.netbsd.org/netbsd-bugs/2004/01/24/0011.html
(og laeser man lidt videre finder man ud af at de heller ikke forstaar
nanosleep())
Jeg er begyndt at foretraekke 'curl' i stedet, sat sammen med lidt
scripting til at parse HTML med. Noget crude awk(1) kan man som regel
komme rimeligt langt med.
--
Jesper