Kandu.dk - Hurtigste wget?


/ Forside / Teknologi / Operativsystemer / Linux / Nyhedsindlæg

Glemt dit kodeord?

Brugernavn*

Kodeord *

Husk mig

Brugerservice

Kom godt i gang

Bliv medlem

Seneste indlæg

Find en bruger

Stil et spørgsmål

Skriv et tip

Fortæl en ven

Pointsystemet

Kontakt Kandu.dk

Emnevisning

Kategorier

Alfabetisk

Karriere

Interesser

Teknologi

Reklame

Top 10 brugere

Linux

#	Navn	Point
1	o.v.n.	11177
2	peque	7911
3	dk	4814
4	e.c	2359
5	Uranus	1334
6	emesen	1334
7	stone47	1307
8	linuxrules	1214
9	Octon	1100
10	BjarneD	875

Hurtigste wget?
Fra : Jimmy

Dato : 13-11-04 08:09

Hej

Jeg skal jævnligt hitte en større mængde URL's og forestillede mig, at man
kunne placere dem i en textfil og lade wget tage sig af det, men bare 500
URL's tager 41 sekunder, og det er endda med en test-URL, som kun har
begrænset output.

Jeg har forsøgt at angive --quota=1, men den hentede alligevel hele filen,
så der sparede jeg ikke noget tid.

Har I et forslag til hvordan jeg få hittet en stor mængde sider hurtigst
muligt, gerne med mulighed for at man ikke downloader deres output?

Mvh
Jimmy

Jesper Louis Anderse~ (13-11-2004)

Kommentar
Fra : Jesper Louis Anderse~

Dato : 13-11-04 08:31

Jimmy <bla@bla.bla> wrote:
> Hej
>
> Jeg skal j?vnligt hitte en st?rre m?ngde URL's og forestillede mig, at man
> kunne placere dem i en textfil og lade wget tage sig af det, men bare 500
> URL's tager 41 sekunder, og det er endda med en test-URL, som kun har
> begr?nset output.

Noget andet end wget, med nogle threads.

--
jlouis

Leif Neland (13-11-2004)

Kommentar
Fra : Leif Neland

Dato : 13-11-04 10:13

Jimmy wrote:
> Hej
>
> Jeg skal jævnligt hitte en større mængde URL's og forestillede mig,
> at man kunne placere dem i en textfil og lade wget tage sig af det,
> men bare 500 URL's tager 41 sekunder, og det er endda med en
> test-URL, som kun har begrænset output.

Du skal vel ikke fuske med at hitte bannerreklamer ? Glad

> Jeg har forsøgt at angive --quota=1, men den hentede alligevel hele
> filen, så der sparede jeg ikke noget tid.
>
> Har I et forslag til hvordan jeg få hittet en stor mængde sider
> hurtigst muligt, gerne med mulighed for at man ikke downloader deres
> output?

wget --spider --force-html -i bookmarks.html

bookmarks.html skal så indeholde url'erne som <a href="....>...</a>, men det
er jo en one-liner at konvertere en liste af url'er til det.

Skal det speedes op, kan du jo dele tekstfilen op i f.ex. 10 dele og køre
dem parallelt, ved at backgrounde-processen
poll_url liste.del1 &
poll_url liste.del2 &
osv

Hvis du virkelig skal fuske med at hitte bannerreklamer, så skal du nok
kigge på --referer og --user-agent, for mere at ligne en human-operated
browser, og ikke en robot..

Kristian Thy (13-11-2004)

Kommentar
Fra : Kristian Thy

Dato : 13-11-04 11:35

Jimmy uttered:
> Har I et forslag til hvordan jeg få hittet en stor mængde sider hurtigst
> muligt, gerne med mulighed for at man ikke downloader deres output?

curl har mulighed for bare at hente HTTP-headers, så man sparer
nedlastningen af hele siden.

--
-- [ kristian ] --------------------------------------------------------
--------------- [if( you->toppost() ) { killfilter->append( you ); }] --
--

Thorbjoern Ravn Ande~ (13-11-2004)

Kommentar
Fra : Thorbjoern Ravn Ande~

Dato : 13-11-04 11:58

"Jimmy" <bla@bla.bla> writes:

> Har I et forslag til hvordan jeg få hittet en stor mængde sider hurtigst
> muligt, gerne med mulighed for at man ikke downloader deres output?

Lynx har et flag til kun at hente http-headeren

--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

Søg

Reklame

Statistik

Spørgsmål :	177754
Tips :	31970
Nyheder :	719565
Indlæg :	6410431
Brugere :	218905

Månedens bedste

Årets bedste

Sidste års bedste