/ Forside / Teknologi / Udvikling / ASP / Nyhedsindlæg
Login
Glemt dit kodeord?
Brugernavn

Kodeord


Reklame
Top 10 brugere
ASP
#NavnPoint
smorch 9259
Harlekin 1866
molokyle 1040
Steffanst.. 758
gandalf 657
smilly 564
gibson 560
cumano 530
MouseKeep.. 480
10  Random 410
Hente HTML dokumenter til bearbejdning i A~
Fra : urban


Dato : 29-06-01 11:12

Hej

Hvordan kan jeg få min ASP til at hente andre dokumenter på nettet, så
jeg får mulighed for, at min ASP kan manipulere eller søge i
HTML-koderne? Jeg skal f.eks. bruge det til at lave en ASP-routine, der
kan indekserer udvalgte sider på nettet og lægge relevante keywords i en
Database, så jeg på den måde kan lave en søgemaskine.

Mvh
Urban

--
Leveret af:
http://www.kandu.dk/
"Vejen til en hurtig løsning"


 
 
Jesper Stocholm (29-06-2001)
Kommentar
Fra : Jesper Stocholm


Dato : 29-06-01 11:30

"urban" <urban.news@kandu.dk> wrote in news:9vY_6.394$DJ5.44018
@news010.worldonline.dk:

> Hej
>
> Hvordan kan jeg få min ASP til at hente andre dokumenter på nettet, så
> jeg får mulighed for, at min ASP kan manipulere eller søge i
> HTML-koderne? Jeg skal f.eks. bruge det til at lave en ASP-routine, der
> kan indekserer udvalgte sider på nettet og lægge relevante keywords i en
> Database, så jeg på den måde kan lave en søgemaskine.
>

som udgangspunkt skal du have en måde at etablere en forbindelse til en
anden webserver med. Dette kan enten ske vha en 3.part komponent som
W3Sockets [1] (hvis det skal være avanceret) eller du kan anvende den
feature, der ligger i MSXML3 [2], der hedder ServerXMLHTTP til at hente
informationerne fra et andet website [3].

[1] http://tech.dimac.net
[2] http://msdn.microsoft.com/downloads/sample.asp?url=/msdn-
files/027/001/591/msdncompositedoc.xml&frame=true
[3] Den er godt nok lavet til at hente XML-data direkte ind i DOM, men den
kan sagtens bruges til det andet.

.... og så er det bare at gå i gang.



--
I wrote to George W. Bush - see why at
http://stocholm.dk/emailgeorgewbush.asp

- Jesper Stocholm - http://stocholm.dk

Jesper Stocholm (29-06-2001)
Kommentar
Fra : Jesper Stocholm


Dato : 29-06-01 11:57

Jesper Stocholm <spam@stocholm.dk> wrote in
news:Xns90CF7F44B84D5spamstocholmdk@192.38.208.81:

> "urban" <urban.news@kandu.dk> wrote in news:9vY_6.394$DJ5.44018
> @news010.worldonline.dk:
>
> [1] http://tech.dimac.net
> [2] http://msdn.microsoft.com/downloads/sample.asp?url=/msdn-
> files/027/001/591/msdncompositedoc.xml&frame=true
> [3] Den er godt nok lavet til at hente XML-data direkte ind i DOM, men
> den kan sagtens bruges til det andet.
>
> ... og så er det bare at gå i gang.
>

jeg spurgte om hjælp til W3sockets i marts, og prøv at kigge i den tråd :
http://groups.google.com/groups?hl=en&safe=off&ic=1&th=d9be238cf73c359f,14
&seekm=Xns9076A99BA1FAFspamstocholmdk%40192.38.208.81#p



--
I wrote to George W. Bush - see why at
http://stocholm.dk/emailgeorgewbush.asp

- Jesper Stocholm - http://stocholm.dk

Jesper Stocholm (29-06-2001)
Kommentar
Fra : Jesper Stocholm


Dato : 29-06-01 12:28

Jesper Stocholm <spam@stocholm.dk> wrote in
news:Xns90CF7F44B84D5spamstocholmdk@192.38.208.81:

> "urban" <urban.news@kandu.dk> wrote in news:9vY_6.394$DJ5.44018
> @news010.worldonline.dk:
>
>> Hej
>>
>> Hvordan kan jeg få min ASP til at hente andre dokumenter på nettet, så
>> jeg får mulighed for, at min ASP kan manipulere eller søge i
>> HTML-koderne? Jeg skal f.eks. bruge det til at lave en ASP-routine,
>> der kan indekserer udvalgte sider på nettet og lægge relevante
>> keywords i en Database, så jeg på den måde kan lave en søgemaskine.
>>
>
> [3] Den er godt nok lavet til at hente XML-data direkte ind i DOM, men
> den kan sagtens bruges til det andet.
>

Og lidt kode til dig:

<%
dim xmlServerHttp,str_url, str_bodyhtml
set xmlServerHttp = createobject("Msxml2.serverXmlHttp")
str_url = "<den URL du vil hente HTML fra>"
xmlServerHttp.open "GET", str_url, False
xmlServerHttp.send
str_bodyhtml = xmlServerHttp.responsetext
%>

--
I wrote to George W. Bush - see why at
http://stocholm.dk/emailgeorgewbush.asp

- Jesper Stocholm - http://stocholm.dk

Svein Høvik (02-07-2001)
Kommentar
Fra : Svein Høvik


Dato : 02-07-01 12:57

> >> Hvordan kan jeg få min ASP til at hente andre dokumenter på nettet, så
> >> jeg får mulighed for, at min ASP kan manipulere eller søge i
> >> HTML-koderne? Jeg skal f.eks. bruge det til at lave en ASP-routine,
> >> der kan indekserer udvalgte sider på nettet og lægge relevante
> >> keywords i en Database, så jeg på den måde kan lave en søgemaskine.
> >>
> Og lidt kode til dig:
>
> <%
> dim xmlServerHttp,str_url, str_bodyhtml
> set xmlServerHttp = createobject("Msxml2.serverXmlHttp")
> str_url = "<den URL du vil hente HTML fra>"
> xmlServerHttp.open "GET", str_url, False
> xmlServerHttp.send
> str_bodyhtml = xmlServerHttp.responsetext
> %>
>

Denne fungerer utmerket - men hvordan kan en få lest danske/norske tegn?
Prøv f.eks å sette inn http://www.jp.dk som str_url-variabel, og en ser at
de danske tegn blir gjengitt som spørsmålstegn. Det samme skjer med f.eks
www.dagbladet.no og www.vg.no. Men om en forsøker www.aftenposten.no blir de
norske tegnene riktige. Det går frem av kildekoden at æøå hos Aftenposten er
skrevet som html-eniteter, (&aelig; osv) og på de øvrige sidene som ren
tekst. Er det f.eks mulig å tvinge xml-komponenten til å lese æøå som
html-entiteter ved å bruke Replace(), eller finnes det andre løsninger på
dette?

(På siter der en selv har kontrollen er det selvfølgelig ikke noe problem å
kode siden med html-entiteter, men om en ønsker å hente inn stoff fra andre
steder for f.eks å lage en søkemotor, blir disse spørsmålstegnene
irriterende...)

Mvh
Svein




Jesper Stocholm (05-07-2001)
Kommentar
Fra : Jesper Stocholm


Dato : 05-07-01 23:12

"Svein Høvik" <svein@(spamfilter)hovik.com> wrote in
news:3b405de6$1@rnsv-1.ringnett.no:

>> >> Hvordan kan jeg få min ASP til at hente andre dokumenter på nettet,
>> >> så jeg får mulighed for, at min ASP kan manipulere eller søge i
>> >> HTML-koderne? Jeg skal f.eks. bruge det til at lave en ASP-routine,
>> >> der kan indekserer udvalgte sider på nettet og lægge relevante
>> >> keywords i en Database, så jeg på den måde kan lave en søgemaskine.
>> >>
>> Og lidt kode til dig:
>>
>> <%
>> dim xmlServerHttp,str_url, str_bodyhtml
>> set xmlServerHttp = createobject("Msxml2.serverXmlHttp")
>> str_url = "<den URL du vil hente HTML fra>"
>> xmlServerHttp.open "GET", str_url, False xmlServerHttp.send
>> str_bodyhtml = xmlServerHttp.responsetext %>
>>
>
> Denne fungerer utmerket - men hvordan kan en få lest danske/norske
> tegn? Prøv f.eks å sette inn http://www.jp.dk som str_url-variabel, og
> en ser at de danske tegn blir gjengitt som spørsmålstegn. Det samme
> skjer med f.eks www.dagbladet.no og www.vg.no. Men om en forsøker
> www.aftenposten.no blir de norske tegnene riktige. Det går frem av
> kildekoden at æøå hos Aftenposten er skrevet som html-eniteter,
> (&aelig; osv) og på de øvrige sidene som ren tekst. Er det f.eks mulig
> å tvinge xml-komponenten til å lese æøå som html-entiteter ved å bruke
> Replace(), eller finnes det andre løsninger på dette?
>
> (På siter der en selv har kontrollen er det selvfølgelig ikke noe
> problem å kode siden med html-entiteter, men om en ønsker å hente inn
> stoff fra andre steder for f.eks å lage en søkemotor, blir disse
> spørsmålstegnene irriterende...)
>

serverXMLHTTP kigger på det charset, som siden er skrevet i. Derfor kan du
løse dit problem ved at sikre dig, at siden medgiver charset i headeren - og
det skal i dette tilfælde være ISO-8859-1

Hvis du ikke har adgang til dette, så kan du udskifte META-linien i den HTML
der hentes med en, der angiver, at det er en ISO-side. Hvis du kigger i
kildekoden (HTML-koden) i de data, der hentes, så er de så vidt jeg kan
huske intakte - det er blot browseren, der viser den "forkert".

Ellers synes jeg du skal kigge på W3 Sockets fra Dimac - det er ikke så
svært at bruge.




--
I wrote to George W. Bush - see why at
http://stocholm.dk/emailgeorgewbush.asp

- Jesper Stocholm - http://stocholm.dk

Svein Høvik (06-07-2001)
Kommentar
Fra : Svein Høvik


Dato : 06-07-01 12:30


> serverXMLHTTP kigger på det charset, som siden er skrevet i. Derfor kan du
> løse dit problem ved at sikre dig, at siden medgiver charset i headeren -
og
> det skal i dette tilfælde være ISO-8859-1
>
Dette går fint på de sider jeg selv har kontroll over, problemet oppstår når
jeg henter sider fra andre steder.


> Hvis du ikke har adgang til dette, så kan du udskifte META-linien i den
HTML
> der hentes med en, der angiver, at det er en ISO-side. Hvis du kigger i
> kildekoden (HTML-koden) i de data, der hentes, så er de så vidt jeg kan
> huske intakte - det er blot browseren, der viser den "forkert".

Takk for rådet, men jeg har allerede forsøkt dette. I kildekoden står det
også feil, slik at det er under selve forespørselen til ekstern server noe
går galt.

Svein




Jonas Astrup - html.~ (05-07-2001)
Kommentar
Fra : Jonas Astrup - html.~


Dato : 05-07-01 21:44

urban wrote in dk.edb.internet.webdesign.serverside.asp:
> Hvordan kan jeg få min ASP til at hente andre dokumenter
> på nettet, så jeg får mulighed for, at min ASP kan manipulere
> eller søge i HTML-koderne?

Ud over de svar du allerede har fået kan du også prøve at kigge her:
http://www.html.dk/scripts/asp/00008/

Mvh
Jonas

--
Brug Validator service: http://www.html.dk/validator
- Tast din URL én gang, og validér dokumentet hos 12 validatorer
- Understøtter HTML, CSS og søgemaskineoptimering

Søg
Reklame
Statistik
Spørgsmål : 177554
Tips : 31968
Nyheder : 719565
Indlæg : 6408857
Brugere : 218888

Månedens bedste
Årets bedste
Sidste års bedste