"Svein Høvik" <svein@(spamfilter)hovik.com> wrote in
news:3b405de6$1@rnsv-1.ringnett.no:
>> >> Hvordan kan jeg få min ASP til at hente andre dokumenter på nettet,
>> >> så jeg får mulighed for, at min ASP kan manipulere eller søge i
>> >> HTML-koderne? Jeg skal f.eks. bruge det til at lave en ASP-routine,
>> >> der kan indekserer udvalgte sider på nettet og lægge relevante
>> >> keywords i en Database, så jeg på den måde kan lave en søgemaskine.
>> >>
>> Og lidt kode til dig:
>>
>> <%
>> dim xmlServerHttp,str_url, str_bodyhtml
>> set xmlServerHttp = createobject("Msxml2.serverXmlHttp")
>> str_url = "<den URL du vil hente HTML fra>"
>> xmlServerHttp.open "GET", str_url, False xmlServerHttp.send
>> str_bodyhtml = xmlServerHttp.responsetext %>
>>
>
> Denne fungerer utmerket - men hvordan kan en få lest danske/norske
> tegn? Prøv f.eks å sette inn
http://www.jp.dk som str_url-variabel, og
> en ser at de danske tegn blir gjengitt som spørsmålstegn. Det samme
> skjer med f.eks
www.dagbladet.no og
www.vg.no. Men om en forsøker
>
www.aftenposten.no blir de norske tegnene riktige. Det går frem av
> kildekoden at æøå hos Aftenposten er skrevet som html-eniteter,
> (æ osv) og på de øvrige sidene som ren tekst. Er det f.eks mulig
> å tvinge xml-komponenten til å lese æøå som html-entiteter ved å bruke
> Replace(), eller finnes det andre løsninger på dette?
>
> (På siter der en selv har kontrollen er det selvfølgelig ikke noe
> problem å kode siden med html-entiteter, men om en ønsker å hente inn
> stoff fra andre steder for f.eks å lage en søkemotor, blir disse
> spørsmålstegnene irriterende...)
>
serverXMLHTTP kigger på det charset, som siden er skrevet i. Derfor kan du
løse dit problem ved at sikre dig, at siden medgiver charset i headeren - og
det skal i dette tilfælde være ISO-8859-1
Hvis du ikke har adgang til dette, så kan du udskifte META-linien i den HTML
der hentes med en, der angiver, at det er en ISO-side. Hvis du kigger i
kildekoden (HTML-koden) i de data, der hentes, så er de så vidt jeg kan
huske intakte - det er blot browseren, der viser den "forkert".
Ellers synes jeg du skal kigge på W3 Sockets fra Dimac - det er ikke så
svært at bruge.
--
I wrote to George W. Bush - see why at
http://stocholm.dk/emailgeorgewbush.asp
- Jesper Stocholm -
http://stocholm.dk