/ Forside / Teknologi / Udvikling / HTML / Nyhedsindlæg
Login
Glemt dit kodeord?
Brugernavn

Kodeord


Reklame
Top 10 brugere
HTML
#NavnPoint
molokyle 11184
Klaudi 5506
bentjuul 3377
severino 2040
smorch 1950
strarup 1525
natmaden 1396
scootergr.. 1320
e.c 1150
10  miritdk 1110
charset 'iso-8859-1' eller 'utf-8'
Fra : MooreHojer


Dato : 10-08-08 17:31

Hej NG

Jeg har altid brugt charset 'iso-8859-1' fordi det har jeg fået at vide at
man skulle.
I dag skulle jeg så lige validere en side med w3c's validator men havde
glemt at angive charset,og den faldt derfor tilbage på 'utf-8' og siden
validerede så.

Mit spørgsmål er så hvad forskellen er på at bruge den ene frem for den
anden.
.... og hvilken er den korrekte? Er det den jeg altid har fået at vide var
den korrekte eller er det w3c's default der er "rigtigt" at bruge?

--
MooreHojer


 
 
Philip Nunnegaard (10-08-2008)
Kommentar
Fra : Philip Nunnegaard


Dato : 10-08-08 17:38

"MooreHojer" <simon@moorehojer.dk> skrev

> ... og hvilken er den korrekte? Er det den jeg altid har fået at vide var
> den korrekte eller er det w3c's default der er "rigtigt" at bruge?

Jeg opfatter egentlig ikke den ene som mere rigtig end den anden.
Problemet er dog at vores computere (Windows-maskiner) gerne gemmer tekst i
ISO-8859-1, så det er man nødt til at fortælle browseren, der i
udgangspunktet ikke kan se forskel.

Jeg vil tro (men her gætter jeg bare), at man skal bruge UTF-8, hvis man
arbejder fra en linux-maskine.


MooreHojer (10-08-2008)
Kommentar
Fra : MooreHojer


Dato : 10-08-08 17:57

"Philip Nunnegaard" <nunnenospam@hitsurf.dk> skrev i meddelelsen
news:489f1964$0$15874$edfadb0f@dtext01.news.tele.dk...
> "MooreHojer" <simon@moorehojer.dk> skrev
>
>> ... og hvilken er den korrekte? Er det den jeg altid har fået at vide var
>> den korrekte eller er det w3c's default der er "rigtigt" at bruge?
>
> Jeg opfatter egentlig ikke den ene som mere rigtig end den anden.
> Problemet er dog at vores computere (Windows-maskiner) gerne gemmer tekst
> i ISO-8859-1, så det er man nødt til at fortælle browseren, der i
> udgangspunktet ikke kan se forskel.
>
> Jeg vil tro (men her gætter jeg bare), at man skal bruge UTF-8, hvis man
> arbejder fra en linux-maskine.

Har det nogen betydning hvilket OS webserveren kører på eller er det kun den
maskine dokumentet laves på der har betydning?

--
MooreHojer


Philip Nunnegaard (10-08-2008)
Kommentar
Fra : Philip Nunnegaard


Dato : 10-08-08 18:00

"MooreHojer" <simon@moorehojer.dk> skrev

> Har det nogen betydning hvilket OS webserveren kører på eller er det kun
> den maskine dokumentet laves på der har betydning?

I udgangspunktet den maskine som dokumentet laves på.


Jens Peter Karlsen (11-08-2008)
Kommentar
Fra : Jens Peter Karlsen


Dato : 11-08-08 14:22

Rettere det program der bruges og hvilket format det gemmer i.

Regards Jens Peter Karlsen.

On Sun, 10 Aug 2008 19:00:16 +0200, "Philip Nunnegaard"
<nunnenospam@hitsurf.dk> wrote:

>> Har det nogen betydning hvilket OS webserveren kører på eller er det kun
>> den maskine dokumentet laves på der har betydning?
>
>I udgangspunktet den maskine som dokumentet laves på.

Bertel Lund Hansen (10-08-2008)
Kommentar
Fra : Bertel Lund Hansen


Dato : 10-08-08 18:29

Philip Nunnegaard skrev:

> Jeg vil tro (men her gætter jeg bare), at man skal bruge UTF-8, hvis man
> arbejder fra en linux-maskine.

Det er ikke noget krav. Der er slet ikke sammenhæng mellem OS og
det tegnsæt en given side bedst kodes i.

--
Bertel
http://bertel.lundhansen.dk/      FIDUSO: http://fiduso.dk/

Stig Johansen (10-08-2008)
Kommentar
Fra : Stig Johansen


Dato : 10-08-08 18:31

Philip Nunnegaard wrote:

> "MooreHojer" <simon@moorehojer.dk> skrev
>
>> ... og hvilken er den korrekte? Er det den jeg altid har fået at vide var
>> den korrekte eller er det w3c's default der er "rigtigt" at bruge?
>
> Jeg opfatter egentlig ikke den ene som mere rigtig end den anden.
> Problemet er dog at vores computere (Windows-maskiner) gerne gemmer tekst
> i ISO-8859-1, så det er man nødt til at fortælle browseren, der i
> udgangspunktet ikke kan se forskel.

Windows gemmer nu i UTF-16, siden Windows 2000 - før det havde 'han' noget
UCS2.

Men de første 256 codepoints i UTF-16 er de samme som i ISO-8859-1, så vi
(europæere) mærker ikke nogen forskel.

> Jeg vil tro (men her gætter jeg bare), at man skal bruge UTF-8, hvis man
> arbejder fra en linux-maskine.

Kun hvis den er sat op til UTF-8, min Linux kører med ISO-8859-1.

I forhold til MooreHojers:
> I dag skulle jeg så lige validere en side med w3c's validator men havde
> glemt at angive charset,og den faldt derfor tilbage på 'utf-8' og siden
> validerede så.

UTF-8 er et multibyte tegnsæt, hvor kun de første 128 tegn er repræsenteret
med én byte, se evt:
<http://www.utoronto.ca/webdocs/HTMLdocs/NewHTML/iso_table.html>
fra 0 til og med 127(DEL).
De næste 128 tegn i denne tabel er delt op i 2 blokke á 64.
Første blok starter med chr(194) = Â efterfulgt af karakterværdien +128, og
næste blok starter med chr(195) = Ã efterfulgt af karakterværdien+128.

Det er årsagen til man ser de der mærkelige tegn, når man viser utf-8 i en
ansi editor.

Hvis den ovennævnte side ikke indeholdt tegn > 127, vil den validere både
som iso-8859-1 og som utf-8.

Hvad der er rigtigt eller ikke er vist mest en smagssag, så længe man ikke
bevæger sig ud i nogle mere 'eksotiske' tegn/sprog.
Skal man over i noget russisk m.v. er utf-8 nok det bedste valg.

Snakker man XML, var der i 'tidernes morgen' ikke understøttelse af
iso-8859-1, så der var utf-8, som er default i XML, en nødvendighed.

Det ser dog ud som selv 'en vis herre' til en vis grad understøtter
iso-8859-1 i XML.

--
Med venlig hilsen
Stig Johansen

Jørn Andersen (10-08-2008)
Kommentar
Fra : Jørn Andersen


Dato : 10-08-08 20:37

On Sun, 10 Aug 2008 19:31:06 +0200, Stig Johansen <wopr.dk@gmaill.com>
wrote:

>Skal man over i noget russisk m.v. er utf-8 nok det bedste valg.

Der er skam også en "iso-8859-5" til russisk - eller "koi8-r" eller
"windows-1251", så der er mange muligheder


Mvh. Jørn

--
Jørn Andersen,
Brønshøj

Stig Johansen (11-08-2008)
Kommentar
Fra : Stig Johansen


Dato : 11-08-08 06:14

Jørn Andersen wrote:

> On Sun, 10 Aug 2008 19:31:06 +0200, Stig Johansen <wopr.dk@gmaill.com>
> wrote:
>
>>Skal man over i noget russisk m.v. er utf-8 nok det bedste valg.
>
> Der er skam også en "iso-8859-5" til russisk - eller "koi8-r" eller
> "windows-1251", så der er mange muligheder

He - jeg tænkte nok der skulle komme sådan en.
Jeg har 'rodet' med tegnsæt problemer lige siden '80, HP's Roman8 ctr. IBM's
EBCDIC, over PC'ere/printere med CP437 (missing ø'er), CPxyz mig her og
CPqrs mig der.

Med 'bedst' mente jeg, at utf-8 understøtter (stort set) samtlige tegn i ét
tegnsæt.

Det andet med at skifte codepage er nok lidt besværligt, for det skal styres
af HTTP headeren, og kræver derfor serveradgang.

Jeg ved vi har snakket meta-tags, men standarden (rfc 2626) siger:
........
HTTP/1.1 recipients MUST respect the
charset label provided by the sender;
........
samt
........
Data in character sets other than "ISO-8859-1" or
its subsets MUST be labeled with an appropriate charset value.
........
Med 'labeled' menes her i Content-Type headeren fra serveren.

Men en ting er standarder, og noget andet er implementering.
Når der ikke er angivet et charset i content-type, er det pr. standard
iso-8859-1, men nogle browsere forsøger at 'gætte' tegnsættet ud fra
indholdet.
Det er principielt forkert, men WTF, if it works - it works.

--
Med venlig hilsen
Stig Johansen

Erik Ginnerskov (11-08-2008)
Kommentar
Fra : Erik Ginnerskov


Dato : 11-08-08 00:28

Philip Nunnegaard wrote:

> Jeg vil tro (men her gætter jeg bare), at man skal bruge UTF-8, hvis
> man arbejder fra en linux-maskine.

Ikke nødvendigvis. Det er alene et spørgsmål om hvilke formater ens editor
kan håndtere. Kan editoren både håndtere ISO-8859-1 og UTF-8, er der frit
valg når bare man sætter en content-type svarende til det gemte format.

Noget andet er den server, der senere skal levere siden til brugerne. På
Linux-servere er UTF-8 vistnok standard, hvis der ikke er sat content-type i
header. Tilsvarende er ISO-8859-1 vist standard på IIS-servere, når ikke
andet er defineret i dokumentet.

--
Med venlig hilsen
Erik Ginnerskov
http://hjemmesideskolen.dk - http://ginnerskov.dk
http://vestfynswebdesign.dk - http://html-faq.dk



Philip Nunnegaard (11-08-2008)
Kommentar
Fra : Philip Nunnegaard


Dato : 11-08-08 04:31

"Erik Ginnerskov" <erik.ginnerskov@live.dk> skrev

> Ikke nødvendigvis. Det er alene et spørgsmål om hvilke formater ens editor
> kan håndtere. Kan editoren både håndtere ISO-8859-1 og UTF-8, er der frit
> valg når bare man sætter en content-type svarende til det gemte format.

"Problemet" er så bare at mine teksteditorer som standard gemmer som
ISO-8859-1, så enten skal jeg konstant vælge at gemme som UTF-8, eller også
kan jeg nøjes med én gang for alle at angive det i headeren på mine
HTML-filer.
Denne header har jeg i en include-fil, så derfor "én gang for alle".
Og ofte er det dét der løser problemerne hos folk flest.

> Noget andet er den server, der senere skal levere siden til brugerne. På
> Linux-servere er UTF-8 vistnok standard, hvis der ikke er sat content-type
> i header. Tilsvarende er ISO-8859-1 vist standard på IIS-servere, når ikke
> andet er defineret i dokumentet.

Ja, det var så også forskellen på MySQL under hhv. IIS og Apache/Linux, jeg
egentlig kom til at tage udgangspunkt i og antog at samme forskel gjorde sig
gældende for Windows vs. Linux generelt.


Erik Ginnerskov (11-08-2008)
Kommentar
Fra : Erik Ginnerskov


Dato : 11-08-08 12:51

Philip Nunnegaard wrote:

> "Problemet" er så bare at mine teksteditorer som standard gemmer som
> ISO-8859-1, så enten skal jeg konstant vælge at gemme som UTF-8,

Det er naturligvis et irritationsmoment, men er man i det mindste opmærksom
på det, går det ikke galt.

> eller også kan jeg nøjes med én gang for alle at angive det i
> headeren på mine HTML-filer.
> Denne header har jeg i en include-fil, så derfor "én gang for alle".

Samme løsning arbejder jeg med. Kun sluttagget </head> er anbragt på alle
sider - derved får jeg mulighed for at sætte lidt ekstra css ind på en
enkelt side uden at skulle belaste alle sider med det.

> Ja, det var så også forskellen på MySQL under hhv. IIS og
> Apache/Linux, jeg egentlig kom til at tage udgangspunkt i og antog at
> samme forskel gjorde sig gældende for Windows vs. Linux generelt.

Nu skrev jeg bevidst 'vist nok' og 'vist', for jeg har kun kendskab til to
betalte servere med hver to domæner: Azero (asp og php på IIS (kan også fås
som php på Unix, men det har jeg ikke)) og Unoeuro (php på Apache (kan også
fås med asp og .net på jeg ved ikke hvilken platform men sikkert IIS)).

Der ud over har jeg gennem tiderne erhvervet tre gratis serverpladser ved
have abonnement på internetforbindelse gennem på skift tele2, tdc og
cybercity - de er alle på Apache.

--
Med venlig hilsen
Erik Ginnerskov
http://hjemmesideskolen.dk - http://ginnerskov.dk
http://vestfynswebdesign.dk - http://html-faq.dk



Bertel Lund Hansen (10-08-2008)
Kommentar
Fra : Bertel Lund Hansen


Dato : 10-08-08 18:28

MooreHojer skrev:

> Mit spørgsmål er så hvad forskellen er på at bruge den ene frem for den
> anden.

UTF-8 har mange flere tegn end ISO-8859-x, men hvis man ikke har
brug for dem, vinder man intet ved at bruge det.

> ... og hvilken er den korrekte?

Alle korrekt erklærede tegnsæt der følger en standard, er
korrekte, og dem er der mange af. Alene af ISO-8859-? er der
flere forskellige.

--
Bertel
http://bertel.lundhansen.dk/      FIDUSO: http://fiduso.dk/

Leif Neland (19-08-2008)
Kommentar
Fra : Leif Neland


Dato : 19-08-08 19:53

Bertel Lund Hansen skrev:
> MooreHojer skrev:
>
>> Mit spørgsmål er så hvad forskellen er på at bruge den ene frem for den
>> anden.
>
> UTF-8 har mange flere tegn end ISO-8859-x, men hvis man ikke har
> brug for dem, vinder man intet ved at bruge det.
>
>> ... og hvilken er den korrekte?
>
> Alle korrekt erklærede tegnsæt der følger en standard, er
> korrekte, og dem er der mange af. Alene af ISO-8859-? er der
> flere forskellige.
>
Og så bliver der slet ikke talt om indhold, der stammer fra en database,
og evt kommer i databasen via en form. Så kan det blive rigtigt morsomt,
specielt, hvis man bruger en browserbaseret editor som FSKeditor.

Leif

Søg
Reklame
Statistik
Spørgsmål : 177500
Tips : 31968
Nyheder : 719565
Indlæg : 6408518
Brugere : 218887

Månedens bedste
Årets bedste
Sidste års bedste