Kandu.dk - Java2 JRE og danske tegn?


/ Forside / Teknologi / Operativsystemer / Linux / Nyhedsindlæg

Glemt dit kodeord?

Brugernavn*

Kodeord *

Husk mig

Brugerservice

Kom godt i gang

Bliv medlem

Seneste indlæg

Find en bruger

Stil et spørgsmål

Skriv et tip

Fortæl en ven

Pointsystemet

Kontakt Kandu.dk

Emnevisning

Kategorier

Alfabetisk

Karriere

Interesser

Teknologi

Reklame

Top 10 brugere

Linux

#	Navn	Point
1	o.v.n.	11177
2	peque	7911
3	dk	4814
4	e.c	2359
5	Uranus	1334
6	emesen	1334
7	stone47	1307
8	linuxrules	1214
9	Octon	1100
10	BjarneD	875

Java2 JRE og danske tegn?
Fra : Steen Suder

Dato : 18-07-02 13:20

Jeg har installeret Java2 JRE 1.4.0 på min Mandrake 8.2 og det betyder
at jeg kan bruge min netbank i Mozilla og ikke kun i Netscape 4.x som
tidligere.

Det eneste der generer (udover den lavere hastighed) er at den ikke
viser danske tegn korrekt. Hvordan konfigureres den til at vise danske tegn?

--
Mvh. / Best regards,
Steen Suder <http://www.suder.dk/>
ICQ UIN 4133803

Thorbjoern Ravn Ande~ (18-07-2002)

Kommentar
Fra : Thorbjoern Ravn Ande~

Dato : 18-07-02 16:00

Steen Suder <sfs_news@suder.dk> writes:

> Det eneste der generer (udover den lavere hastighed) er at den ikke
> viser danske tegn korrekt. Hvordan konfigureres den til at vise danske
> tegn?

Netscapes Java er meget, meget, megetlangsom. Jeg kan ikke forstå at
du får langsommere tider med 1.4, med mindre du har småt med RAM.

Hvad er problemet med de danske tegn? Har du et skræmdump man kan se?

--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

Steen Suder (18-07-2002)

Kommentar
Fra : Steen Suder

Dato : 18-07-02 18:59

Thorbjoern Ravn Andersen wrote:
> Steen Suder <sfs_news@suder.dk> writes:
>
>
>>Det eneste der generer (udover den lavere hastighed) er at den ikke
>>viser danske tegn korrekt. Hvordan konfigureres den til at vise danske
>>tegn?
>
>
> Netscapes Java er meget, meget, megetlangsom. Jeg kan ikke forstå at
> du får langsommere tider med 1.4, med mindre du har småt med RAM.

NS Java oplever jeg som hurtigere end 1.4. Jeg har 512MB RAM.

> Hvad er problemet med de danske tegn? Har du et skræmdump man kan se?

Her er et dump fra www.greenline.dk:
<http://www.suder.dk/Familien/Steen/javadump.jpg>

Problemet er det samme med netbanken o.a.

--
Mvh. / Best regards,
Steen Suder <http://www.suder.dk/>
ICQ UIN 4133803

Jacob Saaby Nielsen (19-07-2002)

Kommentar
Fra : Jacob Saaby Nielsen

Dato : 19-07-02 00:44

In article <3D3701CC.9040108@suder.dk>, sfs_news@suder.dk says...

> Her er et dump fra www.greenline.dk:
> <http://www.suder.dk/Familien/Steen/javadump.jpg>
>
> Problemet er det samme med netbanken o.a.

Hejsan,

nu husker du at karakterer i Java er baseret på Unicode tegnsættet, og
ikke alm. ASCII, right ?

--
Jacob Saaby Nielsen

Steen Suder (19-07-2002)

Kommentar
Fra : Steen Suder

Dato : 19-07-02 01:23

Jacob Saaby Nielsen wrote:
> In article <3D3701CC.9040108@suder.dk>, sfs_news@suder.dk says...
>
>
>>Her er et dump fra www.greenline.dk:
>><http://www.suder.dk/Familien/Steen/javadump.jpg>
>>
>>Problemet er det samme med netbanken o.a.
>
>
> Hejsan,
>
> nu husker du at karakterer i Java er baseret på Unicode tegnsættet, og
> ikke alm. ASCII, right ?

Det er muligt Blink

Betyder det at der ikke kan være tale om noget med noget codepage eller
hvad ved jeg?

Hvorom alt er; hvordan retter jeg problemet?

--
Mvh. / Best regards,
Steen Suder <http://www.suder.dk/>
ICQ UIN 4133803

Jacob Saaby Nielsen (19-07-2002)

Kommentar
Fra : Jacob Saaby Nielsen

Dato : 19-07-02 23:42

In article <3D375C01.3060805@suder.dk>, sfs_news@suder.dk says...

> Det er muligt Blink

>
> Betyder det at der ikke kan være tale om noget med noget codepage eller
> hvad ved jeg?
>
> Hvorom alt er; hvordan retter jeg problemet?

Skal jeg være helt ærlig, så ved jeg det ikke... endnu... Glad

Jeg ved
det fordi jeg er ved at lære mig selv Java, og i min bog lægges der
netop stor vægt på at man forstår at Java er Unicode baseret.

En ide kunne vel være at se i en Unicode tabel, og så henvise direkte
til karakteren med dens hex-værdi, \0x<værdi> mener jeg det er.

--
Jacob Saaby Nielsen

Byrial Jensen (20-07-2002)

Kommentar
Fra : Byrial Jensen

Dato : 20-07-02 08:50

Jacob Saaby Nielsen <jay@dontspamme.kode-fu.net> skrev:

> det fordi jeg er ved at lære mig selv Java, og i min bog lægges der
> netop stor vægt på at man forstår at Java er Unicode baseret.

Det er ellers en dårlig ting at forstå, for Java er ikke baseret
på Unicode, men på den ægte delmængde af Unicode som kaldes Basic
Multilingual Plane (BMP), og som kan repræsenteres med kun 16 bit
per tegn.

Jacob Saaby Nielsen (20-07-2002)

Kommentar
Fra : Jacob Saaby Nielsen

Dato : 20-07-02 18:34

In article <slrnaji5f4.18l.bjensen@ask.ask>, bjensen@nospam.dk says...

> Det er ellers en dårlig ting at forstå, for Java er ikke baseret
> på Unicode, men på den ægte delmængde af Unicode som kaldes Basic
> Multilingual Plane (BMP), og som kan repræsenteres med kun 16 bit
> per tegn.

Java and Unicode (uddrag fra Beginning Java 2 SDK 1.4, Ivor Horton/Wrox)

Programming to support languages that use anything other than the Latin
character set has always been a major problem. There are a variety of 8-
bit character sets defined for many national languages, but if you want
to combine the Latin character set and Cyrillic in the same context, for
example, things can get difficult. If you want to handle Japanese as
well, it becomes impossible with an 8-bit character set because with 8
bits you only have 256 different codes so there just aren't enough
characters necessary for almost all languages to be encoded. It uses a
16-bit code to represent a character (so each character occupies two
bytes), and with 16 bits up to 65,535 non-zero character codes can be
distinguished. With so many character codes available, there is enough
to allocate each major national character set its own set of codes,
including character sets such as Kanji which is used for Japanese, and
which requires thousand of character coes. It doesn't end there though.
Unicode supports three encoding forms that allow up to a million
additional characters to be represented.

As we shall see in Chapter 2, Java sourcecode is in Unicode characters.
Comments, identifiers (names - see Chapter 2), and character and string
literals can all use any characters in the Unicode set that represent
letters. Java also supports Unicode internally to represent characters
and strings, to the framework is there for a comprehensive international
language capability in a program. The normal ASCII set that you are
probably familiar with corresponds to the first 128 characters of the
Unicode set. Apart from being aware that each character occupies two
bytes, you can ignore the fact that you are handling Unicode characters
in the main, unless of course you are building an application that
supports multiple languages from the outset.

--------------------------------------------

(Gider ikke høre om stavefejl, det er bare CC'et fra mine øjne til mine
fingre fra bogen Blink

)

Desuden står der så i kapitel 2, side 62, et afsnit der hedder:

--------------------------------------------

Character Escape Sequences

If you are using an ASCII text editor you will only be able to enter
characters directly that are defined within ASCII. You can define
Unicode characters by specifying the hexadecimal representation of the
character codes in an escape sequence. An escape sequence is simply an
alternative means of specifying a character, often by its code. A
backslash indicates the start of an escape sequence, and you create an
escape sequence for Unicode character by preceding the four hexadecimal
digits of the character by \u. Since the Unicode coding for the letter X
is 0x0058 (the low order byte is the same as the ASCII code), you could
also declare and define myCharacter with the statement:

char myCharacter = '\u0058';

You can enter any Unicode character in this way, although it is not
exactly user-friendly for entering a lot of characters.

--------------------------------------------

Det KUNNE jo også være manden bruger en ASCII baseret editor, og bruger
command-line compileren, hvorved han vil opnå besvær med karakter-
sættene, da editoren skriver ASCII og compileren forudsætter Unicode.

Hvis det er tilfældet, så prøv at henvise direkte til hex-koden for æ, ø
og å, og se om det måske løser problemet Glad

Håber det kan hjælpe !

--
Jacob Saaby Nielsen

Byrial Jensen (20-07-2002)

Kommentar
Fra : Byrial Jensen

Dato : 20-07-02 23:01

Jacob Saaby Nielsen <jay@dontspamme.kode-fu.net> skrev:
> In article <slrnaji5f4.18l.bjensen@ask.ask>, bjensen@nospam.dk says...
>
>> Det er ellers en dårlig ting at forstå, for Java er ikke baseret
>> på Unicode, men på den ægte delmængde af Unicode som kaldes Basic
>> Multilingual Plane (BMP), og som kan repræsenteres med kun 16 bit
>> per tegn.
>
> Java and Unicode (uddrag fra Beginning Java 2 SDK 1.4, Ivor Horton/Wrox)

> It uses a 16-bit code to represent a character

Altså kan der kun være tale om BMP selvom dette ikke nævnes direkte.

> (so each character occupies two
> bytes), and with 16 bits up to 65,535 non-zero character codes can be
> distinguished. With so many character codes available, there is enough
> to allocate each major national character set its own set of codes,
> including character sets such as Kanji which is used for Japanese, and
> which requires thousand of character coes.

Det passer ikke at alle betydelige nationale tegnsæt har egne
unicode-tildelinger. Japansk, kinesisk og koreansk skrift er i en
vis udstrækning slået sammen med brug af de samme koder (CJK
unification).

> It doesn't end there though.
> Unicode supports three encoding forms that allow up to a million
> additional characters to be represented.

"A million" er mere end en faktor 1000 for lidt. Unicode definerer
et 31-bit tegnsæt.

Jacob Saaby Nielsen (20-07-2002)

Kommentar
Fra : Jacob Saaby Nielsen

Dato : 20-07-02 23:22

In article <slrnajjkjk.vf.bjensen@ask.ask>, bjensen@nospam.dk says...

> Det passer ikke at alle betydelige nationale tegnsæt har egne
> unicode-tildelinger. Japansk, kinesisk og koreansk skrift er i en
> vis udstrækning slået sammen med brug af de samme koder (CJK
> unification).

Det står der heller ikke. Bare at der er plads til det Blink

--
Jacob Saaby Nielsen

Rasmus Bøg Hansen (19-07-2002)

Kommentar
Fra : Rasmus Bøg Hansen

Dato : 19-07-02 01:27

Jacob Saaby Nielsen wrote:

> In article <3D3701CC.9040108@suder.dk>, sfs_news@suder.dk says...
>
>> Her er et dump fra www.greenline.dk:
>> <http://www.suder.dk/Familien/Steen/javadump.jpg>
>>
>> Problemet er det samme med netbanken o.a.

Jeg har netop kontrolleret og fundet at:

moffe@grignard Meget forvirret

# LANG=da_DK LC_ALL=da_DK mozilla http://www.greenline.dk/
moffe@grignard Meget forvirret

# LANG=C LC_ALL=C mozilla http://www.greenline.dk/
moffe@grignard Meget forvirret

# LANG=POSIX LC_ALL=POSIX mozilla http://www.greenline.dk/

alle giver problemet (debian woody) med Sun's Java 1.4.0 (som du beskriver).
I netscape 4 er problemet ikke-eksisterende uanset LC_ALL og LANG.

> nu husker du at karakterer i Java er baseret på Unicode tegnsættet, og
> ikke alm. ASCII, right ?

Men hvad er løsningen på det?

/Rasmus

--
-- [ Rasmus "Møffe" Bøg Hansen ] ---------------------------------------
UNIX is user-friendly;
it's just particular about who it chooses to be friends with!
----------------------------------[ moffe at amagerkollegiet dot dk ] --

Thorbjoern Ravn Ande~ (19-07-2002)

Kommentar
Fra : Thorbjoern Ravn Ande~

Dato : 19-07-02 10:25

Steen Suder <sfs_news@suder.dk> writes:

> Her er et dump fra www.greenline.dk:
> <http://www.suder.dk/Familien/Steen/javadump.jpg>
>
> Problemet er det samme med netbanken o.a.

Det er ikke et tegnproblem som sådan. HVad du ser er Unicode kodet
med UTF-8 metoden, vist som ISO-Latin-1, og det kan skyldes to ting:

1) At programmørene har sjusket og ukritisk viser alle tegn som bytes.

2) At den JRE du har fundet bruger forkerte værdier til at angive hvad
tegnsæt du kan se.

Eftersom du har samme problem i andre applikationer, må skyldes
JRE'en. Hvordan har du installeret den?

--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

Rasmus Bøg Hansen (19-07-2002)

Kommentar
Fra : Rasmus Bøg Hansen

Dato : 19-07-02 10:45

Thorbjoern Ravn Andersen wrote:

> Steen Suder <sfs_news@suder.dk> writes:
>
>> Her er et dump fra www.greenline.dk:
>> <http://www.suder.dk/Familien/Steen/javadump.jpg>
>>
>> Problemet er det samme med netbanken o.a.
>
> Det er ikke et tegnproblem som sådan. HVad du ser er Unicode kodet
> med UTF-8 metoden, vist som ISO-Latin-1, og det kan skyldes to ting:
>
> 1) At programmørene har sjusket og ukritisk viser alle tegn som bytes.
>
> 2) At den JRE du har fundet bruger forkerte værdier til at angive hvad
> tegnsæt du kan se.
>
> Eftersom du har samme problem i andre applikationer, må skyldes
> JRE'en. Hvordan har du installeret den?

Jeg har præcis samme problem som Steen og jeg har hentet JRE J2SE 1.4.0_01
fra http://java.sun.com/j2se/1.4/download.html (Linux GNUZIP Tar shell
script udgaven).

Herefter udpakket den med tar i /opt /så den altså ligger i
/opt/j2re1.4.0_01).

ln -s /opt/j2re1.4.0_01/bin/java /usr//opt/j2re1.4.0_01/bin/java
ln -s /opt/j2re1.4.0_01/plugin/i386/ns610/libjavaplugin_oji.so
/usr/lib/mozilla/plugins

Det gør ingen forskel, om jeg benytter ns600-plugin'en eller 610-udgaven.

/Rasmus

--
-- [ Rasmus "Møffe" Bøg Hansen ] ---------------------------------------
Computers are like airconditioners:
They stop working properly if you open windows.
----------------------------------[ moffe at amagerkollegiet dot dk ] --

Thorbjoern Ravn Ande~ (19-07-2002)

Kommentar
Fra : Thorbjoern Ravn Ande~

Dato : 19-07-02 10:57

Rasmus Bøg Hansen <moffe47@hotmail.com> writes:

> Jeg har præcis samme problem som Steen og jeg har hentet JRE J2SE 1.4.0_01
> fra http://java.sun.com/j2se/1.4/download.html (Linux GNUZIP Tar shell
> script udgaven).

Jeg har ikke specifikke forslag til hvad der kan gøres, men jeg vil
foreslå at hente Java 1.3 og se om det fungerer bedre?
--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

Rasmus Bøg Hansen (19-07-2002)

Kommentar
Fra : Rasmus Bøg Hansen

Dato : 19-07-02 18:13

Thorbjoern Ravn Andersen wrote:

> Rasmus Bøg Hansen <moffe47@hotmail.com> writes:
>
>> Jeg har præcis samme problem som Steen og jeg har hentet JRE J2SE
>> 1.4.0_01 fra http://java.sun.com/j2se/1.4/download.html (Linux GNUZIP Tar
>> shell script udgaven).
>
> Jeg har ikke specifikke forslag til hvad der kan gøres, men jeg vil
> foreslå at hente Java 1.3 og se om det fungerer bedre?

Næ, 1.3.1_04 giver samme problem. Den viser blot firkanter i stedet for
mystiske tegn.

/Rasmus

--
-- [ Rasmus "Møffe" Bøg Hansen ] ---------------------------------------
The reason we come up with new versions is not to fix bugs.
-- Bill Gates
----------------------------------[ moffe at amagerkollegiet dot dk ] --

Thorbjoern Ravn Ande~ (19-07-2002)

Kommentar
Fra : Thorbjoern Ravn Ande~

Dato : 19-07-02 23:48

Rasmus Bøg Hansen <moffe47@hotmail.com> writes:

> Næ, 1.3.1_04 giver samme problem. Den viser blot firkanter i stedet for
> mystiske tegn.

Lige saa mange?

Hvis du ser een firkant istedet for et tegn, saa er det et fontproblem.

--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

Rasmus Bøg Hansen (20-07-2002)

Kommentar
Fra : Rasmus Bøg Hansen

Dato : 20-07-02 14:26

Thorbjoern Ravn Andersen wrote:

> Rasmus Bøg Hansen <moffe47@hotmail.com> writes:
>
>> Næ, 1.3.1_04 giver samme problem. Den viser blot firkanter i stedet for
>> mystiske tegn.
>
> Lige saa mange?

Lige så mange som hvad? Sære tegn med 1.4.0?

Med 1.3.1 får jeg een firkant for hvert æ, ø eller å. Med 1.4.0 får jeg Ä| i
stedet for æ, for å får jeg samme blot med | udskiftet med et Y med to
streger gennem (jeg ved ikke, hvad det tegn hedder)...

> Hvis du ser een firkant istedet for et tegn, saa er det et fontproblem.

Ja, men hvad gør man ved det. Æ, ø og å fungerer fint alle andre steder i
Mozilla, i stand-alone javaprogrammer og iøvrigt også i andre programmer.

/Rasmus

--
-- [ Rasmus "Møffe" Bøg Hansen ] ---------------------------------------
Memory is like gasoline. You use it up when you are running. Of
course you get it all back when you reboot.
-- Microsoft help desk
----------------------------------[ moffe at amagerkollegiet dot dk ] --

Thorbjoern Ravn Ande~ (20-07-2002)

Kommentar
Fra : Thorbjoern Ravn Ande~

Dato : 20-07-02 23:37

Rasmus Bøg Hansen <moffe47@hotmail.com> writes:

> Med 1.3.1 får jeg een firkant for hvert æ, ø eller å. Med 1.4.0 får jeg Ä| i
> stedet for æ, for å får jeg samme blot med | udskiftet med et Y med to
> streger gennem (jeg ved ikke, hvad det tegn hedder)...

Det lyder som om der kun er et enkelt fontproblem tilbage her. Har du
lagt den korrekte plugin ind? Fjernet gamle installationer helt?

--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

Rasmus Bøg Hansen (20-07-2002)

Kommentar
Fra : Rasmus Bøg Hansen

Dato : 20-07-02 23:55

Thorbjoern Ravn Andersen wrote:

> Rasmus Bøg Hansen <moffe47@hotmail.com> writes:
>
>> Med 1.3.1 får jeg een firkant for hvert æ, ø eller å. Med 1.4.0 får jeg
>> Ä| i stedet for æ, for å får jeg samme blot med | udskiftet med et Y med
>> to streger gennem (jeg ved ikke, hvad det tegn hedder)...
>
> Det lyder som om der kun er et enkelt fontproblem tilbage her. Har du
> lagt den korrekte plugin ind? Fjernet gamle installationer helt?

Jeg har *kun* een udgave af mozilla liggende (1.0) og een udgave af JRE
(Sun's JRE 1.4.0_01). /usr/lib/mozilla/plugins/libjavaplugin_oji.so er et
link til ns610-filen, men det gør dog ingen forskel overhovedet, om man
bruger ns600 eller ns610.

/Rasmus

--
-- [ Rasmus "Møffe" Bøg Hansen ] ---------------------------------------
Expect the unexpected.
- HitchHikers Guide to the Galaxy, Douglas Adams
----------------------------------[ moffe at amagerkollegiet dot dk ] --

Thorbjoern Ravn Ande~ (20-07-2002)

Kommentar
Fra : Thorbjoern Ravn Ande~

Dato : 20-07-02 23:57

Rasmus Bøg Hansen <moffe47@hotmail.com> writes:

> Jeg har *kun* een udgave af mozilla liggende (1.0) og een udgave af JRE
> (Sun's JRE 1.4.0_01). /usr/lib/mozilla/plugins/libjavaplugin_oji.so er et
> link til ns610-filen, men det gør dog ingen forskel overhovedet, om man
> bruger ns600 eller ns610.

Jeg er løbet tør for ideer. Har du kigget forbi Java Developer
COnnection for at se om andre har samme problem?
--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

Thorbjoern Ravn Ande~ (21-07-2002)

Kommentar
Fra : Thorbjoern Ravn Ande~

Dato : 21-07-02 00:16

Rasmus Bøg Hansen <moffe47@hotmail.com> writes:

> Jeg har *kun* een udgave af mozilla liggende (1.0) og een udgave af JRE
> (Sun's JRE 1.4.0_01). /usr/lib/mozilla/plugins/libjavaplugin_oji.so er et
> link til ns610-filen, men det gør dog ingen forskel overhovedet, om man
> bruger ns600 eller ns610.

Beklager. Jeg har ikke flere forslag.

--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

Jacob Saaby Nielsen (20-07-2002)

Kommentar
Fra : Jacob Saaby Nielsen

Dato : 20-07-02 18:16

In article <3D3701CC.9040108@suder.dk>, sfs_news@suder.dk says...

> Her er et dump fra www.greenline.dk:
> <http://www.suder.dk/Familien/Steen/javadump.jpg>

http://www.unicode.org/help/display_problems.html#Java

Derudover, så kunne jeg godt forestille mig, efter at have set på dit
screendump igen, at måden du har lavet det på måske indikerer (pga. alle
de ekstra tegn der er involveret) at dine tegn fortolkes som ASCII, hvor
Java bruger Unicode. En ascii-karakter er en byte, Unicode-karakterer
to. Prøv at referere direkte til de danske tegns hex-værdier, det tror
jeg faktisk ville virke. Umiddelbart synes jeg det ser ud som om (udfra
dit screenshot) at de danske karakterer hele tiden bliver erstattet med
to tegn. Hvilket godt kunne indikere ASCII/Unicode problematikken jeg
skriver ovenfor.

Uden at jeg dog ved det, det er bare mit umiddelbare gæt, da jeg ikke
ved nok om det endnu.

Du kan se tabeller på:

www.asciitable.com
www.unicode.org

--
Jacob Saaby Nielsen

Lars Kongshøj (20-07-2002)

Kommentar
Fra : Lars Kongshøj

Dato : 20-07-02 18:38

Jacob Saaby Nielsen wrote:
> Derudover, så kunne jeg godt forestille mig, efter at have set på dit
> screendump igen, at måden du har lavet det på måske indikerer (pga. alle
> de ekstra tegn der er involveret) at dine tegn fortolkes som ASCII, hvor
> Java bruger Unicode.

Det er ikke ascii (ascii indeholder fx ikke Ä og yen-tegn). Det ligner
ISO-latin-1.

> En ascii-karakter er en byte,

Transmission af et ascii-tegn kræver kun 7 bits. Den 8. anvendtes fx som
paritetsbit.

> Unicode-karakterer to.

Læs tråden "[win32/Apache server] charset". Det kommer an på kodningen.
Typisk anvendes UTF-8, hvor tegn fra den oprindelige ascii-tegntabel
kodes ved hjælp af én byte (= den oprindelige ascii-kode), mens andre
tegn kodes med flere.

--
Lars Kongshøj
Registrer dig som linux-bruger:
http://counter.li.org/enter-person.php

Jacob Saaby Nielsen (20-07-2002)

Kommentar
Fra : Jacob Saaby Nielsen

Dato : 20-07-02 19:06

In article <3D39A00D.5895765B@hotmail.com>, lars_kongshoj@hotmail.com
says...

> Det er ikke ascii (ascii indeholder fx ikke Ä og yen-tegn). Det ligner
> ISO-latin-1.

Det gør til gengæld de extendede ASCII koder (128 og op).

Ä er ASCII 142 og Yen er ASCII 157.

> Transmission af et ascii-tegn kræver kun 7 bits. Den 8. anvendtes fx som
> paritetsbit.

Ergo, en byte Blink

> Læs tråden "[win32/Apache server] charset". Det kommer an på kodningen.
> Typisk anvendes UTF-8, hvor tegn fra den oprindelige ascii-tegntabel
> kodes ved hjælp af én byte (= den oprindelige ascii-kode), mens andre
> tegn kodes med flere.

Ok, så meget ved jeg ikke om det... Forholder mig bare til hvad jeg har
lært af den kære Ivor indtil nu Blink

--
Jacob Saaby Nielsen

Byrial Jensen (20-07-2002)

Kommentar
Fra : Byrial Jensen

Dato : 20-07-02 23:01

Lars Kongshøj <lars_kongshoj@hotmail.com> skrev:
> Jacob Saaby Nielsen wrote:
>
>> Unicode-karakterer to [byte].

Faktisk 31 bit.

> Læs tråden "[win32/Apache server] charset". Det kommer an på kodningen.
> Typisk anvendes UTF-8, hvor tegn fra den oprindelige ascii-tegntabel
> kodes ved hjælp af én byte (= den oprindelige ascii-kode), mens andre
> tegn kodes med flere.

UTF-8 fylder fra 1 til og med 6 bytes a 8 bit per tegn.

Jesper Harder (20-07-2002)

Kommentar
Fra : Jesper Harder

Dato : 20-07-02 19:38

Jacob Saaby Nielsen <jay@dontspamme.kode-fu.net> writes:

> Java and Unicode (uddrag fra Beginning Java 2 SDK 1.4, Ivor Horton/Wrox)
>
> There are a variety of 8- bit character sets defined for many national
> languages, but if you want to combine the Latin character set and
> Cyrillic in the same context, for example, things can get
> difficult. If you want to handle Japanese as well, it becomes
> impossible with an 8-bit character set because with 8 bits you only
> have 256 different codes so there just aren't enough characters
> necessary for almost all languages to be encoded.
> [..] there is enough to allocate each major national character set its
> own set of codes, including character sets such as Kanji which is used
> for Japanese, and which requires thousand of character coes.

Det han skriver er forkert.

Han er åbenbart ikke klar over at nogle af de tegnsæt, som hyppigst
bruges til japansk, er 7- eller 8bit og baseret på ISO-2022. Det er
også forkert at Unicode er den eneste måde at kombinere fx græsk og
japansk. Det kan man gøre i ISO-2022 vha. indlejrede escape-sekvenser.

Jeg synes bedre om Unicode end ISO-2022, men hans fremstilling af
hvorfor det er nødvendigt er ikke korrekt.

Søg

Reklame

Statistik

Spørgsmål :	177673
Tips :	31970
Nyheder :	719565
Indlæg :	6409794
Brugere :	218896

Månedens bedste

Årets bedste

Sidste års bedste