Hejsa,
Jeg er ved at undersøge lidt i karakter-encoding, deriblandt kinesisk
GB2312 og ASCII, ISO-8859 osv.
GB2312 bruger vist EUC, Extended Unix Coding, som er et scheme til at
kode karakterer udover mere end 1 byte.
Fra :
http://ou800doc.caldera.com/SDK_sysprog/I_CharRep.html
The code sets are configured in a scheme called ``extended UNIX code,''
or EUC. The primary code set (code set 0) is always 7-bit US ASCII. Each
byte of any character in a supplementary code set (code sets 1,2, or 3)
has the high-order bit set; code sets 2 and 3 are distinguished from
code set 1 and each other by their use of a special ``shift byte''
before each character.
EUC code set representations
Code set EUC representation
0 0xxxxxxx
1 1xxxxxxx [ 1xxxxxxx [...]]
2 SS2 1xxxxxxx [ 1xxxxxxx [...]]
3 SS3 1xxxxxxx [ 1xxxxxxx [...]]
Mit spørgsmål : Når vi læser den første byte i et tegn som tilhører Code
Set 0, så ved vi at det kun fylder 1 byte.
Men hvad med de andre : Hvor er antal bytes givet ? Jeg ved at kinesisk
GB2312 er 2 bytes, men kodes ethvert tegnsæt til konstant byteantal i
EUC ?
MVH
Søren
--
Fjern de 4 bogstaver i min mailadresse som er indsat for at hindre s...
Remove the 4 letter word meaning "junk mail" in my mail address.