/ Forside / Teknologi / Operativsystemer / Linux / Nyhedsindlæg
Login
Glemt dit kodeord?
Brugernavn

Kodeord


Reklame
Top 10 brugere
Linux
#NavnPoint
o.v.n. 11177
peque 7911
dk 4814
e.c 2359
Uranus 1334
emesen 1334
stone47 1307
linuxrules 1214
Octon 1100
10  BjarneD 875
EUC kodning
Fra : Soren Kuula


Dato : 19-01-04 18:13

Hejsa,

Jeg er ved at undersøge lidt i karakter-encoding, deriblandt kinesisk
GB2312 og ASCII, ISO-8859 osv.

GB2312 bruger vist EUC, Extended Unix Coding, som er et scheme til at
kode karakterer udover mere end 1 byte.

Fra :
http://ou800doc.caldera.com/SDK_sysprog/I_CharRep.html

The code sets are configured in a scheme called ``extended UNIX code,''
or EUC. The primary code set (code set 0) is always 7-bit US ASCII. Each
byte of any character in a supplementary code set (code sets 1,2, or 3)
has the high-order bit set; code sets 2 and 3 are distinguished from
code set 1 and each other by their use of a special ``shift byte''
before each character.

EUC code set representations

Code set    EUC representation
0    0xxxxxxx
1    1xxxxxxx [ 1xxxxxxx [...]]
2    SS2 1xxxxxxx [ 1xxxxxxx [...]]
3    SS3 1xxxxxxx [ 1xxxxxxx [...]]

Mit spørgsmål : Når vi læser den første byte i et tegn som tilhører Code
Set 0, så ved vi at det kun fylder 1 byte.
Men hvad med de andre : Hvor er antal bytes givet ? Jeg ved at kinesisk
GB2312 er 2 bytes, men kodes ethvert tegnsæt til konstant byteantal i
EUC ?

MVH
Søren
--
Fjern de 4 bogstaver i min mailadresse som er indsat for at hindre s...
Remove the 4 letter word meaning "junk mail" in my mail address.


 
 
Jesper Harder (20-01-2004)
Kommentar
Fra : Jesper Harder


Dato : 20-01-04 01:27

Soren Kuula <dongfangspam@bitplanet.net> writes:

> Mit spørgsmål : Når vi læser den første byte i et tegn som tilhører
> Code Set 0, så ved vi at det kun fylder 1 byte. Men hvad med de
> andre : Hvor er antal bytes givet ? Jeg ved at kinesisk GB2312 er 2
> bytes, men kodes ethvert tegnsæt til konstant byteantal i EUC ?

Svaret findes utvivlsomt i ISO 2022-standarden (alias ECMA-35). Jeg
tror afsnit 14.3.3:

14.3.3 Size indication for multiple-byte sets

For the functions that designate 94^n-character and 96^n-character
graphic character sets (i.e. the functions GnDMm), the range of the
Final Byte F in the escape sequence that represents the function
shall indicate the number of bytes in the coded representation of
the characters in the set identified by F, as follows:

Range of F Number of Bytes
columns 00 to 02 (shall not be used)
column 03 2 or more (Note: the set is for private use)
columns 04 and 05 2
column 06 3
column 07 4 or more

Du må hellere selv læse ISO 2022. God fornøjelse! Det er en af de
mere uigennemtrængelige, komplicerede og byzantiske specifikationer
jeg har set.

Søg
Reklame
Statistik
Spørgsmål : 177551
Tips : 31968
Nyheder : 719565
Indlæg : 6408836
Brugere : 218887

Månedens bedste
Årets bedste
Sidste års bedste