Kandu.dk - Weird Word & Unicode.:-(


/ Forside / Teknologi / Hardware / Mac / Nyhedsindlæg

Glemt dit kodeord?

Brugernavn*

Kodeord *

Husk mig

Brugerservice

Kom godt i gang

Bliv medlem

Seneste indlæg

Find en bruger

Stil et spørgsmål

Skriv et tip

Fortæl en ven

Pointsystemet

Kontakt Kandu.dk

Emnevisning

Kategorier

Alfabetisk

Karriere

Interesser

Teknologi

Reklame

Top 10 brugere

Mac

#	Navn	Point
1	UlrikB	4810
2	kipros	1675
3	Klaudi	1010
4	myg	920
5	pifo	907
6	Stouenberg	838
7	molokyle	830
8	Bille1948	815
9	rotw	760
10	EXTERMINA..	750

Weird Word & Unicode.:-(
Fra : Erik Richard Sørense~

Dato : 15-12-06 03:35

Pga. omstændighederne er jeg tvunget til at bruge M$ Word 2004 sat op
til at arbejde i Unicode. Til min skræk og rædsel ser jeg, at man kun
kan vælge Unicode UTF-16 og ikke UTF-7 og/eller UTF-8. - Det vil
uvilkårlig give problemer, da jeg skal bruge den til nogle test og
tekstsammenligninger med NisusWriter Express og multi-language
dokumenter - engelsk, arabisk, persisk, hebraisk + japansk i samme dokument.

Er der nogen mulighed for at tvangssætte den til UTF-7 eller UTF-8?

mvh. Erik Richard
--
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
KMLDenmark by Erik Richard Sørensen, Member of ADC
<kmldenmark_NOSP@M_stofanet.dk>
*Music Recording, Editing & Publishing - Also Smaller Quantities
*Software - For Theological Education - And For Physically Impaired
*Nisus - The Future in Text & Mail Processing <http://www.nisus.com>
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Thorbjørn Ravn Ander~ (15-12-2006)

Kommentar
Fra : Thorbjørn Ravn Ander~

Dato : 15-12-06 14:23

Erik Richard Sørensen <NOSPAM@NOSPAM.dk> writes:

> til at arbejde i Unicode. Til min skræk og rædsel ser jeg, at man kun
> kan vælge Unicode UTF-16 og ikke UTF-7 og/eller UTF-8. - Det vil

Unicode er 16-bit.

UTF-16, UTF-7 og UTF-8 er forskellige komprimeringsalgoritmer til at
folde 16-bitværdierne ned i 8-bits bytes, sædvanligvis for at spare
plads eller være kompatibelt med et eller andet (eks US-ASCII).

--
Thorbjørn Ravn Andersen "... plus ... Tubular Bells!"

Erik Richard Sørense~ (15-12-2006)

Kommentar
Fra : Erik Richard Sørense~

Dato : 15-12-06 19:15

Hej Thorbjørn

Thorbjørn Ravn Andersen wrote:
> Erik Richard Sørensen <NOSPAM@NOSPAM.dk> writes:
>> til at arbejde i Unicode. Til min skræk og rædsel ser jeg, at man kun
>> kan vælge Unicode UTF-16 og ikke UTF-7 og/eller UTF-8. - Det vil
>
> Unicode er 16-bit.

Det véd jeg godt...

> UTF-16, UTF-7 og UTF-8 er forskellige komprimeringsalgoritmer til at
> folde 16-bitværdierne ned i 8-bits bytes, sædvanligvis for at spare
> plads eller være kompatibelt med et eller andet (eks US-ASCII).

Problemet er jo bare, at ikke alle skrifttyper vil lade sig genkende,
hvis man bruger UTF-16. - Nogle af de mest brugte skrifter i fx. japansk
er de såkaldte 'Hiragana' og 'Katagana', - begge er rene UTF-8
skrifter... - Det går så lidt lettere med de semittiske skrifter...

mvh. Erik Richard

--
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
KMLDenmark by Erik Richard Sørensen, Member of ADC
<kmldenmark_NOSP@M_stofanet.dk>
*Music Recording, Editing & Publishing - Also Smaller Quantities
*Software - For Theological Education - And For Physically Impaired
*Nisus - The Future in Text & Mail Processing <http://www.nisus.com>
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Thorbjørn Ravn Ander~ (15-12-2006)

Kommentar
Fra : Thorbjørn Ravn Ander~

Dato : 15-12-06 21:10

Erik Richard Sørensen <NOSPAM@NOSPAM.dk> writes:

> Problemet er jo bare, at ikke alle skrifttyper vil lade sig
> genkende, hvis man bruger UTF-16. - Nogle af de mest brugte skrifter
> i fx. japansk er de såkaldte 'Hiragana' og 'Katagana', - begge er
> rene UTF-8 skrifter... - Det går så lidt lettere med de semittiske
> skrifter...

Ovenstående fatter jeg ganske enkelt ikke en bjælde af.

Kan du prøve at forklare det lidt tydeligere?
--
Thorbjørn Ravn Andersen "... plus ... Tubular Bells!"

Erik Richard SÃ¸rens~ (15-12-2006)

Kommentar
Fra : Erik Richard SÃ¸rens~

Dato : 15-12-06 22:16

Hej ThorbjÃ¸rn

ThorbjÃ¸rn Ravn Andersen wrote:
> Erik Richard SÃ¸rensen <NOSPAM@NOSPAM.dk> writes:
>> Problemet er jo bare, at ikke alle skrifttyper vil lade sig
>> genkende, hvis man bruger UTF-16. - Nogle af de mest brugte skrifter
>> i fx. japansk er de sÃ¥kaldte 'Hiragana' og 'Katagana', - begge er
>> rene UTF-8 skrifter... - Det gÃ¥r sÃ¥ lidt lettere med de semittiske
>> skrifter...
>
> OvenstÃ¥ende fatter jeg ganske enkelt ikke en bjÃ¦lde af.

Det gÃ¸r jeg heller ikke. Glad

- Men jeg kan godt se, nÃ¥r to tegn er ens,
og/eller om de hÃ¸rer sammen...

> Kan du prÃ¸ve at forklare det lidt tydeligere?

BÃ¥de Hiragana og Katagana er UFT-7/8 skrifttyper, der findes identiske
til Windows/Mac og kan bruges sammen med MSOffice 2003 for Windows'
'Asian Language Input' modul. Hvis man sÃ¥ Ã¥bner et sÃ¥dant dokument, der
er gemt som RTF i fx. NisusWriter Express, vil den vise skrifterne
korrekt. - NWE er UTF-8 savvy. NWE bruger UTF-8 som standard - men har
ikke UFT-16 compatibility i font substitution.

Hvis du bruger MSOffice 2004 til Mac og laver samme dokument, kan du
godt bruge bÃ¥de Hiragana og Katagana skrifterne, og de vil ogsÃ¥ vises
korrekt i MSO til Windows og Mac, hvis skrifterne er installeret pÃ¥
begge platforme. - MEN - hvis du gemmer som RTF og Ã¥bner i NWE, vil NWEs
'font substitution' nogle gange vÃ¦lge 'NISC18030' eller 'å„·å®‹ Pro'
(hÃ¸rer til Nihon-gruppen) eller sÃ¥gar den kinesiske 'FongSong' eller
'Song' skrift, der begge er bÃ¥de UTF-8 og UTF-16 savvy.

Hvis man derimod bruger MS ArialUnicode.ttf (100% glyph-baseret UFT-8/16
skrift) til komposition af et multi-lingual dokument pÃ¥ Windows og
gemmer i RTF, og man ikke har ArialUnicode pÃ¥ sin Mac, gÃ¥r det helt
galt. - Det kan hverken NWE eller MSWD2004 finde ud af... NÃ¥r man Ã¥bner
et sÃ¥dant dokument, vil der blot vÃ¦re tegn og underlige gerninger...

Jeg vÃ©d godt, man kunne implementere UTF-16 kompatibilitet i fx. NWE,
men alene den del vil fylde omk. 8-10mb, - dels i form af direkte
programimplementering, dels i konvertere, og da NWE _ikke_ betjener sig
af eksterne konvertere, skal det hele implementeres i selve programmet.
- Da NWE i forvejen fylder ca. 25mb, vil det betyde, at selve programmet
vil komme op og fylde ca. 34-35mb i sig selv, - og det med en vÃ¦sentlig
hastighedsnedsÃ¦ttelse til fÃ¸lge....

mvh. Erik Richard

--
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
KMLDenmark by Erik Richard SÃ¸rensen, Member of ADC
<kmldenmark_NOSP@M_stofanet.dk>
*Music Recording, Editing & Publishing - Also Smaller Quantities
*Software - For Theological Education - And For Physically Impaired
*Nisus - The Future in Text & Mail Processing <http://www.nisus.com>
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Erik Richard SÃ¸rens~ (15-12-2006)

Kommentar
Fra : Erik Richard SÃ¸rens~

Dato : 15-12-06 22:21

- Men jeg kan godt se, nÃ¥r to tegn er ens,
og/eller om de hÃ¸rer sammen...

> Kan du prÃ¸ve at forklare det lidt tydeligere?

BÃ¥de Hiragana og Katagana er UFT-7/8 skrifttyper, der findes identiske
til Windows/Mac og kan bruges sammen med MSOffice 2003 for Windows'
'Asian Language Input' modul. Hvis man sÃ¥ Ã¥bner et sÃ¥dant dokument, der
er gemt som RTF i fx. NisusWriter Express, vil den vise skrifterne
korrekt. - NWE er UTF-8 savvy. NWE bruger UTF-8 som standard - men har
ikke UFT-16 compatibility i font substitution.

Hvis du bruger MSOffice 2004 til Mac og laver samme dokument, kan du
godt bruge bÃ¥de Hiragana og Katagana skrifterne, og de vil ogsÃ¥vises
korrekt i MSO til Windows og Mac, hvis skrifterne er installeret pÃ¥
begge platforme. - MEN - hvis du gemmer som RTF og Ã¥bner i NWE, vil NWEs
'font substitution' nogle gange vÃ¦lge 'NISC18030' eller 'å„·å®‹ Pro'
(hÃ¸rer til Nihon-gruppen) eller sÃ¥gar den kinesiske 'FongSong' eller
'Song' skrift, der begge er bÃ¥de UTF-8 og UTF-16 savvy.

Hvis man derimod bruger MS ArialUnicode.ttf (100% glyph-baseret UFT-8/16
skrift) til komposition af et multi-lingual dokument pÃ¥ Windows og
gemmer i RTF, og man ikke har ArialUnicode pÃ¥ sin Mac, gÃ¥r det helt
galt. - Det kan hverken NWE eller MSWD2004 finde ud af... NÃ¥r man Ã¥bner
et sÃ¥dant dokument, vil der blot vÃ¦re tegn og underlige gerninger...

Jeg vÃ©d godt, man kunne implementere UTF-16 kompatibilitet i fx. NWE,
men alene den del vil fylde omk. 8-10mb, - dels i form af direkte
programimplementering, dels i konvertere, og da NWE _ikke_ betjener sig
af eksterne konvertere, skal det hele implementeres i selve programmet.
- Da NWE i forvejen fylder ca. 25mb, vil det betyde, at selve programmet
vil komme op og fylde ca. 34-35mb i sig selv, - og det med en vÃ¦sentlig
hastighedsnedsÃ¦ttelse til fÃ¸lge....

mvh. Erik Richard

--
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
KMLDenmark by Erik Richard SÃ¸rensen, Member of ADC
<kmldenmark_NOSP@M_stofanet.dk>
*Music Recording, Editing & Publishing - Also Smaller Quantities
*Software - For Theological Education - And For Physically Impaired
*Nisus - The Future in Text & Mail Processing <http://www.nisus.com>
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Thorbjørn Ravn Ander~ (16-12-2006)

Kommentar
Fra : Thorbjørn Ravn Ander~

Dato : 16-12-06 01:11

Erik Richard Sørensen <NOSPAM@NOSPAM.dk> writes:

> begge platforme. - MEN - hvis du gemmer som RTF og åbner i NWE, vil
> NWEs 'font substitution' nogle gange vælge 'NISC18030' eller

SOm jeg forstår det, indeholder RTF ikke selve fontene, hvorfor
fontsubstituering skal ske.

At jeg ikke forstår det konkrete problem du har, må skyldes
forskellighed i koden i de to programmers fontsubstitution, og jeg
tror ikke det skyldes det du tror.

> Jeg véd godt, man kunne implementere UTF-16 kompatibilitet i fx. NWE,
> men alene den del vil fylde omk. 8-10mb, - dels i form af direkte
> programimplementering, dels i konvertere, og da NWE _ikke_ betjener

Det begriber jeg heller ikke. Bruger man Unicode bruger man 16-bit
tegn, punktum finale.

UTF-8, UTF-7 og UTF-16 er bare forskellige algoritmer til at dekode
disse 16-bit tegn, og hver algoritme kan uden problemer stå på et
A4-ark.

Jeg tror vitterligt at det du ser, ikke skyldes det du tror.

--
Thorbjørn Ravn Andersen "... plus ... Tubular Bells!"

Erik Richard Sørense~ (16-12-2006)

Kommentar
Fra : Erik Richard Sørense~

Dato : 16-12-06 02:56

Hej Thorbjørn

Thorbjørn Ravn Andersen wrote:
> Erik Richard Sørensen <NOSPAM@NOSPAM.dk> writes:
>> begge platforme. - MEN - hvis du gemmer som RTF og åbner i NWE, vil
>> NWEs 'font substitution' nogle gange vælge 'NISC18030' eller
>
> SOm jeg forstår det, indeholder RTF ikke selve fontene, hvorfor
> fontsubstituering skal ske.

Korrekt. - 'Font Embedding' er fjernet fra MSOffice X/2004. - Det var
ellers en af de få rimeligt brugbare funktioner, når man valgte RTF som
arkivformat. NWE har aldrig haft FE implementeret...

> At jeg ikke forstår det konkrete problem du har, må skyldes
> forskellighed i koden i de to programmers fontsubstitution, og jeg
> tror ikke det skyldes det du tror.

Vi har arbejdet på problemet de sidste godt 2 år nu, og det er da også
blevet en smule bedre, da M$ frigav RTF koden til Office X (ikke til
MSO2004), men der er stadig meget store problemer med visse af M$'s
Unicode skrifter og deres nye UTF-16 standard.

Vi kan faktisk bevise, at problemet ligger i UTF-16 og ikke i fx. RTF,
hvad man burde tro.... - Og hvorfor er der så ingen problemer, når der
bruges UTF-7/8? - Og hvorfor er MSO/Word det eneste program, der er
unicode savvy, hvor man ikke selv kan vælge mellem UTF-7/8 og UTF-16?

I Nisus Software har vi valgt at koncentrere os om UTF-8 som
'recommended arkivformat, da det jo er det mest udbredte format - alle
programmer set under ét. Desuden er der en unicode format mere, der er
bedst ved brug af kinesisk, men det format kan ikke anbefales i
multi-lingual tekster...

>> Jeg véd godt, man kunne implementere UTF-16 kompatibilitet i fx. NWE,
>> men alene den del vil fylde omk. 8-10mb, - dels i form af direkte
>> programimplementering, dels i konvertere, og da NWE _ikke_ betjener
>
> Det begriber jeg heller ikke. Bruger man Unicode bruger man 16-bit
> tegn, punktum finale.
>
> UTF-8, UTF-7 og UTF-16 er bare forskellige algoritmer til at dekode
> disse 16-bit tegn, og hver algoritme kan uden problemer stå på et
> A4-ark.
>
> Jeg tror vitterligt at det du ser, ikke skyldes det du tror.

- Så forklar mig lige, hvorfor, der ikke opstår samme fejl, hvis
dokumenter er lavet med UTF-8 i fx. MarinerWrite, NeoOffice, Abiword
eller Mellel til Mac og Abiword, OpenOffice, WordPerfect og StarWrite
til Windows??? - og hvor der er gemt i RTF og åbnet i NisusWriter
Express.... - Problemet er der heller ikke, hvis man gemmer og åbner
indbyrdes mellem disse programmer - kun når M$Word er blandet ind i det,
går det galt...

- Jeg véd, jeg er rimelig skrap, når det gælder skrifter og
skriftstyring, men her står jeg af. Sur

!

Undskyld mig, - men det er som om M$ hver gang, man er ved at få has på
Unocode+RTF, vælger nyt format. - Først var det skiftet fra UTF-7 til
UTF-8, - og nu har de så skiftet til UTF-16, - og alle problemer vendet
tilbage. ! Sur

!

mvh. Erik Richard

--
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
KMLDenmark by Erik Richard Sørensen, Member of ADC
<kmldenmark_NOSP@M_stofanet.dk>
*Music Recording, Editing & Publishing - Also Smaller Quantities
*Software - For Theological Education - And For Physically Impaired
*Nisus - The Future in Text & Mail Processing <http://www.nisus.com>
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Thorbjørn Ravn Ander~ (16-12-2006)

Kommentar
Fra : Thorbjørn Ravn Ander~

Dato : 16-12-06 13:58

Erik Richard Sørensen <NOSPAM@NOSPAM.dk> writes:

> Vi kan faktisk bevise, at problemet ligger i UTF-16 og ikke i fx. RTF,

Erik, nu har du forvirret mig igen. UTF-16 er en indkodningsform, og
RTF er et dokumentformat.

> - Så forklar mig lige, hvorfor, der ikke opstår samme fejl, hvis
> dokumenter er lavet med UTF-8 i fx. MarinerWrite, NeoOffice, Abiword
> eller Mellel til Mac og Abiword, OpenOffice, WordPerfect og StarWrite
> til Windows??? - og hvor der er gemt i RTF og åbnet i NisusWriter

Det kan jeg da ikke. Fordi Microsoft gør ting anderledes?

Jeg tror nu stadigvæk du blander begreber sammen.
--
Thorbjørn Ravn Andersen "... plus ... Tubular Bells!"

Erik Richard Sørense~ (16-12-2006)

Kommentar
Fra : Erik Richard Sørense~

Dato : 16-12-06 18:04

Hej Thorbjørn

Thorbjørn Ravn Andersen wrote:
> Erik Richard Sørensen <NOSPAM@NOSPAM.dk> writes:
>> Vi kan faktisk bevise, at problemet ligger i UTF-16 og ikke i fx. RTF,
>
> Erik, nu har du forvirret mig igen. UTF-16 er en indkodningsform, og
> RTF er et dokumentformat.

Sur

- Så véd jeg snart ikke, hvordan jeg skal skrive det...

Men jeg prøver igen... Bruger du MSWord Mac/Win med UTF-16, gemmer i RTF
og åbner med andre programmer, der _IKKE_ understøtter UTF-16, går det galt.

Bruger du en ældre Word Mac/Win, der kun har UTF-7/8, gemmer i RTF og
åbner - igen - med de programmer, jeg har nævnt, er der _INGEN_ problemer!

>> - Så forklar mig lige, hvorfor, der ikke opstår samme fejl, hvis
>> dokumenter er lavet med UTF-8 i fx. MarinerWrite, NeoOffice, Abiword
>> eller Mellel til Mac og Abiword, OpenOffice, WordPerfect og StarWrite
>> til Windows??? - og hvor der er gemt i RTF og åbnet i NisusWriter
>
> Det kan jeg da ikke. Fordi Microsoft gør ting anderledes?
>
> Jeg tror nu stadigvæk du blander begreber sammen.

Nej, jeg blander ikke noget sammen! - Problemet må nødvendigvis være med
UTF-16+RTF, når der ikke er samme problem med UTF-7/8+RTF. - Men hvor?

mvh. Erik Richard

--
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
KMLDenmark by Erik Richard Sørensen, Member of ADC
<kmldenmark_NOSP@M_stofanet.dk>
*Music Recording, Editing & Publishing - Also Smaller Quantities
*Software - For Theological Education - And For Physically Impaired
*Nisus - The Future in Text & Mail Processing <http://www.nisus.com>
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Thorbjørn Ravn Ander~ (16-12-2006)

Kommentar
Fra : Thorbjørn Ravn Ander~

Dato : 16-12-06 18:26

Erik Richard Sørensen <NOSPAM@NOSPAM.dk> writes:

> Nej, jeg blander ikke noget sammen! - Problemet må nødvendigvis være
> med UTF-16+RTF, når der ikke er samme problem med UTF-7/8+RTF. - Men
> hvor?

Kunne være Microsoft havde skrevet RTF-koden om...

Det er set før.

--
Thorbjørn Ravn Andersen "... plus ... Tubular Bells!"

Erik Richard Sørense~ (16-12-2006)

Kommentar
Fra : Erik Richard Sørense~

Dato : 16-12-06 22:24

Thorbjørn Ravn Andersen wrote:
> Erik Richard Sørensen <NOSPAM@NOSPAM.dk> writes:
>
>> Nej, jeg blander ikke noget sammen! - Problemet må nødvendigvis være
>> med UTF-16+RTF, når der ikke er samme problem med UTF-7/8+RTF. - Men
>> hvor?
>
> Kunne være Microsoft havde skrevet RTF-koden om...

Tja, det er måske 'løsningen'...

> Det er set før.

Hm, det blev den jo også fra Word 6/95/97 og til 98/2000, men det var
andre problemer, der kom dengang - tab af formatteret tekst i RTF ved
åbning i andre programmer...

mvh. ERik Richard

--
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
KMLDenmark by Erik Richard Sørensen, Member of ADC
<kmldenmark_NOSP@M_stofanet.dk>
*Music Recording, Editing & Publishing - Also Smaller Quantities
*Software - For Theological Education - And For Physically Impaired
*Nisus - The Future in Text & Mail Processing <http://www.nisus.com>
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Jesper Juellund Jens~ (17-12-2006)

Kommentar
Fra : Jesper Juellund Jens~

Dato : 17-12-06 22:41

Thorbjørn Ravn Andersen skrev:

> Unicode er 16-bit.

Unicode er vel blot en standard for numre for forskellige tegn. Og ikke
alle kan repræsenteres med 16 bit, selv om mest brugte kan:

"The majority of common-use characters fit into the first 64K code
points"
http://www.unicode.org/standard/principles.html

Og om UTF-16 på samme side:
"UTF-16 is popular in many environments that need to balance efficient
access to characters with economical use of storage. It is reasonably
compact and all the heavily used characters fit into a single 16-bit
code unit, while all other characters are accessible via pairs of 16-bit
code units."

> UTF-16, UTF-7 og UTF-8 er forskellige komprimeringsalgoritmer

Nemlig. Præcis som UTF-32. Og (igen fra samme side) om UTF-8, UTF-16 og
UTF-32:
"All three encoding forms need at most 4 bytes (or 32-bits) of data for
each character."

Hvis man skulle sige, at Unicode "er" noget, så må det altså være 32
bit...

--
Jesper Juellund Jensen

Thorbjørn Ravn Ander~ (18-12-2006)

Kommentar
Fra : Thorbjørn Ravn Ander~

Dato : 18-12-06 02:08

jjj@cyrk.dk (Jesper Juellund Jensen) writes:

> > Unicode er 16-bit.
>
> Unicode er vel blot en standard for numre for forskellige tegn. Og ikke
> alle kan repræsenteres med 16 bit, selv om mest brugte kan:

De unicode standarder jeg har kigget på har kun været 16-bit. Jeg har
vist godt hørt at det er blevet udvidet, men det har jeg ikke sat mig
ind i.

Desuden har det mest været javaimplementationer hvor tegn er 16-bit.

> Hvis man skulle sige, at Unicode "er" noget, så må det altså være 32
> bit...

32 bits tegn, for at være helt præcis.

--
Thorbjørn Ravn Andersen "... plus ... Tubular Bells!"

Mads (18-12-2006)

Kommentar
Fra : Mads

Dato : 18-12-06 19:25

Thorbjørn Ravn Andersen wrote:
> jjj@cyrk.dk (Jesper Juellund Jensen) writes:
>
>>> Unicode er 16-bit.
>> Unicode er vel blot en standard for numre for forskellige tegn. Og ikke
>> alle kan repræsenteres med 16 bit, selv om mest brugte kan:
>
> De unicode standarder jeg har kigget på har kun været 16-bit. Jeg har
> vist godt hørt at det er blevet udvidet, men det har jeg ikke sat mig
> ind i.
>
> Desuden har det mest været javaimplementationer hvor tegn er 16-bit.
>
Nej. Sun Java API'et String klasse bruger intern UTF-16. Som Jesper så
fint forklarede er der forskel på om man taler om indkodningen af
unicode tegn, eller tegnenes kode punkter i unicode standarden.
Unicode inddeler tegn i 17 planes. Hvor hvert plane kan indehold op til
2^16 tegn. Altså 1114112 tegn.
Men det er fuldstændig forkert at tale om at unicode 'er' noget i bit's.
Man kan tale om hvormange bits en given indkodning bruger. Men unicode i
sig selv siger intet om hvordan tegnene skal repræsenteres på en binær
maskine.

Venlig hilsen
Mads

Thorbjørn Ravn Ander~ (18-12-2006)

Kommentar
Fra : Thorbjørn Ravn Ander~

Dato : 18-12-06 22:01

Mads <mads@iname.com> writes:

> > Desuden har det mest været javaimplementationer hvor tegn er 16-bit.
> >
> Nej. Sun Java API'et String klasse bruger intern UTF-16. Som Jesper så

En char i Java er 16 bit.

--
Thorbjørn Ravn Andersen "... plus ... Tubular Bells!"

Mads (18-12-2006)

Kommentar
Fra : Mads

Dato : 18-12-06 23:13

Thorbjørn Ravn Andersen wrote:
> Mads <mads@iname.com> writes:
>
>>> Desuden har det mest været javaimplementationer hvor tegn er 16-bit.
>>>
>> Nej. Sun Java API'et String klasse bruger intern UTF-16. Som Jesper så
>
> En char i Java er 16 bit.
>
Ja, og? Hvis man læser Java 1.5 doc'en så fremgår det at Java benytter
sig af 2 chars til alt andet end unicode plane 0.
At char er 16-bit skal nok ses som en historisk konsekevens af at da
Sun's Oak projekt i 1992 eller deromkring definerede Java sproget så
fandtes kun unicode plane 0 (og den blev bare kaldt unicode).

Venlig hilsen
Mads

Erik Richard Sørense~ (18-12-2006)

Kommentar
Fra : Erik Richard Sørense~

Dato : 18-12-06 16:14

Hej Jesper

Jesper Juellund Jensen wrote:
> Thorbjørn Ravn Andersen skrev:
>> Unicode er 16-bit.
>
> Unicode er vel blot en standard for numre for forskellige tegn. Og ikke
> alle kan repræsenteres med 16 bit, selv om mest brugte kan:
>
> "The majority of common-use characters fit into the first 64K code
> points"
> http://www.unicode.org/standard/principles.html
>
> Og om UTF-16 på samme side:
> "UTF-16 is popular in many environments that need to balance efficient
> access to characters with economical use of storage. It is reasonably
> compact and all the heavily used characters fit into a single 16-bit
> code unit, while all other characters are accessible via pairs of 16-bit
> code units."
>
>> UTF-16, UTF-7 og UTF-8 er forskellige komprimeringsalgoritmer
>
> Nemlig. Præcis som UTF-32. Og (igen fra samme side) om UTF-8, UTF-16 og
> UTF-32:
> "All three encoding forms need at most 4 bytes (or 32-bits) of data for
> each character."

Bingo! - Dér gav du løsningen, - nok uden du selv er klar over det. Glad

> Hvis man skulle sige, at Unicode "er" noget, så må det altså være 32
> bit...

Det var '32', der ledte mig på sporet. De asiatiske billedtegnssprog -
japansk, kinesisk og koreansk er 2-bytes sprog - altså 16 bits, hvis man
tænker i alm. konventionelle skrifttyper ala PS, T1 og TT, men for at
have plads til alle tegn i _1_ enkelt skrifttype, arbejder mange
programmer og filformater ud fra en 'double 2-bytes' kodning - altså
reelt en 4-bytes kodning... Det kan RTF _ikke_ finde ud af, og det
betyder, at hvis glyph'erne i skrifttegnet ikke er fuldstændig nøjagtig
lig med samme tegn i en 2-bytes skrifttegn, vil M$ font substitution
vælge en kodning, der ligger i nærheden af tegnets glyph.

Men det betyder så også, at der ikke er en løsning, før alle skrifttegn
er både 16-bits og 32-bits savvy, og at dette bliver implementeret i RTF
koden.

mvh. Erik Richard

--
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
KMLDenmark by Erik Richard Sørensen, Member of ADC
<kmldenmark_NOSP@M_stofanet.dk>
*Music Recording, Editing & Publishing - Also Smaller Quantities
*Software - For Theological Education - And For Physically Impaired
*Nisus - The Future in Text & Mail Processing <http://www.nisus.com>
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Mads (18-12-2006)

Kommentar
Fra : Mads

Dato : 18-12-06 20:01

Erik Richard Sørensen wrote:
>
> Det var '32', der ledte mig på sporet. De asiatiske billedtegnssprog -
> japansk, kinesisk og koreansk er 2-bytes sprog - altså 16 bits

Det giver ikke mening. Det er korrekt at med visse kodnings standarder
for unicode bruger 16-bit til de fleste kinesiske tegn. Men "2-bytes
sprog" giver ikke mening.

> , hvis man
> tænker i alm. konventionelle skrifttyper ala PS, T1 og TT, men for at
> have plads til alle tegn i _1_ enkelt skrifttype, arbejder mange
> programmer og filformater ud fra en 'double 2-bytes' kodning - altså
> reelt en 4-bytes kodning...

Det jeg tror du forsøger at sige er at omkring år 2000 begyndte Kina at
kræve support for tegn der lå udover unicode BMP'en. Derfor måtte man
enten bruge en større fast længde kodning såsom UCS-4 (32 bit), eller en
variable længde kodning som f.eks. UTF-16 (der som minimum bruger 16
bit, og i nogle tilfælde mere)

>
> Men det betyder så også, at der ikke er en løsning, før alle skrifttegn
> er både 16-bits og 32-bits savvy, og at dette bliver implementeret i RTF
> koden.
>
Skriftyper burde ikke have noget at gøre med kodningen. De burde
beskæftige sig på en stream a unicode kode punkter, hvis det er en
unicode skriftype.
Normalt vil det dog være gemt væk i OS'ets 2D rendering. Jeg kender ikke
MS's Uniscribe så godt, men Apples Type Services for Unicode tager
såvidt jeg husker UTF-16 kodning fra applikationer og mapper dette til
den ønskede font.
Denne mapning er ikke nødvendigvis triviel, da den kan tage en del
forskellige parametre med i dens beregninger.

Venlig hilsen
Mads

Thorbjørn Ravn Ander~ (18-12-2006)

Kommentar
Fra : Thorbjørn Ravn Ander~

Dato : 18-12-06 22:00

Mads <mads@iname.com> writes:

> Det giver ikke mening. Det er korrekt at med visse kodnings standarder
> for unicode bruger 16-bit til de fleste kinesiske tegn. Men "2-bytes
> sprog" giver ikke mening.

Der er mange DoubleByte-tegnsæt fra før Unicodes tid.

Unicode er generelt en god ting.
--
Thorbjørn Ravn Andersen "... plus ... Tubular Bells!"

Erik Richard Sørense~ (18-12-2006)

Kommentar
Fra : Erik Richard Sørense~

Dato : 18-12-06 22:39

Hej Mads

Mads wrote:
> Erik Richard Sørensen wrote:
>> Det var '32', der ledte mig på sporet. De asiatiske billedtegnssprog -
>> japansk, kinesisk og koreansk er 2-bytes sprog - altså 16 bits
>
> Det giver ikke mening. Det er korrekt at med visse kodnings standarder
> for unicode bruger 16-bit til de fleste kinesiske tegn. Men "2-bytes
> sprog" giver ikke mening.

Joda. Kinesisk, japansk og koreansk _er_ 2-bytes sprog jvf. Apple
WorldScript II, så det giver endda rigtig god mening.

I princippet deler Apple helt tilbage fra System 6.0.5 sprog op i 1-byte
- 'WorldScript I' - alle latinske, cyrilliske og semittiske alfabeter,
og 2-bytes - 'WorldScript II' alle billedtegnssprog.

>> , hvis man
>> tænker i alm. konventionelle skrifttyper ala PS, T1 og TT, men for at
>> have plads til alle tegn i _1_ enkelt skrifttype, arbejder mange
>> programmer og filformater ud fra en 'double 2-bytes' kodning - altså
>> reelt en 4-bytes kodning...
>
> Det jeg tror du forsøger at sige er at omkring år 2000 begyndte Kina at
> kræve support for tegn der lå udover unicode BMP'en. Derfor måtte man
> enten bruge en større fast længde kodning såsom UCS-4 (32 bit), eller en
> variable længde kodning som f.eks. UTF-16 (der som minimum bruger 16
> bit, og i nogle tilfælde mere)

Det gjorde de også, men det er ikke lige det. - Jeg kan godt se, det er
lidt 'kluntet' formuleret, og jeg burde nok have skrevet forskelligheden
mellem UTF-8/WorldScript II og UTF-16 og dens måde at _håpndtere_
WorldScript II på.

I de nye billedtegnsskrifter i UTF-8 (WS II) har du alle tegn i
'Simplified Chinese', - svjh. godt og vel 7.000 skrifttegn og i
'Traditional Chinese (Mandarin Chinese) har du ca. 23.000 skrifttegn ud
af de i alt ca. 70.000 tegn i Mandarin, samt ca. 1200 såkaltde
'technical characters' - tegn, som nødvendigvis er indkorporeret i
sproget til brug ved fx. konstruktion, fremmede måleenheder osv.osv..

>> Men det betyder så også, at der ikke er en løsning, før alle
>> skrifttegn er både 16-bits og 32-bits savvy, og at dette bliver
>> implementeret i RTF koden.
>
> Skriftyper burde ikke have noget at gøre med kodningen. De burde
> beskæftige sig på en stream a unicode kode punkter, hvis det er en
> unicode skriftype.
> Normalt vil det dog være gemt væk i OS'ets 2D rendering. Jeg kender ikke
> MS's Uniscribe så godt, men Apples Type Services for Unicode tager
> såvidt jeg husker UTF-16 kodning fra applikationer og mapper dette til
> den ønskede font.

Det er ikke alle de billedtegnsskrifter, der er i Mac OS X, der er
Unicode, og dem, der er, er kun UTF-8 - ikke UTF-16 - fx. SongFong
(Trad.Chin.), Fong (Simp.Chin.), NISC (Nihon, jap.), TaiPe (Simp.Chin.
Taiwan), UnSon (Kwan, kor.) osv.osv.. Disse er alle .dfont
transcriptioner af tilsv. WS II skrifttyper.

> Denne mapning er ikke nødvendigvis triviel, da den kan tage en del
> forskellige parametre med i dens beregninger.

Tja, muligvis... Det burde bare være sådan, at alle skrifttyper var
fuldt ud kompatible med og i alle programmer, hvor man kan vælge anden
skrifttype. - Ét er bare _helt_ sikker. - Det giver problemer, når
dokumenter gemmes i RTF, dog lidt færre problemer i de programmer, der
har både den gamle std. RTF + MS RTF som fx. MarinerWrite...

mvh. Erik Richard

--
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
KMLDenmark by Erik Richard Sørensen, Member of ADC
<kmldenmark_NOSP@M_stofanet.dk>
*Music Recording, Editing & Publishing - Also Smaller Quantities
*Software - For Theological Education - And For Physically Impaired
*Nisus - The Future in Text & Mail Processing <http://www.nisus.com>
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Mads (19-12-2006)

Kommentar
Fra : Mads

Dato : 19-12-06 00:00

Hej Erik

Erik Richard Sørensen wrote:
> Mads wrote:
>
> Joda. Kinesisk, japansk og koreansk _er_ 2-bytes sprog jvf. Apple
> WorldScript II, så det giver endda rigtig god mening.
>
Det er da ikke 2-bytes hvis jeg vil bruge UCS-4.
Jeg er udemærket klar over at visse kodnings standarder har kodet
kinesisk med 2 bytes. Jeg sad i Beijing og kodede kinesiske Delphi
programmer inden Delphi fik Unicode support, så jeg har været turen igennem.

> I princippet deler Apple helt tilbage fra System 6.0.5 sprog op i 1-byte
> - 'WorldScript I' - alle latinske, cyrilliske og semittiske alfabeter,
> og 2-bytes - 'WorldScript II' alle billedtegnssprog.
>
Undskyld, men er WorldScript ikke død og begravet sammen med OS 9?
Det kan være jeg husker fejl, men såvidt jeg husker kunne WorldScript
ikke håndtere unicode, det kunne derimod Apple Type Services for Unicode
Imaging.

>
> Det er ikke alle de billedtegnsskrifter, der er i Mac OS X, der er
> Unicode, og dem, der er, er kun UTF-8 - ikke UTF-16 - fx. SongFong
> (Trad.Chin.), Fong (Simp.Chin.), NISC (Nihon, jap.), TaiPe (Simp.Chin.
> Taiwan), UnSon (Kwan, kor.) osv.osv.. Disse er alle .dfont
> transcriptioner af tilsv. WS II skrifttyper.
>
Mærkeligt mine kinesiske fonte på min Intel Mac hedder noget helt andet.
Hvordan ser du på en font at den kun er UTF-8?

>> Denne mapning er ikke nødvendigvis triviel, da den kan tage en del
>> forskellige parametre med i dens beregninger.
>
> Tja, muligvis...
Er der ikke en hel stak regler i unicode standarden for hvordan på
hinanden følgende tegn skal tegnes. Samt styring af blandet
Right-to-left og Left-to-right sprog?

> Det burde bare være sådan, at alle skrifttyper var
> fuldt ud kompatible med og i alle programmer, hvor man kan vælge anden
> skrifttype.
Enig.

> - Ét er bare _helt_ sikker. - Det giver problemer, når
> dokumenter gemmes i RTF, dog lidt færre problemer i de programmer, der
> har både den gamle std. RTF + MS RTF som fx. MarinerWrite...
>
Ja, mærkeligt. Men som du selv er inde på skyldes det nok at RTF er et
gammelt format der har fået eftermonteret support for andet end ASCII tegn.

Venlig hilsen
Mads

Flemming Rubini (19-12-2006)

Kommentar
Fra : Flemming Rubini

Dato : 19-12-06 00:59

Mads <mads@iname.com> wrote:

> > - Ét er bare _helt_ sikker. - Det giver problemer, når
> > dokumenter gemmes i RTF, dog lidt færre problemer i de programmer, der
> > har både den gamle std. RTF + MS RTF som fx. MarinerWrite...
> >
> Ja, mærkeligt. Men som du selv er inde på skyldes det nok at RTF er et
> gammelt format der har fået eftermonteret support for andet end ASCII tegn.

Hvilken generisk format burde man så bruge. Jeg har sværget til rtf i
det pædagogiske miljø, men oplever jævnligt fejl alligevel. Er derfor
blevet mere ydmyg med mine anbefalinger.
Ellers erfarer jeg for mit eget vedkommende at jeg bruger pdf mere og
mere.

--
Med venlig hilsen
Flemming Rubini

E-post: brug reply for at få korrekt adresse.

Erik Richard Sørense~ (20-12-2006)

Kommentar
Fra : Erik Richard Sørense~

Dato : 20-12-06 00:09

Hej Mads

Mads wrote:
> Erik Richard Sørensen wrote:
>> Mads wrote:
>> Joda. Kinesisk, japansk og koreansk _er_ 2-bytes sprog jvf. Apple
>> WorldScript II, så det giver endda rigtig god mening.
>
> Det er da ikke 2-bytes hvis jeg vil bruge UCS-4.

Mig bekendt kan man ikke bruge UCS-4 på OS X...

> Jeg er udemærket klar over at visse kodnings standarder har kodet
> kinesisk med 2 bytes. Jeg sad i Beijing og kodede kinesiske Delphi
> programmer inden Delphi fik Unicode support, så jeg har været turen
> igennem.

Det, jeg tænker på, er først og fremmest de lidt ældre skrifttyper, der
stadig bruges af mange Mac brugere. De er 2-bytes opbygning beregnet til
brug med WorldScript II.

>> I princippet deler Apple helt tilbage fra System 6.0.5 sprog op i
>> 1-byte - 'WorldScript I' - alle latinske, cyrilliske og semittiske
>> alfabeter, og 2-bytes - 'WorldScript II' alle billedtegnssprog.
>
> Undskyld, men er WorldScript ikke død og begravet sammen med OS 9?
> Det kan være jeg husker fejl, men såvidt jeg husker kunne WorldScript
> ikke håndtere unicode, det kunne derimod Apple Type Services for Unicode
> Imaging.

Som selvstændig skrifthåndtering, jo, så er WorldScript afgået ved en -
desværre - stille og rolig død. Glad

Men håndteringen er nu inkluderet i
TypeServices, netop for at kunne bibeholde brugen af mange af de
klassikse WorldScript II savvy skriftr - som fx. 'BeiJing, TaiPe,
Shanghai, LiSong osv.. Alle disse er rene 2-bytes skrifter...

>> Det er ikke alle de billedtegnsskrifter, der er i Mac OS X, der er
>> Unicode, og dem, der er, er kun UTF-8 - ikke UTF-16 - fx. SongFong
>> (Trad.Chin.), Fong (Simp.Chin.), NISC (Nihon, jap.), TaiPe (Simp.Chin.
>> Taiwan), UnSon (Kwan, kor.) osv.osv.. Disse er alle .dfont
>> transcriptioner af tilsv. WS II skrifttyper.
>
> Mærkeligt mine kinesiske fonte på min Intel Mac hedder noget helt andet.

Hm, hvor jeg har fået dem fra, tør jeg egentlig ikke sige, men det er de
skrifter, jeg har brugt i de sammenligninger og tests, jeg har været
igang med. Nogle af dem er TT konverteringer af Windows .ttf skrifter.

> Hvordan ser du på en font at den kun er UTF-8?

Det har jeg fra dem, jeg har fået dokumenterne fra.

>>> Denne mapning er ikke nødvendigvis triviel, da den kan tage en del
>>> forskellige parametre med i dens beregninger.
>>
>> Tja, muligvis...
> Er der ikke en hel stak regler i unicode standarden for hvordan på
> hinanden følgende tegn skal tegnes.

Det går jeg da stærkt ud fra, - ellers vil det da gå helt i ged. Glad

> Samt styring af blandet Right-to-left og Left-to-right sprog?

det er det enkelte tekstbehandlingsprogram, der styrer det. - Fx. i både
NisusWriter Express, Mellel og MarinerWrite er det enten med et klik på
en knap eller via en tastkommando.

>> Det burde bare være sådan, at alle skrifttyper var
>> fuldt ud kompatible med og i alle programmer, hvor man kan vælge anden
>> skrifttype.
> Enig.
>
>> - Ét er bare _helt_ sikker. - Det giver problemer, når dokumenter
>> gemmes i RTF, dog lidt færre problemer i de programmer, der har både
>> den gamle std. RTF + MS RTF som fx. MarinerWrite...
>
> Ja, mærkeligt. Men som du selv er inde på skyldes det nok at RTF er et
> gammelt format der har fået eftermonteret support for andet end ASCIItegn.

Hm, tjaoe... Men iflg. Ms's egen side, så er deres RTF fra både Office
XP og Office 2004 "...totally re-written code...".

Jeg har på fornemmelsen, at det er én af grundene til, at fx.
MarinerWrite nu har to forskellige RTF - alm. 'gammeldaws' RTF og
MS-RTF. Bruger jeg MS-RTF i MW og åbner et multi-lingual dokument i NWE,
er der færre fejl, end hvis jeg bruger den alm. RTF. - Jeg véd fra en af
mine venner, at han har lidt samme problem, når de får breve fra hans
kones familie i Thailand, skrevet i WordXP (Thai ver.) og gemt som RTF,
og de så åbner i den danske WordXP. Der er andre Thai skrifter i den
danske WinXP end i den lokaliserede thailandske version. Mine venner må
desuden bruge 'Asian Language Input', når de skriver breve på thai til
hendes familie. - Jeg har sagt, at han kun skal gemme i alm. .doc og det
vil den thailandske ver. af Word sagtens kunne håndtere, og det er da
også blevet bedre med kanp så mange fejlvisninger. - Jeg har spurgt ham,
om han har prøvet med Unicode i Office, men han er ikke så skrap til det
program-interne, så de vælger at bruge den alm. input metode...

Så med det, man 'samler op' rundt omkring, er jeg ved at være temmelig
sikker på, at fejlene ligger i RTF formatet. - Så jeg må da indrømme, at
jeg glæder mig lidt til, at .odf bliver std. på alle TB programmer, nu
hvor det er blevet ISO standard... - Jeg har prøvet en lille smule
sammenligning i Abiword og NeoOffice - Ingen fejl overhovedet - uanset
hvilken encoding, der er valgt!

mvh. Erik Richard

--
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
KMLDenmark by Erik Richard Sørensen, Member of ADC
<kmldenmark_NOSP@M_stofanet.dk>
*Music Recording, Editing & Publishing - Also Smaller Quantities
*Software - For Theological Education - And For Physically Impaired
*Nisus - The Future in Text & Mail Processing <http://www.nisus.com>
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Mads (19-12-2006)

Kommentar
Fra : Mads

Dato : 19-12-06 08:19

Erik Richard Sørensen wrote:
> Ét er bare _helt_ sikker. - Det giver problemer, når
> dokumenter gemmes i RTF, dog lidt færre problemer i de programmer, der
> har både den gamle std. RTF + MS RTF som fx. MarinerWrite...
>
Jeg kom til at tænke på. RTF er da et tekst baseret format, (i
modsætning til binære formater).
Så kan du ikke lave en simple fil med nogle enkelte tegn, og så åbne den
i en tekst editor og se hvad der går galt?

Jeg prøvede at skrive beijing på kinesisk i word og gemme dette og åbne
det i Emacs. Mod slutningen af filen fandt jeg:
\u21271\'b1\'b1\u20140
Hvor 21271 er decimal koden for Bei. Mens 20140 er decimal koden for
Jing. (Undskyld mit pinyin, jeg er idiot til tonefaldene)

Venlig hilsen
Mads

Erik Richard Sørense~ (19-12-2006)

Kommentar
Fra : Erik Richard Sørense~

Dato : 19-12-06 14:33

Hej Mads

god idé. Det prøver jeg ved lejlighed.
mvh. Erik Richard

Mads wrote:
> Erik Richard Sørensen wrote:
>> Ét er bare _helt_ sikker. - Det giver problemer, når dokumenter gemmes
>> i RTF, dog lidt færre problemer i de programmer, der har både den
>> gamle std. RTF + MS RTF som fx. MarinerWrite...
>>
> Jeg kom til at tænke på. RTF er da et tekst baseret format, (i
> modsætning til binære formater).
> Så kan du ikke lave en simple fil med nogle enkelte tegn, og så åbne den
> i en tekst editor og se hvad der går galt?
>
> Jeg prøvede at skrive beijing på kinesisk i word og gemme dette og åbne
> det i Emacs. Mod slutningen af filen fandt jeg:
> \u21271\'b1\'b1\u20140
> Hvor 21271 er decimal koden for Bei. Mens 20140 er decimal koden for
> Jing. (Undskyld mit pinyin, jeg er idiot til tonefaldene)

--
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
KMLDenmark by Erik Richard Sørensen, Member of ADC
<kmldenmark_NOSP@M_stofanet.dk>
*Music Recording, Editing & Publishing - Also Smaller Quantities
*Software - For Theological Education - And For Physically Impaired
*Nisus - The Future in Text & Mail Processing <http://www.nisus.com>
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Søg

Reklame

Statistik

Spørgsmål :	177740
Tips :	31970
Nyheder :	719565
Indlæg :	6410346
Brugere :	218904

Månedens bedste

Årets bedste

Sidste års bedste