/ Forside / Teknologi / Internet / E-Mail / Nyhedsindlæg
Login
Glemt dit kodeord?
Brugernavn

Kodeord


Reklame
Top 10 brugere
E-Mail
#NavnPoint
o.v.n. 20481
miritdk 16341
Klaudi 15149
refi 14168
dk 5555
tedd 5322
webnoob 5265
BjarneD 5014
emesen 4154
10  bentjuul 3460
Content-type og forskellige tegnsæt
Fra : Jacob Bunk Nielsen


Dato : 23-12-01 13:21

Hej

Jeg bruger Gnus som newsreader. Den finder helt automagisk ud af at
sende i ISO-8859-1, som anbefalet på <http://www.usenet.dk/> et sted.

På det seneste har jeg oplevet at ganske mange (vist mest folk der
bruger Knode, men også andre) er begyndt at poste med ISO-8859-15 som
tegnsæt. Der er så vidt jeg ved meget lidt forskel, kun et enkelt tegn
der er ændret, så det er nok ikke nogen katastrofe.

Når jeg så vil lave en followup til sådan et indlæg laver min Gnus et
indlæg der blandt alt det andet har følgende indhold:

| Content-Type: multipart/mixed; boundary="=-=-="
| [ ... ]
| --=-=-=
| Content-Type: text/plain; charset=iso-8859-15
| Content-Transfer-Encoding: 8bit

| Nogen <nogen@etsted.tld> writes:
|
| > [ tekst jeg citerer ]
|
| --=-=-=
| Content-Type: text/plain; charset=iso-8859-1
| Content-Transfer-Encoding: 8bit
|
| [ tekst jeg selv skriver ]

Samtidig kommer min Gnus og fortæller at indlægget er nødt til blive
delt i flere dele, og om jeg er sikker på at jeg vil poste.

Så er mine spørgsmål:

- Ser ovenstående rigtigt ud i andre newsreadere (Gnus håndterer det
fint).
- Hvad er den rigtige fremgangsmåde her? At poste alt i ISO-8859-15,
at poste alt i ISO-8859-1, eller lave en kombination, som jeg gør
nu?
- Hvordan får jeg min Gnus til at håndtere den rigtige løsning?

--
Jacob - www.bunk.cc
If anything can go wrong, it will.

 
 
Byrial Jensen (23-12-2001)
Kommentar
Fra : Byrial Jensen


Dato : 23-12-01 14:30

Jacob Bunk Nielsen <spam@bunk.cc> skrev:
> Hej
>
> Jeg bruger Gnus som newsreader. Den finder helt automagisk ud af at
> sende i ISO-8859-1, som anbefalet på <http://www.usenet.dk/> et sted.
>
> På det seneste har jeg oplevet at ganske mange (vist mest folk der
> bruger Knode, men også andre) er begyndt at poste med ISO-8859-15 som
> tegnsæt. Der er så vidt jeg ved meget lidt forskel, kun et enkelt tegn
> der er ændret, så det er nok ikke nogen katastrofe.

Det er nu noget mere end et enkelt tegn idet 8 tegn er ændret.
Forskellene er:

Tegn ISO-8859-1/Latin-1 ISO-8859-15/Latin-9
-----------------------------------------------------------------
164 ¤ CURRENCY SIGN EURO SIGN
166 ¦ BROKEN BAR LATIN CAPITAL LETTER S WITH CARON
168 ¨ DIAERESIS LATIN SMALL LETTER S WITH CARON
180 ´ ACUTE ACCENT LATIN CAPITAL LETTER Z WITH CARON
184 ¸ CEDILLA LATIN SMALL LETTER Z WITH CARON
188 ¼ VULGAR FRACTION ONE QUARTER LATIN CAPITAL LIGATURE OE
189 ½ VULGAR FRACTION ONE HALF LATIN SMALL LIGATURE OE
190 ¾ VULGAR FRACTION THREE QUARTERS LATIN CAPITAL LETTER Y WITH DIAERESIS

De ekstra bogstaver er medtaget af hensyn til fransk og finsk, og
eurotegnet er nyttigt i mange lande, så man skal nok forvente at se
mere til Latin-9.

> Når jeg så vil lave en followup til sådan et indlæg laver min Gnus et
> indlæg der blandt alt det andet har følgende indhold:
>
>| Content-Type: multipart/mixed; boundary="=-=-="
>| [ ... ]
>| --=-=-=
>| Content-Type: text/plain; charset=iso-8859-15
>| Content-Transfer-Encoding: 8bit
>| 
>| Nogen <nogen@etsted.tld> writes:
>|
>| > [ tekst jeg citerer ]
>|
>| --=-=-=
>| Content-Type: text/plain; charset=iso-8859-1
>| Content-Transfer-Encoding: 8bit
>|
>| [ tekst jeg selv skriver ]
>
> Samtidig kommer min Gnus og fortæller at indlægget er nødt til blive
> delt i flere dele, og om jeg er sikker på at jeg vil poste.
>
> Så er mine spørgsmål:
>
> - Ser ovenstående rigtigt ud i andre newsreadere (Gnus håndterer det
> fint).

Det kommer an på nyhedslæseren. Ikke alle kan klare det, men nogle
kan. Jeg synes at man bør undgå flerparts-MIME-beskeder på usenet.

> - Hvad er den rigtige fremgangsmåde her? At poste alt i ISO-8859-15,
> at poste alt i ISO-8859-1, eller lave en kombination, som jeg gør
> nu?

Jeg vil sige at al tekst bør sendes i samme tegnsæt medmindre man
har en meget god grund til ikke at gøre det. Om det så er Latin-1,
Latin-9 eller utf-8 er for mig at se mindre vigtigt. Men du/din
nyhedslæser bør konvertere citaterne til det tegnsæt som der ellers
bruges i teksten. Hvis der ikke bruges nogen af de 8 ændrede tegn,
er det blot at ændre navnet. Hvis de bruges, må man transkribere til
tegnkombinationer som findes på det brugte tegnsæt.

> - Hvordan får jeg min Gnus til at håndtere den rigtige løsning?

Det ved jeg ikke.

Jacob Bunk Nielsen (23-12-2001)
Kommentar
Fra : Jacob Bunk Nielsen


Dato : 23-12-01 15:03

Byrial Jensen <bjensen@nospam.dk> writes:

> Det er nu noget mere end et enkelt tegn idet 8 tegn er ændret.

OK. Jeg siger tak for listen.

> De ekstra bogstaver er medtaget af hensyn til fransk og finsk, og
> eurotegnet er nyttigt i mange lande, så man skal nok forvente at se
> mere til Latin-9.

Jeg kan se at eurotegnet er nyttigt her i Danmark, de andre tegn er
ikke noget jeg selv kunne finde på at bruge.

> > - Ser ovenstående rigtigt ud i andre newsreadere (Gnus håndterer det
> > fint).
>
> Det kommer an på nyhedslæseren. Ikke alle kan klare det, men nogle
> kan. Jeg synes at man bør undgå flerparts-MIME-beskeder på usenet.

Umiddelbart synes jeg også at jeg helst vil undgå flere forskellige
tegnsæt i samme indlæg. Det er derfor jeg startede denne tråd.

Jeg ved at du kender en del til slrn. Kan den fx finde ud af det?

> > - Hvad er den rigtige fremgangsmåde her? [ ... ]
>
> Jeg vil sige at al tekst bør sendes i samme tegnsæt medmindre man
> har en meget god grund til ikke at gøre det.

Oftest har jeg ikke nogen god grund til andet.

Måske er det på tide at få en snak i admin-gruppen om hvilket tegnsæt
man skal anbefale fremover.

> > - Hvordan får jeg min Gnus til at håndtere den rigtige løsning?
>
> Det ved jeg ikke.

OK, jeg må kigge lidt i manualen.

--
Jacob - www.bunk.cc
Push where it gives and scratch where it itches.

Byrial Jensen (23-12-2001)
Kommentar
Fra : Byrial Jensen


Dato : 23-12-01 17:18

Jacob Bunk Nielsen <spam@bunk.cc> skrev:
> Byrial Jensen <bjensen@nospam.dk> writes:
>
>> Det kommer an på nyhedslæseren. Ikke alle kan klare det, men nogle
>> kan. Jeg synes at man bør undgå flerparts-MIME-beskeder på usenet.
>
> Umiddelbart synes jeg også at jeg helst vil undgå flere forskellige
> tegnsæt i samme indlæg. Det er derfor jeg startede denne tråd.
>
> Jeg ved at du kender en del til slrn. Kan den fx finde ud af det?

Nej, slrn er ikke ret god til MIME. Den kan stort set kun afkode
QP- og base64-indkodning og konvertere mellem nogle enkelte tegnsæt
vha. omsætningstabeller som er hårdt skrevet ind i programkoden.

Flerparts-beskeder vises rå med headere mv. uden nogen form for
fortolkning.

Både bedre tegnsætshåndtering og håndtering af flerparts-MIME-
beskeder er på den officielle todo-liste
(<http://slrn.sourceforge.net/wishlist.html>), men er ikke planlagt
til at blive lavet foreløbig. Men patches modtages sikkert gerne
hvis nogen mangler noget at lave mellem jul og nytår.

> Måske er det på tide at få en snak i admin-gruppen om hvilket tegnsæt
> man skal anbefale fremover.

Forhåbentlig er tiden snart moden til utf-8.

Jacob Bunk Nielsen (23-12-2001)
Kommentar
Fra : Jacob Bunk Nielsen


Dato : 23-12-01 17:37

Byrial Jensen <bjensen@nospam.dk> writes:

> > Jeg ved at du kender en del til slrn. Kan den fx finde ud af det?
>
> Nej, slrn er ikke ret god til MIME. [ ... ]

OK, så kan jeg regne ud at der givetvis også er andre newsreadere der
heller ikke kan finde rigtigt ud af det. Jeg går straks igang med at
finde en løsning i Gnus-manualen.

> Både bedre tegnsætshåndtering og håndtering af flerparts-MIME-
> beskeder er på den officielle todo-liste
> (<http://slrn.sourceforge.net/wishlist.html>), men er ikke planlagt
> til at blive lavet foreløbig. Men patches modtages sikkert gerne
> hvis nogen mangler noget at lave mellem jul og nytår.

Heh, jeg vil hellere lege med Gnus og prøve at finde ud af at få styr
på den.

> Forhåbentlig er tiden snart moden til utf-8.

Tja, det kan min Gnus også finde ud af, så fint med mig

--
Jacob - www.bunk.cc
Identify your visitor.

Jesper Harder (24-12-2001)
Kommentar
Fra : Jesper Harder


Dato : 24-12-01 00:00

Jacob Bunk Nielsen <spam@bunk.cc> writes:

> [ ISO-8859-15]
>
> Så er mine spørgsmål:
>
> - Ser ovenstående rigtigt ud i andre newsreadere (Gnus håndterer det
> fint).

Nej, de fleste klienter er i virkeligheden ikke særligt gode til MIME.

> - Hvad er den rigtige fremgangsmåde her? At poste alt i ISO-8859-15,
> at poste alt i ISO-8859-1, eller lave en kombination, som jeg gør
> nu?

Jeg ville sige poste alt i iso-8859-15, hvis det kan lade sig gøre. Hvis
det ikke kan, så utf-8.

> - Hvordan får jeg min Gnus til at håndtere den rigtige løsning?

Ved at bruge CVS versionen af Gnus, hvor det er rettet så Gnus bruger
iso-8859-15 i dit eksempel. Hvis teksten indeholder uforenelige tegn,
fx både ¤ og euro, sender den dog stadig to dele.

Jacob Bunk Nielsen (24-12-2001)
Kommentar
Fra : Jacob Bunk Nielsen


Dato : 24-12-01 01:33

Jesper Harder <harder@myrealbox.com> writes:

> > - Hvordan får jeg min Gnus til at håndtere den rigtige løsning?
>
> Ved at bruge CVS versionen af Gnus, hvor det er rettet så Gnus bruger
> iso-8859-15 i dit eksempel. Hvis teksten indeholder uforenelige tegn,
> fx både ¤ og euro, sender den dog stadig to dele.

Det lyder vel egentlig meget klogt.

Det er CVS-versionen du selv bruger? Virker den stabil, eller flyver
det omkring med bugs?

Jeg tror at jeg vil se om jeg ikke kan bruge ventetiden i morgen til
at kigge lidt på den

--
Jacob - www.bunk.cc
If all else fails, lower your standards.

Jesper Harder (24-12-2001)
Kommentar
Fra : Jesper Harder


Dato : 24-12-01 02:43

Jacob Bunk Nielsen <spam@bunk.cc> writes:

> Jesper Harder <harder@myrealbox.com> writes:
>
>> > - Hvordan får jeg min Gnus til at håndtere den rigtige løsning?
>>
>> Ved at bruge CVS versionen af Gnus, hvor det er rettet så Gnus bruger
>> iso-8859-15 i dit eksempel. Hvis teksten indeholder uforenelige tegn,
>> fx både ¤ og euro, sender den dog stadig to dele.
>
> Det lyder vel egentlig meget klogt.
>
> Det er CVS-versionen du selv bruger?

Jep.

> Virker den stabil, eller flyver det omkring med bugs?

Jeg har brugt cvs-versionerne i nogle år, og jeg har ikke haft
problemer. Men der *er* selvfølgelig en risiko for, at der kan være
noget galt.

Man kan med fordel beholde den gamle Gnus-version, ved at installere den
nye et andet sted og så sætte stien til den forrest i load-path [1]. Hvis
der så er noget galt, kan man bare fjerne den fra load-path og vende
tilbage til den gamle.

[1] Fx:

(add-to-list 'load-path "~/cvsgnus/lisp")
(add-to-list 'Info-default-directory-list "~/cvsgnus/texi/")

Jacob Bunk Nielsen (24-12-2001)
Kommentar
Fra : Jacob Bunk Nielsen


Dato : 24-12-01 13:04

Jesper Harder <harder@myrealbox.com> writes:

[ CVS-versioen af Gnus ]

>> Virker den stabil, eller flyver det omkring med bugs?
>
> Jeg har brugt cvs-versionerne i nogle år, og jeg har ikke haft
> problemer. Men der *er* selvfølgelig en risiko for, at der kan være
> noget galt.

OK, det lyder betryggende. Nu kører jeg så også med CVS-versionen, så
må jeg se om det giver problemer.

Du har vel ikke et tip til hvordan jeg kan putte en streng
("spamdrop+") i starten af alle mine message-id'er? I den gamle Gnus
rettede jeg lidt i koden for at opnå det, da jeg ikke kunne finde
nogen anden løsning. Idéen er at undgå spam sendt til et message-id,
da jeg fik en del af den slags for et stykke tid siden.

--
Jacob - www.bunk.cc
I fear explanations explanatory of things explained.

Jesper Harder (24-12-2001)
Kommentar
Fra : Jesper Harder


Dato : 24-12-01 17:18

Jacob Bunk Nielsen <spam@bunk.cc> writes:

> Du har vel ikke et tip til hvordan jeg kan putte en streng
> ("spamdrop+") i starten af alle mine message-id'er? I den gamle Gnus
> rettede jeg lidt i koden for at opnå det, da jeg ikke kunne finde
> nogen anden løsning. Idéen er at undgå spam sendt til et message-id,
> da jeg fik en del af den slags for et stykke tid siden.

Hmm, den pæneste løsning er nok at bruge `advice':

(defadvice message-unique-id (after add-spam-message-unique-id)
"Add \"spamdrop+\" to message-id."
(setq ad-return-value (concat "spamdrop+" ad-return-value)))

(ad-activate 'message-unique-id)

Jacob Bunk Nielsen (24-12-2001)
Kommentar
Fra : Jacob Bunk Nielsen


Dato : 24-12-01 17:49

Jesper Harder <harder@myrealbox.com> writes:

> Hmm, den pæneste løsning er nok at bruge `advice': [ ... ]

Tak, det prøver jeg så første gang med dette indlæg. Jeg kan godt se
at jeg vist skal til at lære lidt mere eLisp snart

God jul, og mange tak for hjælpen.

--
Jacob - www.bunk.cc
Accept people for what they are -- completely unacceptable.

Søg
Reklame
Statistik
Spørgsmål : 177551
Tips : 31968
Nyheder : 719565
Indlæg : 6408836
Brugere : 218887

Månedens bedste
Årets bedste
Sidste års bedste