UTF-8 en Esperanto

Da Parracomumangi.

Kial komputiloj havas tiom da problemoj kun signoj? Per aliaj vortoj: kial oni spertas problemojn ankaŭ se komputiloj estas ĉiam pli potencaj kaj rapidaj?

Askio

Ni scias, ke la unuo por komputilaj informoj estas bitoko (byte), kio estas 8 bitoj (ĉiu bito estas 0 aŭ 1). Unu bitoko povas prezenti 256 kombinaciojn (28, kie 8 estas numero de bitoj en bitoko).

Komence, oni preferis uzi nur 7 bitoj de bitoko por prezenti literojn kaj aliaj signojn, kiuj oni bezonis por komuniki, kaj la unua bito estis nur por kontrolo. Tiel oni kreis ASKIon (ASCII), kiu bone prezentis nur la anglan alfabeton kaj la usonan monsimbolon ($). Strukturo de bitoko en ASKIo:

KDDDDDDD (K = bito por kontrolo; D = bito por prezenti datumon)

La bito K oni uzis por farigi para la numeron de "1" en la tuta bitoko (por kontrolo).

Do, oni vere uzis 7 bitoj, per kiuj oni povas reprezenti nur 128 signojn (ne ĉiuj estas literojn aŭ videblajn signojn).

La lingvoj, kies alfabeto estas simila al la angla alfabeto povis uzi ASKIon (kun kelkaj problemoj).

Regionaj signarprezentoj

Kiam la konservo kaj sendo de informoj per interreto estis pli sekuraj, ebliĝis ankaŭ uzo de ĉiuj bitokoj, kies numero de "1" ne estis para, do 256 signoj estis useblaj. Sed tiu ne sufiĉas por ĉiuj lingvoj, do ĉiu nacio, aŭ nacioj kun proksima alfabeto kreis sian prezentsistemon (oni kreis "regionajn signarprezentojn"), kiu estis bone videbla nur en komputiloj kun la prezentita(j) alfabeto(j). En aliaj komputiloj la signoj neASKIaj ne estis bone videblaj. Jen la problemoj, kiuj ankoraŭ ni havas en 2011!

Unikodo

En 1991 oni kreis Unikodon (Unicode), la unika kaj universala kodaro por ĉiuj lingvoj de la mondo. Ĝi estas evoluanta kodaro (novaj versioj aperas kun novaj signojn). Vi povas imaĝi ĝin kiel grandan tabelon, enhavanta ĉiujn signojn, kaj por ĉiu signo estas unu numero (kodo).

La unua, "klasika" Unikodo bezonas 2 bitokojn (16 bitoj) por ĉiu signo: eblis prezenti 216 = 65536 signojn.

Sed tiel, la tekstoj skribitaj en multaj lingvoj bezonis duoble da spaco kaj oni preferis uzi la malnovajn prezentsistemojn.

UTF-8

Tamen, jen la solvo: UTF-8. Ĝi estas tre inteligenta prezentmaniero por Unikodo. Jen UTF-8a bitoko:

IDDDDDDD
  1. Se I = 0, DDDDDDD estas malnova ASKIo (do ASKIo povas estis UTF-8; tamen UTF-8 estas ASKIo nur kiam ĉiuj ĝiaj bitokoj ekas per 0)
  2. Se I = 1, la tuta bitoko devas esti kuniĝita kun la sekvanta(j) bitoko(j) (pli da detaloj).

En la kazo de Esperanto kaj la lingvoj kun malgranda alfabeto, ĉiu neASKIa signo bezonas 2 bitokojn. Nur grandegaj alfabetoj, kiel la ĉina bezonas 3 bitokojn, sed tio ne tro gravas se oni konsideras tutan tekston, ĉar signo de la ĉina povas esti ne nur signo, sed tuta vorto. Ekzemple "阴阳" bezonas 6 bitokojn, tamen ili ne estas du literojn, sed du vortoj kiuj, en la Latina alfabeto bezonus eĉ pli da spaco: "Yin Yang" (8 bitokojn ĉar ni bezonos ankaŭ aldoni spaceton) aŭ en pinjino: "yīn yáng" = 10 bitokojn.

La venontaj frazoj bezonas la saman spacokvanton kaj en ASKIo, kaj en UTF-8 (kompreneble la lasta ne estas skrivebla per ASKIo, sed nur per UTF-8):

  1. Ankaux mi sxatas la kodsistemon UTF-8
  2. Ankau' mi s'atas la kodsistemon UTF-8
  3. Ankau^ mi s^atas la kodsistemon UTF-8
  4. Ankaŭ mi ŝatas la kodsistemon UTF-8

La substregitaj literoj aŭ duopoj da literoj bezonas 2 bitokojn, la aliaj 1 bitokon.

Nur per CH-sistemo oni povas ŝpari unu biton je ĉiu ŭ (ĉar en CH-sistemo oni nur skribas: au eu), sed tio estas tro malgranda ŝparo.

Do, tiu eble sufiĉas por kompreni la problemojn pri alfabetoj en komputiloj. Tamen, oni tre multe povus skribi pri la afero (ekzemple BOM = Bitoka Ord-Marko, ktp.); tiu ĉi estas priskribo sen ĉiuj detaloj. Se vi trovas eraron, bonvolu kontakti min (por skribi al mi: parracomumangi [ĉe] altervista . org]).


Memoru: sendepende de via lingvo, uzu kodsistemon UTF-8 en ĉiu programo: por skribi tekstdosierojn (ekz. Notepad++), sendi e-leterojn (Thunderbird, Outlook...). Tio ebligos skribi ĉiujn lingvojn en unu dokumento; kiam ĉiuj homoj tiel faros, la problemoj pri prezentado de signoj en komputilo... malaperos.