Combining Grapheme Joiner

Combining grapheme joiner (CGJ) (česky kombinační spojovač grafémů) je znak Unicode s kódem U+034F a HTML entitou ͏. Není to tisknutelný znak a je ve výchozím stavu ignorován aplikacemi. Jméno tohoto znaku v angličtině je zavádějící jelikož nepopisuje jeho funkci a to proto že znak rozděluje grafémy.[1] Jeho účelem je dělit znaky které by neměly být považovány za spřežku.

Například v češtině, je sled znaků c and h normálně považován za spřežku ch. Pokud se však rozdělí pomocí CGJ, budou považovány za dva grafémy.

Tento znak je také potřeba pro písma s komplexním rozložením. Například, ve většině případů psaní hebrejského akcentu meteg by se měl psát zleva samohláskové punktuace avšak ve výchozím stavu to většina textových rendrovacích systému vyrendruje i když je tento akcent napsán před samohláskou. Avšak v některých slovech klasické hebrejštiny se má meteg psát napravo od samohlásky, k správnému rendrování se musí vložit, CGJ mezi meteg a samohlásku. Pro porovnání:

he + patach + meteg הַֽ
he + meteg + patach הַֽ
he + meteg + CGJ + patach הֽ͏ַ

Tyto příklady nemusí být podporovány pokud na počítači není font který plně podporuje samohláskovou punktuaci. Doporučuje se font Ezra SIL SR. Tyto příklady se nemusí na všech počítačích/prohlížečích/operačních systémech/aplikacích zobrazit stejně.

V případě několika konsekutivních skládaných znaků, vkládaný znak CGJ indikuje že by skládané znaky neměly být předmětem kanonického přerovnání.[2]

Porovnej s „nespojovačem s nulovou šířkou“ (zero-width non-joiner, ZWNJ) s kódem U+200C v rozsahu všeobecné interpunkce který zabraňuje tvoření ligatur což se neděje u CGJ.

Reference

  1. http://unicode.org/notes/tn27/
  2. https://www.unicode.org/versions/Unicode6.0.0/ch16.pdf

Externí odkazy

  • Unicode FAQ – Characters and Combining Marks
  • Unicode FAQ – Normalization