Unicode-teckenegenskap
Unicode -standarden tilldelar olika egenskaper till varje Unicode-tecken och kodpunkt .
Egenskaperna kan användas för att hantera tecken (kodpunkter) i processer, som vid radbrytning, skriptriktning höger till vänster eller tillämpning av kontroller. Vissa "teckenegenskaper" är också definierade för kodpunkter som inte har några tecken tilldelade och kodpunkter som är märkta som " ". Teckenegenskaperna beskrivs i standardbilaga #44.
Egenskaper har nivåer av kraft: normativa, informativa, bidragande eller provisoriska. För enkelhetens skull kan en teckenegenskap tilldelas genom att ange ett kontinuerligt intervall av kodpunkter som har samma egenskap. [ citat behövs ]
Semantiska element
Egenskaperna visas i följande ordning:
[kod];[namn];[gc];[cc];[bc];[sönderdelning];;;[nv];[bm];[alias];;;;
- 'alias' = korrigerat namn
- 'bc' = bidi (dubbelriktad) kategori [L, R etc]
- 'bm' = bidi speglad [N eller Y]
- 'cc' = kombinerande klass [diakritisk position]
- nedbrytning = bokstav + diakritisk, ligatur XY, upphöjd X, typsnitt X, initial X, medial X, slutlig X, isolerad X, vertikal X, etc.
- 'gc' = allmän kategori [bokstav, symbol, siffra, skiljetecken, skiftlägesbeteende, etc.]
- 'nv' = numeriskt värde [av en siffra]
namn
Ett Unicode-tecken tilldelas ett unikt namn (na). Namnet består av versaler A–Z, siffrorna 0–9, bindestreck-minus (-) och mellanslag ( ). Vissa sekvenser är uteslutna: namn som börjar med ett mellanslag eller bindestreck, namn som slutar med ett mellanslag eller bindestreck, upprepade mellanslag eller bindestreck och mellanslag efter bindestreck är inte tillåtna. Namnet är garanterat unikt inom Unicode och kan användas för att identifiera en kodpunkt och dess karaktär. Ideografiska karaktärer, av vilka det finns tiotusentals, namnges i mönstret " cjk unified ideograph - hhhh ". Till exempel U+4E00 一 CJK UNIFIED IDEOGRAPH-4E00 . Formateringstecken namnges också: U+00A0 NO-BREAK SPACE .
Följande klasser av kodpunkter har inget namn (na=""): kontroller (allmän kategori: Cc), privat användning (Co), surrogat (Cs), icke-tecken (Cn) och reserverad (Cn). De kan refereras, informellt, av ett generiskt eller specifikt metanamn, kallat "Code Point Labels": <control>, <control-0088>, <reserved>, <noncharacter- hhhh >, <private - use- hhhh > , eller <surrogat>. Eftersom dessa etiketter innehåller <>-parenteser kan de aldrig visas som ett namn, vilket förhindrar förvirring.
Version 1.0 namn
I version 2.0 av Unicode ändrades många namn. Från och med då trädde regeln "ett namn kommer aldrig att ändras" i kraft, inklusive strikt (normativ) användning av aliasnamn. Nedlagda version 1.0-namn flyttades till egenskapen Alias, för att ge viss bakåtkompatibilitet.
Karaktärsnamnalias
Från och med Unicode version 2.0 kommer det publicerade namnet för en kodpunkt aldrig att ändras. Därför, i händelse av att ett teckennamn är felstavat eller om teckennamnet är helt fel eller allvarligt missvisande, kan ett formellt teckennamnsalias tilldelas tecknet, och detta alias kan användas av applikationer istället för det faktiska defekta teckennamnet . Till exempel, U+FE18 ︘ PRESENTATIONSFORMULÄR FÖR VERTIKAL HÖGER VIT LINSERBROTS har teckennamnet alias "PRESENTATIONSFORM FÖR VERTICAL RIGHT WHITE LENTICULAR BRACKET" för att mildra felstavningen av "bracket" som "bracet" i det faktiska teckennamnet; U+A015 ꀕ YI STAVELSE WU har teckennamnet alias "YI STAVELSE ITERATIONSMARK" eftersom det i motsats till teckennamnet inte har ett fast stavelsevärde.
Förutom teckennamnalias som är korrigeringar av defekta teckennamn, tilldelas vissa tecken alias som är alternativa namn eller förkortningar. Fem typer av teckennamnalias definieras i Unicode-standarden:
- Rättelse: korrigeringar för felstavade eller allvarligt felaktiga teckennamn;
- Kontroll: ISO 6429 -namn för C0- och C1-kontrollfunktioner (som inte är tilldelade teckennamn i Unicode-standarden);
- Alternativa: alternativa namn för vissa formattecken (endast U+FEFF "ZERO WIDTH NO-BREAK SPACE" som har aliaset "BYTE ORDER MARK");
- Figment: Dokumenterade etiketter för vissa C1-kontrollkodfunktioner som inte är faktiska namn i någon standard;
- Förkortning: Förkortningar eller akronymer för kontrollkoder, formattecken, mellanslag och variationsväljare.
Alla formella teckennamnalias följer reglerna för tillåtna teckennamn och är garanterade unika inom både teckennamnsaliaset och teckennamnsnamnrymden (av denna anledning är ISO 6429-namnet "BELL" inte definierat som ett alias för U +0007 eftersom U+1F514 heter "BELL").
Från och med Unicode version 12.1 definieras tjugoåtta formella teckennamnalias som korrigeringar för defekta teckennamn. Dessa listas nedan .
Förutom dessa normativa namn, kan informella namn visas i Unicode-koddiagrammen. Dessa är andra vanliga namn för ett tecken och har inte samma teckenbegränsning. Dessa informella namn är inte garanterade unika och kan komma att ändras eller tas bort i senare versioner av standarden.
Allmän kategori
Varje kodpunkt tilldelas ett värde för General Category. Detta är en av teckenegenskaperna som också definieras för otilldelade kodpunkter och kodpunkter som definieras som "inte ett tecken".
Allmän kategori (Unicode Character Property ) | |||||
---|---|---|---|---|---|
Värde | Kategori major, moll | Grundläggande typ | Karaktär tilldelad |
Antal (från 15,0) |
Anmärkningar |
L , Bokstav; LC , versaler (endast Lu, Ll och Lt) | |||||
Lu | Bokstav, versaler | Grafisk | Karaktär | 1,831 | |
Ll | Bokstav, gemener | Grafisk | Karaktär | 2,233 | |
Lt | Brev, titelfall | Grafisk | Karaktär | 31 | Ligaturer som innehåller versaler följt av små bokstäver (t.ex. Dž , Lj , Nj och Dz ) |
Lm | Bokstav, modifierare | Grafisk | Karaktär | 397 | En modifieringsbokstav |
Lo | Brev, annat | Grafisk | Karaktär | 131,612 | En ideograf eller en bokstav i ett unicase-alfabet |
M , Mark | |||||
Mn | Mark, utan mellanslag | Grafisk | Karaktär | 1 985 | |
Mc | Markera, mellanrumskombination | Grafisk | Karaktär | 452 | |
Mig | Mark, omslutande | Grafisk | Karaktär | 13 | |
N , nummer | |||||
Nd | Tal, decimalsiffra | Grafisk | Karaktär | 680 | Alla dessa, och endast dessa, har numerisk typ = De |
Nl | Siffra, bokstav | Grafisk | Karaktär | 236 | Siffror som består av bokstäver eller bokstavsliknande symboler (t.ex. romerska siffror ) |
Nej | Nummer, annat | Grafisk | Karaktär | 915 | Till exempel vulgära bråk , upphöjda och nedsänkta siffror |
P , Interpunktion | |||||
Pc | Skiljetecken, kontakt | Grafisk | Karaktär | 10 | Inkluderar mellanrumstecken som "_" och andra mellanrumstecken . Till skillnad från andra skiljetecken kan dessa klassificeras som "ord"-tecken av reguljära uttrycksbibliotek. |
Pd | Skiljetecken, streck | Grafisk | Karaktär | 26 | Innehåller flera bindestreck |
Ps | Skiljetecken, öppen | Grafisk | Karaktär | 79 | Tecken för öppningsparentes |
Pe | Skiljetecken, nära | Grafisk | Karaktär | 77 | Tecknen för avslutande parentes |
Pi | Skiljetecken, första citat | Grafisk | Karaktär | 12 | Inledande citattecken . Inkluderar inte ASCII "neutrala" citattecken. Kan bete sig som Ps eller Pe beroende på användning |
Pf | Skiljetecken, sista citat | Grafisk | Karaktär | 10 | Avslutande citattecken. Kan bete sig som Ps eller Pe beroende på användning |
Po | Skiljetecken, andra | Grafisk | Karaktär | 628 | |
S , Symbol | |||||
Sm | Symbol, matematik | Grafisk | Karaktär | 948 | Matematiska symboler (t.ex. + , − , = , × , ÷ , √ , ∊ , ≠ ). Inkluderar inte parenteser och parenteser, som finns i kategorierna Ps och Pe. Inkluderar inte heller ! , * , - , eller / , som trots frekvent användning som matematiska operatorer, i första hand anses vara "interpunktion". |
Sc | Symbol, valuta | Grafisk | Karaktär | 63 | Valutasymboler |
Sk | Symbol, modifierare | Grafisk | Karaktär | 125 | |
Så | Symbol, annat | Grafisk | Karaktär | 6,634 | |
Z , separator | |||||
Zs | Separator, utrymme | Grafisk | Karaktär | 17 | Inkluderar blanksteg, men inte TAB , CR eller LF , som är Cc |
Zl | Separator, linje | Formatera | Karaktär | 1 | Endast U+2028 LINE SEPARATOR (LSEP) |
Z P | Avskiljare, paragraf | Formatera | Karaktär | 1 | Endast U+2029 PUNKTSEPARATOR (PSEP) |
C , Annat | |||||
Cc | Annat, kontroll | Kontrollera | Karaktär | 65 (kommer aldrig att förändras) | Inget namn,<control> |
Jfr | Annat, format | Formatera | Karaktär | 170 | Innehåller det mjuka bindestrecket , sammanfogande kontrolltecken ( ZWNJ och ZWJ ), kontrolltecken för att stödja dubbelriktad text och språktagg -tecken |
Cs | Annat, surrogat | Surrogat | Inte (används endast i UTF-16 ) | 2 048 (kommer aldrig att förändras) | Inget namn,<surrogate> |
Co | Annat, privat bruk | Privat användning | Karaktär (men ingen tolkning specificerad) | 137 468 totalt (kommer aldrig att förändras) ( 6 400 i BMP , 131 068 i Plan 15–16 ) | Inget namn,<private-use> |
Cn | Annat, ej tilldelat | Icke karaktär | Inte | 66 (kommer aldrig att förändras) | Inget namn,<noncharacter> |
Reserverad | Inte | 825,279 | Inget namn,<reserved> | ||
Skiljetecken
Tecken har separata egenskaper för att ange att de är ett skiljetecken . Egenskaperna har alla ett Ja/Nej-värden : Dash , Quotation_Mark , Sentence_Terminal , Terminal_Punctuation .
Whitespace
Whitespace är ett vanligt begrepp för en typografisk effekt. I grund och botten täcker det osynliga tecken som har en mellanrumseffekt i renderad text. Den innehåller blanksteg , tabbar och nya radformateringskontroller. I Unicode har ett sådant tecken egenskapsuppsättningen "WSpace=yes". I version 15.0 finns det 25 blanksteg.
namn | Kodpunkt | Bredd låda | Kan gå sönder ? |
I IDN ? |
Manus | Blockera |
Allmän kategori |
Anteckningar | |
---|---|---|---|---|---|---|---|---|---|
teckentabell | U+0009 | 9 | Ja | Nej | Allmänning | Grundläggande latin |
Annat, kontroll |
HT, horisontell flik . HTML/XML namngiven enhet : 	 , LaTeX : \tab , C escape: \t
|
|
linjematning | U+000A | 10 | Är en radbrytning | Allmänning | Grundläggande latin |
Annat, kontroll |
LF, Linjematning . HTML/XML namngiven enhet: 
 , C escape: \n
|
||
linjetabell | U+000B | 11 | Är en radbrytning | Allmänning | Grundläggande latin |
Annat, kontroll |
VT, vertikal flik . C flykt: \v
|
||
form foder | U+000C | 12 | Är en radbrytning | Allmänning | Grundläggande latin |
Annat, kontroll |
FF, Form feed . C flykt: \f
|
||
vagnretur | U+000D | 13 | Är en radbrytning | Allmänning | Grundläggande latin |
Annat, kontroll |
CR, vagnretur . C flykt: \r
|
||
Plats | U+0020 | 32 | Ja | Nej | Allmänning | Grundläggande latin |
Separator, utrymme |
Vanligast (normalt ASCII-utrymme). LaTeX: \
|
|
nästa rad | U+0085 | 133 | Är en radbrytning | Allmänning | Latin-1 tillägg |
Annat, kontroll |
NEL, Nästa rad . LaTeX: \\
|
||
utrymme utan avbrott | U+00A0 | 160 | Nej | Nej | Allmänning |
Latin-1 tillägg |
Separator, utrymme |
Non-breaking space : identisk med U+0020, men inte en punkt där en linje kan brytas. HTML/XML namngiven enhet: ,   LaTeX: ~
|
|
ogham rymdmärke | U+1680 | 5760 | Ja | Nej | Ogham | Ogham |
Separator, utrymme |
Används för interordseparation i Ogham -text. Normalt en vertikal linje i vertikal text eller en horisontell linje i horisontell text, men kan också vara ett tomt utrymme i "stamlösa" typsnitt. Kräver ett Ogham-teckensnitt. | |
en quad | U+2000 | 8192 | Ja | Nej | Allmänning | Allmän interpunktion |
Separator, utrymme |
Bredd på en sv . U+2002 är kanoniskt ekvivalent med detta tecken; U+2002 är att föredra. | |
em quad | U+2001 | 8193 | Ja | Nej | Allmänning |
Allmän interpunktion |
Separator, utrymme |
Även känd som "fårkött quad". Bredd på ett em . U+2003 är kanoniskt ekvivalent med detta tecken; U+2003 är att föredra. | |
en space | U+2002 | 8194 | Ja | Nej | Allmänning |
Allmän interpunktion |
Separator, utrymme |
Även känd som "nöt". Bredd på en sv . U+2000 En Quad är kanoniskt ekvivalent med denna karaktär; U+2002 är att föredra. HTML/XML namngiven enhet:   , LaTeX: \enspace (LaTeX en space är ett no-break space) |
|
em utrymme | U+2003 | 8195 | Ja | Nej | Allmänning |
Allmän interpunktion |
Separator, utrymme |
Även känd som "fårkött". Bredd på en em . U+2001 Em Quad är kanoniskt ekvivalent med denna karaktär; U+2003 är att föredra. HTML/XML namngiven enhet:   , LaTeX: \quad
|
|
tre per em-utrymme | U+2004 | 8196 | Ja | Nej | Allmänning |
Allmän interpunktion |
Separator, utrymme |
Även känt som "tjockt utrymme". En tredjedel av en em bred. HTML/XML namngiven enhet:   , LaTeX: \; (det tjocka LaTeX-utrymmet är ett utrymme utan avbrott) |
|
fyra per em-utrymme | U+2005 | 8197 | Ja | Nej | Allmänning |
Allmän interpunktion |
Separator, utrymme |
Även känd som "mid space". En fjärdedel av en em bred. HTML/XML namngiven enhet:  
|
|
sex-per-em utrymme | U+2006 | 8198 | Ja | Nej | Allmänning |
Allmän interpunktion |
Separator, utrymme |
En sjättedel av en em bred. I datortypografi, ibland likställt med U+2009. | |
figurutrymme | U+2007 | 8199 | Nej | Nej | Allmänning |
Allmän interpunktion |
Separator, utrymme |
Figurutrymme . I teckensnitt med siffror med ett avstånd, lika med bredden på en siffra. HTML/XML namngiven enhet:  
|
|
interpunktion utrymme | U+2008 | 8200 | Ja | Nej | Allmänning |
Allmän interpunktion |
Separator, utrymme |
Lika bred som den smala interpunktionen i ett teckensnitt, dvs punktens eller kommateckens förskottsbredd. HTML/XML namngiven entitet:  
|
|
tunt utrymme | U+2009 | 8201 | Ja | Nej | Allmänning |
Allmän interpunktion |
Separator, utrymme |
Tunt utrymme ; en femtedel (ibland en sjättedel) av en em bred. Rekommenderas för användning som tusentalsavskiljare för mätningar gjorda med SI-enheter . Till skillnad från U+2002 till U+2008 kan dess bredd justeras vid typsättning. HTML/XML namngiven entitet:   ,   , LaTeX: \, (det tunna utrymmet i LaTeX är ett blanksteg utan avbrott) |
|
hårutrymme | U+200A | 8202 | Ja | Nej | Allmänning |
Allmän interpunktion |
Separator, utrymme |
Tunnare än ett tunt utrymme. HTML/XML namngiven entitet:     ( fungerar inte i alla webbläsare) |
|
linjeavskiljare | U+2028 | 8232 | Är en radbrytning | Allmänning |
Allmän interpunktion |
Separator, linje |
|||
styckeavskiljare | U+2029 | 8233 | Är en radbrytning | Allmänning |
Allmän interpunktion |
Avskiljare, paragraf |
|||
smalt fritt utrymme | U+202F | 8239 | Nej | Nej | Allmänning |
Allmän interpunktion |
Separator, utrymme |
Smal no-break utrymme . Liknande funktion till U+00A0 No-Break Space. När den används med mongoliska är dess bredd vanligtvis en tredjedel av det normala utrymmet; i andra sammanhang liknar dess bredd ibland det tunna utrymmet (U+2009). LaTeX: \,
|
|
medium matematiskt utrymme | U+205F | 8287 | Ja | Nej | Allmänning |
Allmän interpunktion |
Separator, utrymme |
MMSP. Används i matematiska formler. Fyra artondelar av en em. I matematisk typografi anges bredderna på mellanslag vanligtvis i heltalsmultiplar av en artondel av en em, och 4/18 em kan användas i flera situationer, till exempel mellan a och + och mellan + och b i uttryck a + b . HTML/XML namngiven entitet:   , LaTeX: \: (LaTeX-mellanrummet är ett utrymme utan avbrott) |
|
ideografiskt utrymme | U+3000 | 12288 | Ja | Nej | Allmänning | CJK-symboler och interpunktion |
Separator, utrymme |
Lika bred som en CJK- teckencell ( fullbredd ). Används till exempel i tai tou . |
namn | Kodpunkt | Bredd låda | Kan gå sönder ? |
I IDN ? |
Manus | Blockera |
Allmän kategori |
Anteckningar | |
---|---|---|---|---|---|---|---|---|---|
mongoliska vokalavskiljare | U+180E | 6158 | | Ja | Nej | mongoliska | mongoliska |
Annat, Format |
MVS. Ett smalt mellanslagstecken som används på mongoliska för att få de två sista tecknen i ett ord att anta olika former. Det är inte längre klassificerat som mellanslag (dvs i kategori Zs) i Unicode 6.3.0, även om det fanns i tidigare versioner av standarden. |
noll bredd utrymme | U+200B | 8203 | . | Ja | Nej | ? |
Allmän interpunktion |
Annat, Format |
ZWSP, noll bredd utrymme . Används för att indikera ordgränser för textbehandlingssystem när man använder skript som inte använder explicit mellanrum. Det liknar det mjuka bindestrecket , med skillnaden att det senare används för att ange stavelsegränser, och bör visa ett synligt bindestreck när raden bryter vid det. HTML/XML namngiven entitet : ​
|
noll bredd icke-fogare | U+200C | 8204 | | Ja | Kontextberoende | ? |
Allmän interpunktion |
Annat, Format |
ZWNJ, noll bredd icke-fogare . När de placeras mellan två tecken som annars skulle vara kopplade, gör en ZWNJ att de skrivs ut i sin slutliga respektive initiala form. HTML/XML namngiven entitet: ‌
|
noll bredd snickare | U+200D | 8205 | | Ja | Kontextberoende | ? |
Allmän interpunktion |
Annat, Format |
ZWJ, nollbreddsfog . När de placeras mellan två tecken som annars inte skulle vara kopplade, gör en ZWJ att de skrivs ut i deras sammankopplade former. Kan också användas för att visa sammanfogningsformulär isolerat. Beroende på om en ligatur eller konjunkt förväntas som standard, kan antingen inducera (som i emoji och i singalesiska ) eller undertrycka (som i Devanagari ) substitution med en enda glyf, samtidigt som det tillåter användning av individuella sammanfogningsformer (till skillnad från ZWNJ). HTML/XML namngiven entitet: ‍
|
ordsnickare | U+2060 | 8288 | | Nej | Nej | ? |
Allmän interpunktion |
Annat, Format |
WJ, ordfogare . Liknar U+200B, men inte en punkt där en linje kan brytas. HTML/XML namngiven entitet: ⁠
|
noll bredd icke-brytande utrymme | U+FEFF | 65279 | | Nej | Nej | ? | Arabiska presentationsformulär -B |
Annat, Format |
Noll bredd icke-brytande utrymme . Används främst som ett byteordermärke . Användning som en indikation på att den inte går sönder är utfasad från och med Unicode 3.2; se U+2060 istället. |
Andra allmänna egenskaper
Ideografisk, alfabetisk, icke-karaktär.
Kombinera klass
Några vanliga koder:
- 0 = mellanrumsbokstav, symbol eller modifierare (t.ex. a, (, ʰ)
- 1 = överlägg
- 6 = Han-läsning (CJK diakritiska läsmärken)
- 7 = nukta (diakritiska nukta i brahmiska skrifter )
- 8 = kana-stämmande tecken
- 9 = virama
10–199 = olika fasta befattningsklasser
Märken som fästs på grundbokstaven:
- 200 = fäst längst ner till vänster
- 202 = fäst direkt under (t.ex. cedilla på ç)
- 204 = fäst längst ner till höger
- 208 = fäst till vänster
- 210 = fäst till höger
- 212 = fäst längst upp till vänster
- 214 = fäst direkt ovanför
- 216 = fäst längst upp till höger
Märken som inte fästs på grundbokstaven:
- 218 = nedre vänster
- 220 = direkt under (t.ex. ring på n̥)
- 222 = under höger
- 224 = vänster
- 226 = höger
- 228 = över vänster
- 230 = ovan (t.ex. akut accent på á)
- 232 = ovanför höger
- 233 = dubbelt under (underlägger två baser )
- 234 = dubbelt över (förlänger två baser)
- 240 = iota nedsänkt (endast den grekiska diakritiken)
Formning, bredd.
Dubbelriktad skrift
Sex teckenegenskaper hänför sig till dubbelriktad skrivning: Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket och Bidi_Paired_Bracket_Type.
En av Unicodes viktigaste funktioner är stöd för dubbelriktad ( Bidi ) textvisning höger till vänster (R-till-L) och vänster till höger (L-till-R). Unicode Bidirectional Algorithm UAX9 beskriver processen att presentera text med ändrade skriptriktningar. Det möjliggör till exempel ett hebreiskt citat i en engelsk text. Bidi_Character_Type markerar en karaktärs beteende i riktningsskrivande. För att åsidosätta en riktning har Unicode definierat speciella formateringskontrolltecken ( Bidi-Control s). Dessa tecken kan framtvinga en riktning, och per definition påverkar endast dubbelriktad skrift.
Varje kodpunkt har en egenskap som heter Bidi_Class . Den definierar dess beteende i en dubbelriktad text som tolkas av algoritmen:
Typ | Beskrivning | Styrka | Riktningsförmåga | Allmänt omfattning | Bidi_Control karaktär |
---|---|---|---|---|---|
L | Vänster till höger | Stark | L-till-R | De flesta alfabetiska och syllabiska tecken, kinesiska tecken, icke-europeiska eller icke-arabiska siffror, LRM-tecken, ... | U+200E VÄNSTER-TILL-HÖGER MARK (LRM) |
R | Höger till vänster | Stark | R-till-L | Adlam, hebreiska, Mandaic, Mende Kikakui, N'Ko, Samaritan, antika manus som Kharoshthi och Nabataean, RLM-karaktär, ... | U+200F HÖGER TILL VÄNSTER MARK (RLM) |
AL | Arabiskt brev | Stark | R-till-L | Arabiska, Hanifi Rohingya, Sogdian, Syriska och Thaana alfabet, och de flesta skiljetecken som är specifika för dessa skript, ALM-tecken, ... | U+061C ARABISK BOKSTAVSMÄRKE (ALM) |
SV | Europeiskt nummer | Svag | Europeiska siffror, östarabiska-indiska siffror, koptiska epaktnummer, ... | ||
ES | Europeisk separator | Svag | plustecken , minustecken , ... | ||
ET | European Number Terminator | Svag | gradtecken , valutasymboler, ... | ||
EN | Arabiskt nummer | Svag | Arabiska-indiska siffror, arabiska decimaler och tusentalsavgränsare, Rumi-siffror, Hanifi Rohingya-siffror, ... | ||
CS | Gemensam nummeravskiljare | Svag | kolon , komma , punkt , no-break blanksteg , ... | ||
NSM | Nonspace Mark | Svag | Tecken i allmänna kategorier Mark, nonspace, och Mark, omslutande (Mn, Me) | ||
BN | Gränsneutral | Svag | Standard ignorables, icke-tecken, kontrolltecken andra än de som uttryckligen ges andra typer | ||
B | Styckeavskiljare | Neutral | styckeavgränsare , lämpliga nyradsfunktioner, protokollbestämning på högre nivå | ||
S | Segmentavskiljare | Neutral | Flikar | ||
WS | Whitespace | Neutral | blanksteg , siffror , radavgränsare , formulärmatning , Allmänt Interpunktionsblockmellanslag (mindre uppsättning än Unicodes blankstegslista ) | ||
PÅ | Andra neutrala | Neutral | Alla andra tecken, inklusive objektersättningstecken | ||
LRE | Vänster till höger inbäddning | Explicit | L-till-R | Endast LRE-tecken | U+202A VÄNSTER-TILL-HÖGER INBÄDDNING (LRE) |
LRO | Åsidosätt vänster till höger | Explicit | L-till-R | Endast LRO-tecken | U+202D VÄNSTER-TILL-HÖGER OVERRID (LRO) |
RLE | Inbäddning från höger till vänster | Explicit | R-till-L | Endast RLE-tecken | U+202B HÖGER TILL VÄNSTER INBÄDDNING (RLE) |
RLO | Åsidosätt höger till vänster | Explicit | R-till-L | Endast RLO-tecken | U+202E HÖGER-TILL-VÄNSTER ÅSNITTERING (RLO) |
Pop Riktningsformat | Explicit | Endast PDF-tecken | U+202C POP RIKTNINGSFORMATERING (PDF) | ||
LRI | Isolera från vänster till höger | Explicit | L-till-R | Endast LRI-tecken | U+2066 VÄNSTER-TILL-HÖGER ISOLATER (LRI) |
RLI | Isolera från höger till vänster | Explicit | R-till-L | Endast RLI-tecken | U+2067 HÖGER TILL VÄNSTER ISOLATER (RLI) |
FSI | Första starka isolatet | Explicit | Endast FSI-tecken | U+2068 FIRST STRONG ISOLATE (FSI) | |
PDI | Pop Riktningsisolering | Explicit | Endast PDI-tecken | U+2069 POP DIRECTIONAL ISOLATE (PDI) | |
Noteringar
|
I normala situationer kan algoritmen bestämma riktningen för en text genom denna teckenegenskap. För att kontrollera mer komplexa Bidi-situationer, t.ex. när en engelsk text har ett hebreiskt citat, läggs extra alternativ till i Unicode. Tolv tecken har egenskapen Bidi_Control=Ja : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM och RLO enligt tabellen. Dessa är osynliga formateringskontrolltecken som endast används av algoritmen och utan effekt utanför dubbelriktad formatering. Trots namnet är de formaterande tecken, inte kontrolltecken, och har den allmänna kategorin "Övrigt, format (Cf)" i Unicode-definitionen.
I grund och botten bestämmer algoritmen en sekvens av tecken med samma starka riktningstyp (R-to-L eller L-to-R), med hänsyn till en överstyrning av de speciella Bidi-kontrollerna. Nummersträngar (svaga typer) tilldelas en riktning enligt deras starka miljö, liksom neutrala tecken. Slutligen visas tecknen i en strängs riktning.
Två teckenegenskaper är relevanta för att bestämma en spegelbild av en glyf i dubbelriktad text: Bidi_Mirrored=Ja anger att glyfen ska speglas när den skrivs R-till-L. Egenskapen Bidi_Mirroring_Glyph=U+ hhhh kan sedan peka på det speglade tecknet. Till exempel speglas parenteser "()" på detta sätt. Att forma kursiva skript som arabiska och spegla glyfer som har en riktning är inte en del av algoritmen.
Hölje
Case-värdet är normativt i Unicode. Det hänför sig till de skript med versaler (aka versaler, majuscule) och gemener (aka små, minuscule) bokstäver. Case-skillnad förekommer i adlam, armeniska, cherokee, koptiska, kyrilliska, deseret, glagolitiska, grekiska, khutsuri och mkhedruli georgiska, latinska, medefaidrinska, gamla ungerska, osage, Vithkuqi och Warang Citi skrifter.
(övre, nedre, titel, vikning – både enkel och full)
Numeriska värden och typer
Decimal
Tecken klassificeras med en numerisk typ . Tecken som bråk, nedsänkta, upphöjda, romerska siffror, valutatäljare, inringade siffror och skriftspecifika siffror är typ numeriska. De har ett numeriskt värde som kan vara decimalt, inklusive noll och negativ, eller en vulgär bråkdel. Om det inte finns ett sådant värde, som med de flesta tecken, är den numeriska typen "Ingen".
De tecken som har ett numeriskt värde är separerade i tre grupper: Decimal (De), Digit (Di) och Numerisk (Nu, dvs alla andra). "Decimal" betyder att tecknet är en rak decimalsiffra. Endast tecken som ingår i ett angränsande kodat område 0..9 har numerisk typ Decimal. Andra siffror, som upphöjda siffror, har numerisk typ siffra. Alla numeriska tecken som bråk och romerska siffror slutar med typen "Numeriska". Den avsedda effekten är att en enkel parser kan använda dessa decimala numeriska värden, utan att distraheras av t.ex. en numerisk upphöjd eller bråkdel. Sjuttiotre CJK Ideographs som representerar ett nummer, inklusive de som används för redovisning, är skrivna numeriska.
Å andra sidan är tecken som kan ha ett numeriskt värde som en andra betydelse fortfarande märkta med numerisk typ "Inget" och har inget numeriskt värde (""). Till exempel kan latinska bokstäver användas i styckenumrering som "II.A.1.b", men bokstäverna "I", "A" och "b" är inte numeriska (typ "Inga") och har inget numeriskt värde.
Numerisk typ ( Unicode teckenegenskap ) | ||||
---|---|---|---|---|
Numerisk typ | Koda | Har ett numeriskt värde | Exempel | Anmärkningar |
Inte numeriskt | <none> |
Nej |
|
Numeriskt värde="NaN" |
Decimal | De |
Ja |
|
Rak siffra (decimalradix ) . Motsvarar båda sätten med General Category =Nd |
Siffra | Di |
Ja |
|
Decimal, men i typografisk kontext |
Numerisk | Nu |
Ja |
|
Numeriskt värde, men inte decimalradix |
a. ^ "Avsnitt 4.6: Numeriskt värde" (PDF) . Unicode-standarden . Unicode-konsortiet. september 2022. | ||||
b. ^ "Unicode 15.0 härledda numeriska typer" . Unicode-teckendatabas . Unicode-konsortiet. 2022-02-26. |
Hexadecimala siffror
Hexadecimala tecken är de i serien med hexadecimala värden 0...9ABCDEF (sexton tecken, decimalvärde 0–15). Teckenegenskapen Hex_Digit är inställd på Yes när ett tecken finns i en sådan serie:
Tecken i Unicode märkta Hex_Digit=Ja
|
|||
---|---|---|---|
0123456789ABCDEF |
Grundläggande latin, versaler | Även ASCII_Hex_Digit=Ja
|
|
0123456789abcdef |
Grundläggande latin, små bokstäver | Även ASCII_Hex_Digit=Ja
|
|
0123456789ABCDEF |
Fullbreddsformer , versaler | ||
0123456789abcdef |
Fullbreddsformulär, små bokstäver | ||
a. ^ "Unicode 15.0 UCD: PropList.txt" . 2022-08-05 . Hämtad 2022-09-16 . |
Fyrtiofyra tecken är markerade som Hex_Digit. De i Basic Latin-blocket är också markerade som ASCII_Hex_Digit .
Unicode har inga separata tecken för hexadecimala värden. En konsekvens är att när man använder vanliga tecken är det inte möjligt att avgöra om hexadecimalt värde är avsett, eller ens om ett värde alls är avsett. Det bör bestämmas på en högre nivå, t.ex. genom att lägga "0x" till ett hexadecimalt tal eller genom sammanhang. Den enda funktionen är att Unicode kan notera att en sekvens kan eller inte kan vara ett hexadecimalt värde.
Blockera
Ett block är ett unikt namngivet, sammanhängande område av kodpunkter. Den identifieras av dess första och sista kodpunkt. överlappar inte varandra . Ett block kan innehålla kodpunkter som är reserverade, ej tilldelade, etc. Varje tecken som tilldelas har ett enda "blocknamn"-värde bland de 327 namnen som tilldelats i Unicode version 15.0. Otilldelade kodpunkter utanför ett befintligt block har standardvärdet "No_block".
Plan | Block räckvidd | Blocknamn | Kodpunkter | Tilldelade karaktärer | Manus |
---|---|---|---|---|---|
0 BMP | U+0000..U+007F | Grundläggande latin | 128 | 128 | Latin (52 tecken), Vanligt (76 tecken) |
0 BMP | U+0080..U+00FF | Latin-1 tillägg | 128 | 128 | Latin (64 tecken), Vanligt (64 tecken) |
0 BMP | U+0100..U+017F | Latin Extended-A | 128 | 128 | latin |
0 BMP | U+0180..U+024F | Latin Extended-B | 208 | 208 | latin |
0 BMP | U+0250..U+02AF | IPA-tillägg | 96 | 96 | latin |
0 BMP | U+02B0..U+02FF | Avståndsmodifierare bokstäver | 80 | 80 | Bopomofo (2 tecken), Latin (14 tecken), Common (64 tecken) |
0 BMP | U+0300..U+036F | Kombinera diakritiska tecken | 112 | 112 | Ärvt |
0 BMP | U+0370..U+03FF | grekiska och koptiska | 144 | 135 | koptiskt (14 tecken), grekiska (117 tecken), vanligt (4 tecken) |
0 BMP | U+0400..U+04FF | Kyrillisk | 256 | 256 | Kyrillisk (254 tecken), ärvd (2 tecken) |
0 BMP | U+0500..U+052F | Kyrilliska tillägg | 48 | 48 | Kyrillisk |
0 BMP | U+0530..U+058F | armeniska | 96 | 91 | armeniska |
0 BMP | U+0590..U+05FF | hebreiska | 112 | 88 | hebreiska |
0 BMP | U+0600..U+06FF | arabiska | 256 | 256 | Arabiska (238 tecken), Vanlig (6 tecken), Ärvd (12 tecken) |
0 BMP | U+0700..U+074F | syrisk | 80 | 77 | syrisk |
0 BMP | U+0750..U+077F | Arabiska tillägg | 48 | 48 | arabiska |
0 BMP | U+0780..U+07BF | Thaana | 64 | 50 | Thaana |
0 BMP | U+07C0..U+07FF | NKo | 64 | 62 | Nko |
0 BMP | U+0800..U+083F | samarit | 64 | 61 | samarit |
0 BMP | U+0840..U+085F | Mandaic | 32 | 29 | Mandaic |
0 BMP | U+0860..U+086F | Syrisk tillägg | 16 | 11 | syrisk |
0 BMP | U+0870..U+089F | Arabiska Extended-B | 48 | 41 | arabiska |
0 BMP | U+08A0..U+08FF | Arabiska Extended-A | 96 | 96 | Arabiska (95 tecken), Vanligt (1 tecken) |
0 BMP | U+0900..U+097F | Devanagari | 128 | 128 | Devanagari (122 tecken), Common (2 tecken), Inherited (4 tecken) |
0 BMP | U+0980..U+09FF | bengaliska | 128 | 96 | bengaliska |
0 BMP | U+0A00..U+0A7F | Gurmukhi | 128 | 80 | Gurmukhi |
0 BMP | U+0A80..U+0AFF | Gujarati | 128 | 91 | Gujarati |
0 BMP | U+0B00..U+0B7F | Oriya | 128 | 91 | Oriya |
0 BMP | U+0B80..U+0BFF | Tamil | 128 | 72 | Tamil |
0 BMP | U+0C00..U+0C7F | Telugu | 128 | 100 | Telugu |
0 BMP | U+0C80..U+0CFF | Kannada | 128 | 91 | Kannada |
0 BMP | U+0D00..U+0D7F | Malayalam | 128 | 118 | Malayalam |
0 BMP | U+0D80..U+0DFF | singalesiska | 128 | 91 | singalesiska |
0 BMP | U+0E00..U+0E7F | Thai | 128 | 87 | Thai (86 tecken), Vanligt (1 tecken) |
0 BMP | U+0E80..U+0EFF | Lao | 128 | 83 | Lao |
0 BMP | U+0F00..U+0FFF | tibetanska | 256 | 211 | Tibetansk (207 tecken), Vanlig (4 tecken) |
0 BMP | U+1000..U+109F | Myanmar | 160 | 160 | Myanmar |
0 BMP | U+10A0..U+10FF | georgiska | 96 | 88 | georgisk (87 tecken), vanlig (1 tecken) |
0 BMP | U+1100..U+11FF | Hangul Jamo | 256 | 256 | Hangul |
0 BMP | U+1200..U+137F | etiopiska | 384 | 358 | etiopiska |
0 BMP | U+1380..U+139F | Etiopiskt tillägg | 32 | 26 | etiopiska |
0 BMP | U+13A0..U+13FF | Cherokee | 96 | 92 | Cherokee |
0 BMP | U+1400..U+167F | Enade kanadensiska aboriginska syllabics | 640 | 640 | Kanadensisk aborigin |
0 BMP | U+1680..U+169F | Ogham | 32 | 29 | Ogham |
0 BMP | U+16A0..U+16FF | Run | 96 | 89 | Runisk (86 tecken), Vanlig (3 tecken) |
0 BMP | U+1700..U+171F | Tagalog | 32 | 23 | Tagalog |
0 BMP | U+1720..U+173F | Hanunoo | 32 | 23 | Hanunoo (21 tecken), Common (2 tecken) |
0 BMP | U+1740..U+175F | Buhid | 32 | 20 | Buhid |
0 BMP | U+1760..U+177F | Tagbanwa | 32 | 18 | Tagbanwa |
0 BMP | U+1780..U+17FF | Khmer | 128 | 114 | Khmer |
0 BMP | U+1800..U+18AF | mongoliska | 176 | 158 | mongoliska (155 tecken), vanlig (3 tecken) |
0 BMP | U+18B0..U+18FF | Unified Canadian Aboriginal Syllabics Extended | 80 | 70 | Kanadensisk aborigin |
0 BMP | U+1900..U+194F | Limbu | 80 | 68 | Limbu |
0 BMP | U+1950..U+197F | Tai Le | 48 | 35 | Tai Le |
0 BMP | U+1980..U+19DF | Nya Tai Lue | 96 | 83 | Nya Tai Lue |
0 BMP | U+19E0..U+19FF | Khmer symboler | 32 | 32 | Khmer |
0 BMP | U+1A00..U+1A1F | Buginesiska | 32 | 30 | Buginesiska |
0 BMP | U+1A20..U+1AAF | Tai Tham | 144 | 127 | Tai Tham |
0 BMP | U+1AB0..U+1AFF | Kombinera diakritiska märken utökade | 80 | 31 | Ärvt |
0 BMP | U+1B00..U+1B7F | balinesiska | 128 | 124 | balinesiska |
0 BMP | U+1B80..U+1BBF | Sundanesiska | 64 | 64 | Sundanesiska |
0 BMP | U+1BC0..U+1BFF | Batak | 64 | 56 | Batak |
0 BMP | U+1C00..U+1C4F | Lepcha | 80 | 74 | Lepcha |
0 BMP | U+1C50..U+1C7F | Ol Chiki | 48 | 48 | Ol Chiki |
0 BMP | U+1C80..U+1C8F | Cyrillic Extended-C | 16 | 9 | Kyrillisk |
0 BMP | U+1C90..U+1CBF | Georgian Extended | 48 | 46 | georgiska |
0 BMP | U+1CC0..U+1CCF | Sundanesiska tillägg | 16 | 8 | Sundanesiska |
0 BMP | U+1CD0..U+1CFF | Vediska förlängningar | 48 | 43 | Vanlig (16 tecken), ärvd (27 tecken) |
0 BMP | U+1D00..U+1D7F | Fonetiska tillägg | 128 | 128 | Kyrilliska (2 tecken), grekiska (15 tecken), latinska (111 tecken) |
0 BMP | U+1D80..U+1DBF | Fonetiska tilläggstillägg | 64 | 64 | grekiska (1 tecken), latinsk (63 tecken) |
0 BMP | U+1DC0..U+1DFF | Kombination av diakritiska märken | 64 | 64 | Ärvt |
0 BMP | U+1E00..U+1EFF | Latin Extended Extra | 256 | 256 | latin |
0 BMP | U+1F00..U+1FFF | Grekiska förlängd | 256 | 233 | grekisk |
0 BMP | U+2000..U+206F | Allmän interpunktion | 112 | 111 | Vanlig (109 tecken), ärvd (2 tecken) |
0 BMP | U+2070..U+209F | Upphöjda och nedskrivna | 48 | 42 | Latin (15 tecken), Vanligt (27 tecken) |
0 BMP | U+20A0..U+20CF | Valutasymboler | 48 | 33 | Allmänning |
0 BMP | U+20D0..U+20FF | Kombinera diakritiska tecken för symboler | 48 | 33 | Ärvt |
0 BMP | U+2100..U+214F | Bokstavsliknande symboler | 80 | 80 | grekiska (1 tecken), latinsk (4 tecken), vanlig (75 tecken) |
0 BMP | U+2150..U+218F | Nummerformulär | 64 | 60 | Latin (41 tecken), Vanligt (19 tecken) |
0 BMP | U+2190..U+21FF | Pilar | 112 | 112 | Allmänning |
0 BMP | U+2200..U+22FF | Matematiska operatörer | 256 | 256 | Allmänning |
0 BMP | U+2300..U+23FF | Diverse tekniska | 256 | 256 | Allmänning |
0 BMP | U+2400..U+243F | Styr bilder | 64 | 39 | Allmänning |
0 BMP | U+2440..U+245F | Optisk teckenigenkänning | 32 | 11 | Allmänning |
0 BMP | U+2460..U+24FF | Bifogade alfanumerik | 160 | 160 | Allmänning |
0 BMP | U+2500..U+257F | Lådteckning | 128 | 128 | Allmänning |
0 BMP | U+2580..U+259F | Blockelement | 32 | 32 | Allmänning |
0 BMP | U+25A0..U+25FF | Geometriska former | 96 | 96 | Allmänning |
0 BMP | U+2600..U+26FF | Diverse symboler | 256 | 256 | Allmänning |
0 BMP | U+2700..U+27BF | Dingbats | 192 | 192 | Allmänning |
0 BMP | U+27C0..U+27EF | Diverse matematiska symboler-A | 48 | 48 | Allmänning |
0 BMP | U+27F0..U+27FF | Kompletterande pilar-A | 16 | 16 | Allmänning |
0 BMP | U+2800..U+28FF | Punktskriftsmönster | 256 | 256 | Blindskrift |
0 BMP | U+2900..U+297F | Kompletterande pilar-B | 128 | 128 | Allmänning |
0 BMP | U+2980..U+29FF | Diverse matematiska symboler-B | 128 | 128 | Allmänning |
0 BMP | U+2A00..U+2AFF | Kompletterande matematiska operatorer | 256 | 256 | Allmänning |
0 BMP | U+2B00..U+2BFF | Diverse symboler och pilar | 256 | 253 | Allmänning |
0 BMP | U+2C00..U+2C5F | Glagolitisk | 96 | 96 | Glagolitisk |
0 BMP | U+2C60..U+2C7F | Latin Extended-C | 32 | 32 | latin |
0 BMP | U+2C80..U+2CFF | koptisk | 128 | 123 | koptisk |
0 BMP | U+2D00..U+2D2F | Georgiskt tillägg | 48 | 40 | georgiska |
0 BMP | U+2D30..U+2D7F | Tifinagh | 80 | 59 | Tifinagh |
0 BMP | U+2D80..U+2DDF | Etiopiskt förlängt | 96 | 79 | etiopiska |
0 BMP | U+2DE0..U+2DFF | Cyrillic Extended-A | 32 | 32 | Kyrillisk |
0 BMP | U+2E00..U+2E7F | Kompletterande interpunktion | 128 | 94 | Allmänning |
0 BMP | U+2E80..U+2EFF | CJK Radicals Supplement | 128 | 115 | Han |
0 BMP | U+2F00..U+2FDF | Kangxi radikaler | 224 | 214 | Han |
0 BMP | U+2FF0..U+2FFF | Ideografisk beskrivning Tecken | 16 | 12 | Allmänning |
0 BMP | U+3000..U+303F | CJK-symboler och interpunktion | 64 | 64 | Han (15 tecken), Hangul (2 tecken), Common (43 tecken), Inherited (4 tecken) |
0 BMP | U+3040..U+309F | Hiragana | 96 | 93 | Hiragana (89 tecken), Common (2 tecken), Inherited (2 tecken) |
0 BMP | U+30A0..U+30FF | Katakana | 96 | 96 | Katakana (93 tecken), Common (3 tecken) |
0 BMP | U+3100..U+312F | Bopomofo | 48 | 43 | Bopomofo |
0 BMP | U+3130..U+318F | Hangul-kompatibilitet Jamo | 96 | 94 | Hangul |
0 BMP | U+3190..U+319F | Kanbun | 16 | 16 | Allmänning |
0 BMP | U+31A0..U+31BF | Bopomofo Extended | 32 | 32 | Bopomofo |
0 BMP | U+31C0..U+31EF | CJK Strokes | 48 | 36 | Allmänning |
0 BMP | U+31F0..U+31FF | Katakana fonetiska tillägg | 16 | 16 | Katakana |
0 BMP | U+3200..U+32FF | Bifogade CJK-brev och månader | 256 | 255 | Hangul (62 tecken), Katakana (47 tecken), Common (146 tecken) |
0 BMP | U+3300..U+33FF | CJK-kompatibilitet | 256 | 256 | Katakana (88 tecken), Common (168 tecken) |
0 BMP | U+3400..U+4DBF | CJK Unified Ideographs Extension A | 6,592 | 6,592 | Han |
0 BMP | U+4DC0..U+4DFF | Yijing hexagramsymboler | 64 | 64 | Allmänning |
0 BMP | U+4E00..U+9FFF | CJK Unified Ideographs | 20 992 | 20 992 | Han |
0 BMP | U+A000..U+A48F | Yi stavelser | 1,168 | 1 165 | Yi |
0 BMP | U+A490..U+A4CF | Yi radikaler | 64 | 55 | Yi |
0 BMP | U+A4D0..U+A4FF | Lisu | 48 | 48 | Lisu |
0 BMP | U+A500..U+A63F | Vai | 320 | 300 | Vai |
0 BMP | U+A640..U+A69F | Cyrillic Extended-B | 96 | 96 | Kyrillisk |
0 BMP | U+A6A0..U+A6FF | Bamum | 96 | 88 | Bamum |
0 BMP | U+A700..U+A71F | Modifier Tone Bokstäver | 32 | 32 | Allmänning |
0 BMP | U+A720..U+A7FF | Latin Extended-D | 224 | 193 | Latin (188 tecken), Vanligt (5 tecken) |
0 BMP | U+A800..U+A82F | Syloti Nagri | 48 | 45 | Syloti Nagri |
0 BMP | U+A830..U+A83F | Vanliga indiska nummerformer | 16 | 10 | Allmänning |
0 BMP | U+A840..U+A87F | Phags-pa | 64 | 56 | Phags Pa |
0 BMP | U+A880..U+A8DF | Saurashtra | 96 | 82 | Saurashtra |
0 BMP | U+A8E0..U+A8FF | Devanagari Extended | 32 | 32 | Devanagari |
0 BMP | U+A900..U+A92F | Kayah Li | 48 | 48 | Kayah Li (47 tecken), Common (1 tecken) |
0 BMP | U+A930..U+A95F | Rejang | 48 | 37 | Rejang |
0 BMP | U+A960..U+A97F | Hangul Jamo Extended-A | 32 | 29 | Hangul |
0 BMP | U+A980..U+A9DF | javanesiska | 96 | 91 | Javanesiska (90 tecken), Vanligt (1 tecken) |
0 BMP | U+A9E0..U+A9FF | Myanmar Extended-B | 32 | 31 | Myanmar |
0 BMP | U+AA00..U+AA5F | Cham | 96 | 83 | Cham |
0 BMP | U+AA60..U+AA7F | Myanmar Extended-A | 32 | 32 | Myanmar |
0 BMP | U+AA80..U+AADF | Tai Viet | 96 | 72 | Tai Viet |
0 BMP | U+AAE0..U+AAFF | Meetei Mayek Extensions | 32 | 23 | Meetei Mayek |
0 BMP | U+AB00..U+AB2F | Ethiopic Extended-A | 48 | 32 | etiopiska |
0 BMP | U+AB30..U+AB6F | Latin Extended-E | 64 | 60 | Latin (56 tecken), grekiska (1 tecken), Vanligt (3 tecken) |
0 BMP | U+AB70..U+ABBF | Cherokee tillägg | 80 | 80 | Cherokee |
0 BMP | U+ABC0..U+ABFF | Meetei Mayek | 64 | 56 | Meetei Mayek |
0 BMP | U+AC00..U+D7AF | Hangul stavelser | 11,184 | 11,172 | Hangul |
0 BMP | U+D7B0..U+D7FF | Hangul Jamo Extended-B | 80 | 72 | Hangul |
0 BMP | U+D800..U+DB7F | Höga surrogat | 896 | 0 | Okänd |
0 BMP | U+DB80..U+DBFF | Surrogat med hög privat användning | 128 | 0 | Okänd |
0 BMP | U+DC00..U+DFFF | Låga surrogat | 1 024 | 0 | Okänd |
0 BMP | U+E000..U+F8FF | Privat användningsområde | 6 400 | 6 400 | Okänd |
0 BMP | U+F900..U+FAFF | CJK-kompatibilitetsideografer | 512 | 472 | Han |
0 BMP | U+FB00..U+FB4F | Alfabetiska presentationsformulär | 80 | 58 | armeniska (5 tecken), hebreiska (46 tecken), latinska (7 tecken) |
0 BMP | U+FB50..U+FDFF | Arabiska presentationsformulär-A | 688 | 631 | Arabiska (629 tecken), Vanlig (2 tecken) |
0 BMP | U+FE00..U+FE0F | Variationsväljare | 16 | 16 | Ärvt |
0 BMP | U+FE10..U+FE1F | Vertikala former | 16 | 10 | Allmänning |
0 BMP | U+FE20..U+FE2F | Kombinera halva markeringar | 16 | 16 | Kyrillisk (2 tecken), ärvd (14 tecken) |
0 BMP | U+FE30..U+FE4F | CJK-kompatibilitetsformulär | 32 | 32 | Allmänning |
0 BMP | U+FE50..U+FE6F | Små varianter | 32 | 26 | Allmänning |
0 BMP | U+FE70..U+FEFF | Arabiska presentationsformulär-B | 144 | 141 | Arabiska (140 tecken), Vanligt (1 tecken) |
0 BMP | U+FF00..U+FFEF | Halvbredds- och fullbreddsformulär | 240 | 225 | Hangul (52 tecken), Katakana (55 tecken), Latin (52 tecken), Common (66 tecken) |
0 BMP | U+FFF0..U+FFFF | Specialerbjudanden | 16 | 5 | Allmänning |
1 SMP | U+10000..U+1007F | Linjär B Syllabary | 128 | 88 | Linjär B |
1 SMP | U+10080..U+100FF | Linjära B-ideogram | 128 | 123 | Linjär B |
1 SMP | U+10100..U+1013F | Egeiska siffror | 64 | 57 | Allmänning |
1 SMP | U+10140..U+1018F | Forntida grekiska siffror | 80 | 79 | grekisk |
1 SMP | U+10190..U+101CF | Gamla symboler | 64 | 14 | Grekiska (1 tecken), Vanligt (13 tecken) |
1 SMP | U+101D0..U+101FF | Phaistos skiva | 48 | 46 | Vanlig (45 tecken), ärvd (1 tecken) |
1 SMP | U+10280..U+1029F | Lycian | 32 | 29 | Lycian |
1 SMP | U+102A0..U+102DF | Carian | 64 | 49 | Carian |
1 SMP | U+102E0..U+102FF | Koptiska Epact Numbers | 32 | 28 | Vanlig (27 tecken), ärvd (1 tecken) |
1 SMP | U+10300..U+1032F | Gammal kursiv | 48 | 39 | Gammal kursiv |
1 SMP | U+10330..U+1034F | Gotiska | 32 | 27 | Gotiska |
1 SMP | U+10350..U+1037F | Gammal Permic | 48 | 43 | Gammal Permic |
1 SMP | U+10380..U+1039F | Ugaritisk | 32 | 31 | Ugaritisk |
1 SMP | U+103A0..U+103DF | Gammal persiska | 64 | 50 | Gammal persiska |
1 SMP | U+10400..U+1044F | Deseret | 80 | 80 | Deseret |
1 SMP | U+10450..U+1047F | Shavian | 48 | 48 | Shavian |
1 SMP | U+10480..U+104AF | Osmanya | 48 | 40 | Osmanya |
1 SMP | U+104B0..U+104FF | Osage | 80 | 72 | Osage |
1 SMP | U+10500..U+1052F | Elbasan | 48 | 40 | Elbasan |
1 SMP | U+10530..U+1056F | kaukasiska albanska | 64 | 53 | kaukasiska albanska |
1 SMP | U+10570..U+105BF | Vithkuqi | 80 | 70 | Vithkuqi |
1 SMP | U+10600..U+1077F | Linjär A | 384 | 341 | Linjär A |
1 SMP | U+10780..U+107BF | Latin Extended-F | 64 | 57 | latin |
1 SMP | U+10800..U+1083F | Cypriotiska kursplan | 64 | 55 | Cypriot |
1 SMP | U+10840..U+1085F | Imperialistisk arameiska | 32 | 31 | Imperialistisk arameiska |
1 SMP | U+10860..U+1087F | Palmyrene | 32 | 32 | Palmyrene |
1 SMP | U+10880..U+108AF | nabateisk | 48 | 40 | nabateisk |
1 SMP | U+108E0..U+108FF | Hatran | 32 | 26 | Hatran |
1 SMP | U+10900..U+1091F | feniciska | 32 | 29 | feniciska |
1 SMP | U+10920..U+1093F | Lydian | 32 | 27 | Lydian |
1 SMP | U+10980..U+1099F | Meroitiska hieroglyfer | 32 | 32 | Meroitiska hieroglyfer |
1 SMP | U+109A0..U+109FF | Meroitisk kursiv | 96 | 90 | Meroitisk kursiv |
1 SMP | U+10A00..U+10A5F | Kharoshthi | 96 | 68 | Kharoshthi |
1 SMP | U+10A60..U+10A7F | Gammal sydarabisk | 32 | 32 | Gammal sydarabisk |
1 SMP | U+10A80..U+10A9F | Gamla nordarabiska | 32 | 32 | Gamla nordarabiska |
1 SMP | U+10AC0..U+10AFF | Manichaean | 64 | 51 | Manichaean |
1 SMP | U+10B00..U+10B3F | Avestan | 64 | 61 | Avestan |
1 SMP | U+10B40..U+10B5F | Inskriptionsparthian | 32 | 30 | Inskriptionsparthian |
1 SMP | U+10B60..U+10B7F | Inskriptionspahlavi | 32 | 27 | Inskriptionspahlavi |
1 SMP | U+10B80..U+10BAF | Psalter Pahlavi | 48 | 29 | Psalter Pahlavi |
1 SMP | U+10C00..U+10C4F | Gammalt turkiskt | 80 | 73 | Gammalt turkiskt |
1 SMP | U+10C80..U+10CFF | Gammal ungerska | 128 | 108 | Gammal ungerska |
1 SMP | U+10D00..U+10D3F | Hanifi Rohingya | 64 | 50 | Hanifi Rohingya |
1 SMP | U+10E60..U+10E7F | Rumi siffersymboler | 32 | 31 | arabiska |
1 SMP | U+10E80..U+10EBF | Yezidi | 64 | 47 | Yezidi |
1 SMP | U+10EC0..U+10EFF | Arabiska Extended-C | 64 | 3 | arabiska |
1 SMP | U+10F00..U+10F2F | Gamla Sogdian | 48 | 40 | Gamla Sogdian |
1 SMP | U+10F30..U+10F6F | Sogdian | 64 | 42 | Sogdian |
1 SMP | U+10F70..U+10FAF | Gamla uiguriska | 64 | 26 | Gamla uiguriska |
1 SMP | U+10FB0..U+10FDF | Chorasmian | 48 | 28 | Chorasmian |
1 SMP | U+10FE0..U+10FFF | Elymaic | 32 | 23 | Elymaic |
1 SMP | U+11000..U+1107F | Brahmi | 128 | 115 | Brahmi |
1 SMP | U+11080..U+110CF | Kaithi | 80 | 68 | Kaithi |
1 SMP | U+110D0..U+110FF | Sora Sompeng | 48 | 35 | Sora Sompeng |
1 SMP | U+11100..U+1114F | Chakma | 80 | 71 | Chakma |
1 SMP | U+11150..U+1117F | Mahajani | 48 | 39 | Mahajani |
1 SMP | U+11180..U+111DF | Sharada | 96 | 96 | Sharada |
1 SMP | U+111E0..U+111FF | Sinhala arkaiska siffror | 32 | 20 | singalesiska |
1 SMP | U+11200..U+1124F | Khojki | 80 | 65 | Khojki |
1 SMP | U+11280..U+112AF | Multani | 48 | 38 | Multani |
1 SMP | U+112B0..U+112FF | Khudawadi | 80 | 69 | Khudawadi |
1 SMP | U+11300..U+1137F | Grantha | 128 | 86 | Grantha (85 tecken), Inherited (1 tecken) |
1 SMP | U+11400..U+1147F | Newa | 128 | 97 | Newa |
1 SMP | U+11480..U+114DF | Tirhuta | 96 | 82 | Tirhuta |
1 SMP | U+11580..U+115FF | Siddham | 128 | 92 | Siddham |
1 SMP | U+11600..U+1165F | Modi | 96 | 79 | Modi |
1 SMP | U+11660..U+1167F | Mongoliskt tillägg | 32 | 13 | mongoliska |
1 SMP | U+11680..U+116CF | Takri | 80 | 68 | Takri |
1 SMP | U+11700..U+1174F | Ahom | 80 | 65 | Ahom |
1 SMP | U+11800..U+1184F | Dogra | 80 | 60 | Dogra |
1 SMP | U+118A0..U+118FF | Warang Citi | 96 | 84 | Warang Citi |
1 SMP | U+11900..U+1195F | Dyker Akuru | 96 | 72 | Dyker Akuru |
1 SMP | U+119A0..U+119FF | Nandinagari | 96 | 65 | Nandinagari |
1 SMP | U+11A00..U+11A4F | Zanabazar-torget | 80 | 72 | Zanabazar-torget |
1 SMP | U+11A50..U+11AAF | Soyombo | 96 | 83 | Soyombo |
1 SMP | U+11AB0..U+11ABF | Unified Canadian Aboriginal Syllabics Extended-A | 16 | 16 | Kanadensisk aborigin |
1 SMP | U+11AC0..U+11AFF | Pau Cin Hau | 64 | 57 | Pau Cin Hau |
1 SMP | U+11B00..U+11B5F | Devanagari Extended-A | 96 | 10 | Devanagari |
1 SMP | U+11C00..U+11C6F | Bhaiksuki | 112 | 97 | Bhaiksuki |
1 SMP | U+11C70..U+11CBF | Marchen | 80 | 68 | Marchen |
1 SMP | U+11D00..U+11D5F | Masaram Gondi | 96 | 75 | Masaram Gondi |
1 SMP | U+11D60..U+11DAF | Gunjala Gondi | 80 | 63 | Gunjala Gondi |
1 SMP | U+11EE0..U+11EFF | Makasar | 32 | 25 | Makasar |
1 SMP | U+11F00..U+11F5F | Kawi | 96 | 86 | Kawi |
1 SMP | U+11FB0..U+11FBF | Lisu tillägg | 16 | 1 | Lisu |
1 SMP | U+11FC0..U+11FFF | Tamilstillägg | 64 | 51 | Tamil |
1 SMP | U+12000..U+123FF | Kilskrift | 1 024 | 922 | Kilskrift |
1 SMP | U+12400..U+1247F | Kilskriftsnummer och interpunktion | 128 | 116 | Kilskrift |
1 SMP | U+12480..U+1254F | Tidig dynastisk kilskrift | 208 | 196 | Kilskrift |
1 SMP | U+12F90..U+12FFF | Cypro-minoisk | 112 | 99 | Cypro Minoan |
1 SMP | U+13000..U+1342F | Egyptiska hieroglyfer | 1 072 | 1 072 | Egyptiska hieroglyfer |
1 SMP | U+13430..U+1345F | Egyptiska hieroglyfformatkontroller | 48 | 38 | Egyptiska hieroglyfer |
1 SMP | U+14400..U+1467F | Anatoliska hieroglyfer | 640 | 583 | Anatoliska hieroglyfer |
1 SMP | U+16800..U+16A3F | Bamum tillägg | 576 | 569 | Bamum |
1 SMP | U+16A40..U+16A6F | Mr | 48 | 43 | Mr |
1 SMP | U+16A70..U+16ACF | Tangsa | 96 | 89 | Tangsa |
1 SMP | U+16AD0..U+16AFF | Bassa Vah | 48 | 36 | Bassa Vah |
1 SMP | U+16B00..U+16B8F | Pahawh Hmong | 144 | 127 | Pahawh Hmong |
1 SMP | U+16E40..U+16E9F | Medefaidrin | 96 | 91 | Medefaidrin |
1 SMP | U+16F00..U+16F9F | Miao | 160 | 149 | Miao |
1 SMP | U+16FE0..U+16FFF | Ideografiska symboler och skiljetecken | 32 | 7 | Han (4 tecken), Khitan Small Script (1 karaktär), Nushu (1 karaktär), Tangut (1 karaktär) |
1 SMP | U+17000..U+187FF | Tangut | 6,144 | 6,136 | Tangut |
1 SMP | U+18800..U+18AFF | Tangut-komponenter | 768 | 768 | Tangut |
1 SMP | U+18B00..U+18CFF | Khitan litet manus | 512 | 470 | Khitan litet manus |
1 SMP | U+18D00..U+18D7F | Tangut tillägg | 128 | 9 | Tangut |
1 SMP | U+1AFF0..U+1AFFF | Kana Extended-B | 16 | 13 | Katakana |
1 SMP | U+1B000..U+1B0FF | Kana tillägg | 256 | 256 | Hiragana (255 tecken), Katakana (1 tecken) |
1 SMP | U+1B100..U+1B12F | Kana Extended-A | 48 | 35 | Hiragana (32 tecken), Katakana (3 tecken) |
1 SMP | U+1B130..U+1B16F | Liten Kana-förlängning | 64 | 9 | Hiragana (4 tecken), Katakana (5 tecken) |
1 SMP | U+1B170..U+1B2FF | Nushu | 400 | 396 | Nüshu |
1 SMP | U+1BC00..U+1BC9F | Duployan | 160 | 143 | Duployan |
1 SMP | U+1BCA0..U+1BCAF | Stenografi formatkontroller | 16 | 4 | Allmänning |
1 SMP | U+1CF00..U+1CFCF | Znamenny musikalisk notation | 208 | 185 | Vanlig (116 tecken), ärvd (69 tecken) |
1 SMP | U+1D000..U+1D0FF | Bysantinska musikaliska symboler | 256 | 246 | Allmänning |
1 SMP | U+1D100..U+1D1FF | Musikaliska symboler | 256 | 233 | Vanlig (211 tecken), ärvd (22 tecken) |
1 SMP | U+1D200..U+1D24F | Forntida grekisk notation | 80 | 70 | grekisk |
1 SMP | U+1D2C0..U+1D2DF | Kaktovik siffror | 32 | 20 | Allmänning |
1 SMP | U+1D2E0..U+1D2FF | Maya-siffror | 32 | 20 | Allmänning |
1 SMP | U+1D300..U+1D35F | Tai Xuan Jing-symboler | 96 | 87 | Allmänning |
1 SMP | U+1D360..U+1D37F | Räknestavssiffror | 32 | 25 | Allmänning |
1 SMP | U+1D400..U+1D7FF | Matematiska alfanumeriska symboler | 1 024 | 996 | Allmänning |
1 SMP | U+1D800..U+1DAAF | Sutton SignWriting | 688 | 672 | SignWriting |
1 SMP | U+1DF00..U+1DFFF | Latin Extended-G | 256 | 37 | latin |
1 SMP | U+1E000..U+1E02F | Glagolitisk tillägg | 48 | 38 | Glagolitisk |
1 SMP | U+1E030..U+1E08F | Cyrillic Extended-D | 96 | 63 | Kyrillisk |
1 SMP | U+1E100..U+1E14F | Nyiakeng Puachue Hmong | 80 | 71 | Nyiakeng Puachue Hmong |
1 SMP | U+1E290..U+1E2BF | Till till | 48 | 31 | Till till |
1 SMP | U+1E2C0..U+1E2FF | Wancho | 64 | 59 | Wancho |
1 SMP | U+1E4D0..U+1E4FF | Nag Mundari | 48 | 42 | Mundari |
1 SMP | U+1E7E0..U+1E7FF | Ethiopic Extended-B | 32 | 28 | etiopiska |
1 SMP | U+1E800..U+1E8DF | Mende Kikakui | 224 | 213 | Mende Kikakui |
1 SMP | U+1E900..U+1E95F | Adlam | 96 | 88 | Adlam |
1 SMP | U+1EC70..U+1ECBF | Indiska Siyaq-nummer | 80 | 68 | Allmänning |
1 SMP | U+1ED00..U+1ED4F | Osmanska Siyaq-nummer | 80 | 61 | Allmänning |
1 SMP | U+1EE00..U+1EEFF | Arabiska matematiska alfabetiska symboler | 256 | 143 | arabiska |
1 SMP | U+1F000..U+1F02F | Mahjong plattor | 48 | 44 | Allmänning |
1 SMP | U+1F030..U+1F09F | Domino plattor | 112 | 100 | Allmänning |
1 SMP | U+1F0A0..U+1F0FF | Spelar kort | 96 | 82 | Allmänning |
1 SMP | U+1F100..U+1F1FF | Bifogat alfanumeriskt tillägg | 256 | 200 | Allmänning |
1 SMP | U+1F200..U+1F2FF | Bifogat ideografiskt tillägg | 256 | 64 | Hiragana (1 tecken), Common (63 tecken) |
1 SMP | U+1F300..U+1F5FF | Diverse symboler och piktogram | 768 | 768 | Allmänning |
1 SMP | U+1F600..U+1F64F | Emoticons | 80 | 80 | Allmänning |
1 SMP | U+1F650..U+1F67F | Dekorativa Dingbats | 48 | 48 | Allmänning |
1 SMP | U+1F680..U+1F6FF | Transport och kartsymboler | 128 | 118 | Allmänning |
1 SMP | U+1F700..U+1F77F | Alkemiska symboler | 128 | 124 | Allmänning |
1 SMP | U+1F780..U+1F7FF | Geometriska former utökade | 128 | 103 | Allmänning |
1 SMP | U+1F800..U+1F8FF | Kompletterande pilar-C | 256 | 150 | Allmänning |
1 SMP | U+1F900..U+1F9FF | Kompletterande symboler och piktogram | 256 | 256 | Allmänning |
1 SMP | U+1FA00..U+1FA6F | Schacksymboler | 112 | 98 | Allmänning |
1 SMP | U+1FA70..U+1FAFF | Symboler och piktogram Extended-A | 144 | 107 | Allmänning |
1 SMP | U+1FB00..U+1FBFF | Symboler för äldre datoranvändning | 256 | 212 | Allmänning |
2 SIP | U+20000..U+2A6DF | CJK Unified Ideographs Extension B | 42,720 | 42,720 | Han |
2 SIP | U+2A700..U+2B73F | CJK Unified Ideographs Extension C | 4,160 | 4,154 | Han |
2 SIP | U+2B740..U+2B81F | CJK Unified Ideographs Extension D | 224 | 222 | Han |
2 SIP | U+2B820..U+2CEAF | CJK Unified Ideographs Extension E | 5,776 | 5,762 | Han |
2 SIP | U+2CEB0..U+2EBEF | CJK Unified Ideographs Extension F | 7,488 | 7,473 | Han |
2 SIP | U+2F800..U+2FA1F | CJK Compatibility Ideographs Supplement | 544 | 542 | Han |
3 TIPS | U+30000..U+3134F | CJK Unified Ideographs Extension G | 4,944 | 4,939 | Han |
3 TIPS | U+31350..U+323AF | CJK Unified Ideographs Extension H | 4,192 | 4,192 | Han |
14 SSP | U+E0000..U+E007F | Taggar | 128 | 97 | Allmänning |
14 SSP | U+E0100..U+E01EF | Variation Selectors Supplement | 240 | 240 | Ärvt |
15 PUA-A | U+F0000..U+FFFFF | Kompletterande privat användningsområde-A | 65,536 | 65,534 | Okänd |
16 PUA-B | U+100000..U+10FFFF | Kompletterande privat användningsområde-B | 65,536 | 65,534 | Okänd |
Manus
Varje tilldelat tecken kan ha ett enda värde för sin "Script"-egenskap, vilket anger vilket skript det tillhör. Värdet är en kod på fyra bokstäver i intervallet Aaaa-Zzzz, som finns i ISO 15924, som är mappad till ett skrivsystem . Förutom när man beskriver bakgrunden och användningen av ett skript, använder Unicode inte en koppling mellan ett skript och språk som använder det skriptet. Så "hebreiska" syftar på den hebreiska skriften, inte på det hebreiska språket.
Specialkoden Zyyy för "Common" tillåter ett enda värde för ett tecken som används i flera skript. Koden Zinh "Inherited script", som används för att kombinera tecken och vissa andra speciella kodpunkter, indikerar att ett tecken "ärver" sin skriptidentitet från tecknet som det kombineras med. (Unicode använde tidigare den privata koden Qaai för detta ändamål.) Koden Zzzz "Okänd" används för alla tecken som inte tillhör ett skript (dvs standardvärdet), såsom symboler och formateringstecken. Sammantaget kan tecken i ett enda skript vara spridda över flera block, som latinska tecken . Och tvärtom också: flera skript kan vara närvarande är ett enda block, t.ex. block Letterlike Symbols innehåller tecken från de latinska, grekiska och vanliga skripten.
När skriptet är "" (tomt), enligt Unicode tillhör inte tecknet ett skript. Detta gäller symboler, eftersom de befintliga ISO-skriptkoderna "Zmth" (matematisk notation), "Zsym" (Symbol) och "Zsye" (Symbol, emoji-variant) inte används i Unicode. Egenskapen "Script" är också tom för kodpunkter som inte är ett typografiskt tecken som kontroller, substitut och kodpunkter för privat användning.
Om det finns ett specifikt skriptaliasnamn i ISO 15924, används det i teckennamnet: U+0041 A LATINSK BOKSTAV A och U+05D0 א HEBRISK BOKSTAV ALEF .
ISO 15924 | Skript i Unicode | |||||||
---|---|---|---|---|---|---|---|---|
Koda | ISO-nummer | ISO formellt namn | Riktningsförmåga | Unicode Alias | Version | Tecken | Anteckningar | Beskrivning |
. | ||||||||
Adlm | 166 | Adlam | höger till vänster skript | Adlam | 9,0 | 88 | Ch 19.9 | |
Afak | 439 | Afaka | varierar | — Inte i Unicode, förslaget utforskas | ||||
Aghb | 239 | kaukasiska albanska | vänster till höger | kaukasiska albanska | 7,0 | 53 | Forntida/historiska | Kap 8.11 |
Ahom | 338 | Ahom, Tai Ahom | vänster till höger | Ahom | 8,0 | 65 | Forntida/historiska | Ch 15.16 |
Arab | 160 | arabiska | höger till vänster skript | arabiska | 1.0 | 1,368 | Kap 9.2 | |
Aran | 161 | Arabiska (Nastaliq-variant) | blandad | § arabiska ) | — Typografisk variant av arabiska (se||||
Armi | 124 | Imperialistisk arameiska | höger till vänster skript | Imperialistisk arameiska | 5.2 | 31 | Forntida/historiska | Ch 10.4 |
Armn | 230 | armeniska | vänster till höger | armeniska | 1.0 | 96 | Ch 7.6 | |
Avst | 134 | Avestan | höger till vänster skript | Avestan | 5.2 | 61 | Forntida/historiska | Ch 10.7 |
Bali | 360 | balinesiska | vänster till höger | balinesiska | 5.0 | 124 | Kap 17.3 | |
Bamu | 435 | Bamum | vänster till höger | Bamum | 5.2 | 657 | Ch 19.6 | |
Bas | 259 | Bassa Vah | vänster till höger | Bassa Vah | 7,0 | 36 | Forntida/historiska | Ch 19.7 |
Batk | 365 | Batak | vänster till höger | Batak | 6,0 | 56 | Ch 17.6 | |
Beng | 325 | Bengali (Bangla) | vänster till höger | bengaliska | 1.0 | 96 | Kap 12.2 | |
Bhks | 334 | Bhaiksuki | vänster till höger | Bhaiksuki | 9,0 | 97 | Forntida/historiska | Kap 14.3 |
Blis | 550 | Blissymboler | varierar | — Inte i Unicode, förslaget utforskas | ||||
Bopo | 285 | Bopomofo | vänster-till-höger, höger-till-vänster skript | Bopomofo | 1.0 | 77 | kap 18.3 | |
Brah | 300 | Brahmi | vänster till höger | Brahmi | 6,0 | 115 | Forntida/historiska | Kap 14.1 |
Brai | 570 | Blindskrift | vänster till höger | Blindskrift | 3.0 | 256 | Kap 21.1 | |
Bugi | 367 | Buginesiska | vänster till höger | Buginesiska | 4.1 | 30 | Kap 17.2 | |
Buhd | 372 | Buhid | vänster till höger | Buhid | 3.2 | 20 | Kap 17.1 | |
Cakm | 349 | Chakma | vänster till höger | Chakma | 6.1 | 71 | Kap 13.11 | |
Burkar | 440 | Enade kanadensiska aboriginska syllabics | vänster till höger | Kanadensisk aborigin | 3.0 | 726 | Kap 20.2 | |
Cari | 201 | Carian | vänster-till-höger, höger-till-vänster skript | Carian | 5.1 | 49 | Forntida/historiska | Ch 8.5 |
Cham | 358 | Cham | vänster till höger | Cham | 5.1 | 83 | Ch 16.10 | |
Cher | 445 | Cherokee | vänster till höger | Cherokee | 3.0 | 172 | Kap 20.1 | |
Chrs | 109 | Chorasmian | höger-till-vänster-skript , topp-till-botten | Chorasmian | 13,0 | 28 | Forntida/historiska | Ch 10.8 |
Cirt | 291 | Cirth | varierar | — Inte i Unicode | ||||
kopt | 204 | koptisk | vänster till höger | koptisk | 1.0 | 137 | Forntida/historiska, disunifierad från grekiska i 4.1 | Kap 7.3 |
Cpmn | 402 | Cypro-minoisk | vänster till höger | Cypro Minoan | 14,0 | 99 | Forntida/historiska | Ch 8.4 |
Cprt | 403 | Cypriotisk kursplan | höger till vänster skript | Cypriot | 4.0 | 55 | Forntida/historiska | Ch 8.3 |
Cyrl | 220 | Kyrillisk | vänster till höger | Kyrillisk | 1.0 | 506 | Inkluderar typografisk variant fornkyrkoslaviska (se § Cyrs) | Kap 7.4 |
Cyrs | 221 | Kyrillisk (gammal kyrkoslavisk variant) | varierar | § Cyrl ); Forntida/historiska | — Typografisk variant av kyrilliska (se||||
Deva | 315 | Devanagari (Nagari) | vänster till höger | Devanagari | 1.0 | 164 | Kap 12.1 | |
Diak | 342 | Dyker Akuru | vänster till höger | Dyker Akuru | 13,0 | 72 | Forntida/historiska | Ch 15.15 |
Dogr | 328 | Dogra | vänster till höger | Dogra | 11.0 | 60 | Forntida/historiska | Ch 15.18 |
Dsrt | 250 | Deseret (mormon) | vänster till höger | Deseret | 3.1 | 80 | Ch 20.4 | |
Dupl | 755 | Duployan stenografi, Duployan stenografi | vänster till höger | Duployan | 7,0 | 143 | Ch 21.6 | |
Egyd | 070 | Egyptisk demotisk | blandad | — Inte i Unicode | ||||
Egyh | 060 | egyptisk hieratisk | blandad | — Inte i Unicode | ||||
Egypten | 050 | egyptiska hieroglyfer | höger-till-vänster script , vänster till höger | Egyptiska hieroglyfer | 5.2 | 1 110 | Forntida/historiska | Kap 11.4 |
Elba | 226 | Elbasan | vänster till höger | Elbasan | 7,0 | 40 | Forntida/historiska | Ch 8.10 |
Elym | 128 | Elymaic | höger till vänster skript | Elymaic | 12,0 | 23 | Forntida/historiska | Ch 10.9 |
Ethi | 430 | Etiopisk (Geʻez) | vänster till höger | etiopiska | 3.0 | 523 | Kap 19.1 | |
Geok | 241 | Khutsuri (Asomtavruli och Nuskhuri) | vänster till höger | georgiska | Unicode grupperar Khutsori, Asomtavruli och Nuskhuri till "georgiska" (se § Geok ). På liknande sätt är Mkhedruli och Mtavruli 'georgiska' (se § Geor ) | Ch 7.7 | ||
Geor | 240 | georgiska (Mkhedruli och Mtavruli) | vänster till höger | georgiska | 1.0 | 173 | I Unicode inkluderar detta även Nuskhuri ( Geok ) | Ch 7.7 |
Glag | 225 | Glagolitisk | vänster till höger | Glagolitisk | 4.1 | 134 | Forntida/historiska | Ch 7.5 |
Gong | 312 | Gunjala Gondi | vänster till höger | Gunjala Gondi | 11.0 | 63 | Ch 13.15 | |
Gonm | 313 | Masaram Gondi | vänster till höger | Masaram Gondi | 10,0 | 75 | Ch 13.14 | |
Goth | 206 | Gotiska | vänster till höger | Gotiska | 3.1 | 27 | Forntida/historiska | Ch 8.9 |
Mormor | 343 | Grantha | vänster till höger | Grantha | 7,0 | 85 | Forntida/historiska | Ch 15.14 |
Grek | 200 | grekisk | vänster till höger | grekisk | 1.0 | 518 | Riktning ibland som boustrophedon | Kap 7.2 |
Gujr | 320 | Gujarati | vänster till höger | Gujarati | 1.0 | 91 | Kap 12.4 | |
Guru | 310 | Gurmukhi | vänster till höger | Gurmukhi | 1.0 | 80 | Kap 12.3 | |
Hanb | 503 | Han med Bopomofo (alias för Han + Bopomofo) | blandad | § Hani , § Bopo | — Se||||
Hänga | 286 | Hangul (Hangŭl, Hangeul) | vänster till höger, vertikal höger till vänster | Hangul | 1.0 | 11,739 | Hangul-stavelser flyttade till 2.0 | Ch 18.6 |
Hani | 500 | Han (Hanzi, Kanji, Hanja) | uppifrån och ner, kolumner från höger till vänster (historiskt) | Han | 1.0 | 98,408 | Kap 18.1 | |
Hano | 371 | Hanunoo (Hanunóo) | vänster till höger, nedifrån och upp | Hanunoo | 3.2 | 21 | Kap 17.1 | |
Hans | 501 | Han (förenklad variant) | varierar | § Hani ) | — Delmängd av Han (Hanzi, Kanji, Hanja) (se||||
Hant | 502 | Han (traditionell variant) | varierar | § Hani | — Delmängd av||||
Hatr | 127 | Hatran | höger till vänster skript | Hatran | 8,0 | 26 | Forntida/historiska | Ch 10.12 |
Hebr | 125 | hebreiska | höger till vänster skript | hebreiska | 1.0 | 134 | Kap 9.1 | |
Hira | 410 | Hiragana | vertikal höger till vänster, vänster till höger | Hiragana | 1.0 | 381 | Ch 18.4 | |
Hluw | 080 | Anatoliska hieroglyfer (luvianska hieroglyfer, hettitiska hieroglyfer) | vänster till höger | Anatoliska hieroglyfer | 8,0 | 583 | Forntida/historiska | Kap 11.6 |
Hmng | 450 | Pahawh Hmong | vänster till höger | Pahawh Hmong | 7,0 | 127 | Ch 16.11 | |
Hmnp | 451 | Nyiakeng Puachue Hmong | vänster till höger | Nyiakeng Puachue Hmong | 12,0 | 71 | Ch 16.12 | |
Hrkt | 412 | Japanska kursplaner (alias för Hiragana + Katakana) | vertikal höger till vänster, vänster till höger | Katakana eller Hiragana | Se § Hira , § Kana | Ch 18.4 | ||
Hängde | 176 | gammal ungerska (ungerska runor) | höger till vänster skript | Gammal ungerska | 8,0 | 108 | Forntida/historiska | Ch 8.8 |
Inds | 610 | Indus (Harappan) | blandad | — Inte i Unicode, förslaget utforskas | ||||
Ital | 210 | Gammal kursiv (etruskisk, oskisk, etc.) | höger-till-vänster script , vänster till höger | Gammal kursiv | 3.1 | 39 | Forntida/historiska | Ch 8.6 |
Jamo | 284 | Jamo (alias för Jamo underuppsättning av Hangul) | varierar | § Häng | — Delmängd av||||
Java | 361 | javanesiska | vänster till höger | javanesiska | 5.2 | 90 | Kap 17.4 | |
Jpan | 413 | Japanska (alias för Han + Hiragana + Katakana) | varierar | § Hani , § Hira och § Kana | — Se||||
Jurc | 510 | Jurchen | vänster till höger | — Inte i Unicode | ||||
Kali | 357 | Kayah Li | vänster till höger | Kayah Li | 5.1 | 47 | Ch 16.9 | |
Kana | 411 | Katakana | vertikal höger till vänster, vänster till höger | Katakana | 1.0 | 321 | Ch 18.4 | |
Kawi | 368 | Kawi | vänster till höger | Kawi | 15,0 | 86 | Forntida/historiska | Ch 17.9 |
Khar | 305 | Kharoshthi | höger till vänster skript | Kharoshthi | 4.1 | 68 | Forntida/historiska | Kap 14.2 |
Khmr | 355 | Khmer | vänster till höger | Khmer | 3.0 | 146 | Kap 16.4 | |
Khoj | 322 | Khojki | vänster till höger | Khojki | 7,0 | 65 | Forntida/historiska | Ch 15.7 |
Kitl | 505 | Khitan stort manus | vänster till höger | — Inte i Unicode | ||||
Kit | 288 | Khitan litet manus | vertikal höger till vänster | Khitan litet manus | 13,0 | 471 | Forntida/historiska | Ch 18.12 |
Knda | 345 | Kannada | vänster till höger | Kannada | 1.0 | 91 | Ch 12.8 | |
Kore | 287 | Koreanska (alias för Hangul + Han) | vänster till höger | § Hani , § Hang | — Se||||
Kpel | 436 | Kpelle | vänster till höger | — Inte i Unicode, förslaget utforskas | ||||
Kthi | 317 | Kaithi | vänster till höger | Kaithi | 5.2 | 68 | Forntida/historiska | Kap 15.2 |
Lana | 351 | Tai Tham (Lanna) | vänster till höger | Tai Tham | 5.2 | 127 | Ch 16.7 | |
Laoo | 356 | Lao | vänster till höger | Lao | 1.0 | 83 | Kap 16.2 | |
Latf | 217 | Latin (Fraktur-variant) | varierar | § Latn ) | — Typografisk variant av latin (se||||
Latg | 216 | latinsk (gaelisk variant) | vänster till höger | § Latn ) | — Typografisk variant av latin (se||||
Latn | 215 | latin | vänster till höger | latin | 1.0 | 1,481 | Se även: Latinsk skrift i Unicode | Kap 7.1 |
Leke | 364 | Leke | vänster till höger | — Inte i Unicode | ||||
Lepc | 335 | Lepcha (Róng) | vänster till höger | Lepcha | 5.1 | 74 | Ch 13.12 | |
Lem | 336 | Limbu | vänster till höger | Limbu | 4.0 | 68 | Ch 13.6 | |
Lina | 400 | Linjär A | vänster till höger | Linjär A | 7,0 | 341 | Forntida/historiska | Kap 8.1 |
Linb | 401 | Linjär B | vänster till höger | Linjär B | 4.0 | 211 | Forntida/historiska | Kap 8.2 |
Lisu | 399 | Lisu (Fraser) | vänster till höger | Lisu | 5.2 | 49 | Ch 18.9 | |
Loma | 437 | Loma | vänster till höger | — Inte i Unicode, förslaget utforskas | ||||
Lyci | 202 | Lycian | vänster till höger | Lycian | 5.1 | 29 | Forntida/historiska | Ch 8.5 |
Lydi | 116 | Lydian | höger till vänster skript | Lydian | 5.1 | 27 | Forntida/historiska | Ch 8.5 |
Mahj | 314 | Mahajani | vänster till höger | Mahajani | 7,0 | 39 | Forntida/historiska | Ch 15.6 |
Maka | 366 | Makasar | vänster till höger | Makasar | 11.0 | 25 | Forntida/historiska | Ch 17.8 |
Mand | 140 | Mandaiskt, Mandaiskt | höger till vänster skript | Mandaic | 6,0 | 29 | Ch 9.5 | |
Mani | 139 | Manichaean | höger till vänster skript | Manichaean | 7,0 | 51 | Forntida/historiska | Ch 10.5 |
Marc | 332 | Marchen | vänster till höger | Marchen | 9,0 | 68 | Forntida/historiska | Ch 14.5 |
Maya | 090 | Maya hieroglyfer | blandad | — Inte i Unicode | ||||
Medf | 265 | Medefaidrin (Oberi Okaime, Oberi Ɔkaimɛ) | vänster till höger | Medefaidrin | 11.0 | 91 | Ch 19.10 | |
Laga | 438 | Mende Kikakui | höger till vänster skript | Mende Kikakui | 7,0 | 213 | Ch 19.8 | |
Merc | 101 | Meroitisk kursiv | höger till vänster skript | Meroitisk kursiv | 6.1 | 90 | Forntida/historiska | Ch 11.5 |
Mero | 100 | Meroitiska hieroglyfer | höger till vänster skript | Meroitiska hieroglyfer | 6.1 | 32 | Forntida/historiska | Ch 11.5 |
Mlym | 347 | Malayalam | vänster till höger | Malayalam | 1.0 | 118 | Ch 12.9 | |
Modi | 324 | Modi, Moḍī | vänster till höger | Modi | 7,0 | 79 | Forntida/historiska | Ch 15.12 |
Mong | 145 | mongoliska | vertikalt från vänster till höger, från vänster till höger | mongoliska | 3.0 | 168 | Mong innehåller Clear- och Manchu -manus | Ch 13.5 |
Måne | 218 | Måne (månkod, månskrift, måntyp) | blandad | — Inte i Unicode, förslaget utforskas | ||||
Mroo | 264 | Herr, Mr | vänster till höger | Mr | 7,0 | 43 | Ch 13.8 | |
Mtei | 337 | Meitei Mayek (Meithei, Meetei) | vänster till höger | Meetei Mayek | 5.2 | 79 | Ch 13.7 | |
Mult | 323 | Multani | vänster till höger | Multani | 8,0 | 38 | Forntida/historiska | Ch 15.10 |
Mymr | 350 | Myanmar (burmesiska) | vänster till höger | Myanmar | 3.0 | 223 | Kap 16.3 | |
Nagm | 295 | Nag Mundari | vänster till höger | Nag Mundari | 15,0 | 42 | ||
Nand | 311 | Nandinagari | vänster till höger | Nandinagari | 12,0 | 65 | Forntida/historiska | Ch 15.13 |
Narb | 106 | Gamla nordarabiska (forntida nordarabiska) | höger till vänster skript | Gamla nordarabiska | 7,0 | 32 | Forntida/historiska | Kap 10.1 |
Nbat | 159 | nabateisk | höger till vänster skript | nabateisk | 7,0 | 40 | Forntida/historiska | Ch 10.10 |
Newa | 333 | Newa, Newar, Newari, Nepāla lipi | vänster till höger | Newa | 9,0 | 97 | Kap 13.3 | |
Nkdb | 085 | Naxi Dongba (na²¹ɕi³³ till³³ba²¹, Nakhi Tomba) | vänster till höger | — Inte i Unicode | ||||
Nkgb | 420 | Nakhi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba) | vänster till höger | — Inte i Unicode, förslaget utforskas | ||||
Nkoo | 165 | N'Ko | höger till vänster skript | NKo | 5.0 | 62 | Ch 19.4 | |
Nshu | 499 | Nüshu | vertikal höger till vänster | Nushu | 10,0 | 397 | Ch 18.8 | |
Ogam | 212 | Ogham | botten till topp, vänster till höger | Ogham | 3.0 | 29 | Forntida/historiska | Ch 8.14 |
Olck | 261 | Ol Chiki (Ol Cemet', Ol, Santali) | vänster till höger | Ol Chiki | 5.1 | 48 | Ch 13.10 | |
Orkh | 175 | Old Turkic, Orkhon Runic | höger till vänster skript | Gammalt turkiskt | 5.2 | 73 | Forntida/historiska | Ch 14.8 |
Orya | 327 | Oriya (Odia) | vänster till höger | Oriya | 1.0 | 91 | Ch 12.5 | |
Osge | 219 | Osage | vänster till höger | Osage | 9,0 | 72 | Kap 20.3 | |
Osma | 260 | Osmanya | vänster till höger | Osmanya | 4.0 | 40 | Kap 19.2 | |
Ougr | 143 | Gamla uiguriska | blandad | Gamla uiguriska | 14,0 | 26 | Forntida/historiska | Ch 14.11 |
handflatan | 126 | Palmyrene | höger till vänster skript | Palmyrene | 7,0 | 32 | Forntida/historiska | Ch 10.11 |
Pauc | 263 | Pau Cin Hau | vänster till höger | Pau Cin Hau | 7,0 | 57 | Ch 16.13 | |
PCun | 015 | Proto-kilskrift | vänster till höger | — Inte i Unicode | ||||
Pelm | 016 | Proto-elamit | vänster till höger | — Inte i Unicode | ||||
Perm | 227 | Gammal Permic | vänster till höger | Gammal Permic | 7,0 | 43 | Forntida/historiska | Ch 8.13 |
Phag | 331 | Phags-pa | vertikalt från vänster till höger | Phags-pa | 5.0 | 56 | Forntida/historiska | Kap 14.4 |
Phli | 131 | Inskriptionspahlavi | höger till vänster skript | Inskriptionspahlavi | 5.2 | 27 | Forntida/historiska | Ch 10.6 |
Phlp | 132 | Psalter Pahlavi | höger till vänster skript | Psalter Pahlavi | 7,0 | 29 | Forntida/historiska | Ch 10.6 |
Phlv | 133 | Boka Pahlavi | blandad | — Inte i Unicode | ||||
Phnx | 115 | feniciska | höger till vänster skript | feniciska | 5.0 | 29 | Forntida/historiska | Ch 10.3 |
Piqd | 293 | Klingon (KLI pIqaD) | vänster till höger | — Avvisad för inkludering i Unicode | ||||
Plrd | 282 | Miao (Pollard) | vänster till höger | Miao | 6.1 | 149 | Ch 18.10 | |
Prti | 130 | Inskriptionsparthian | höger till vänster skript | Inskriptionsparthian | 5.2 | 30 | Forntida/historiska | Ch 10.6 |
Psin | 103 | Proto-sinaitiska | blandad | — Inte i Unicode | ||||
Qaaa-Qabx | 900-949 | Reserverad för privat bruk (sortiment) | — Inte i Unicode | |||||
Ranj | 303 | Ranjana | vänster till höger | — Inte i Unicode | ||||
Rjng | 363 | Rejang (Redjang, Kaganga) | vänster till höger | Rejang | 5.1 | 37 | Ch 17.5 | |
Rohg | 167 | Hanifi Rohingya | höger till vänster skript | Hanifi Rohingya | 11.0 | 50 | Ch 16.14 | |
Roro | 620 | Rongorongo | blandad | — Inte i Unicode, förslaget utforskas | ||||
Runr | 211 | Run | vänster till höger, boustrophedon | Run | 3.0 | 86 | Forntida/historiska | Ch 8.7 |
Samr | 123 | samarit | höger-till-vänster-skript , topp-till-botten | samarit | 5.2 | 61 | Ch 9.4 | |
Sara | 292 | Sarati | blandad | — Inte i Unicode | ||||
Sarb | 105 | Gammal sydarabisk | höger till vänster skript | Gammal sydarabisk | 5.2 | 32 | Forntida/historiska | Ch 10.2 |
Saur | 344 | Saurashtra | vänster till höger | Saurashtra | 5.1 | 82 | Ch 13.13 | |
Sgnw | 095 | SignWriting | vertikalt från vänster till höger | SignWriting | 8,0 | 672 | Kap 21.7 | |
Shaw | 281 | Shavian (Shaw) | vänster till höger | Shavian | 4.0 | 48 | Ch 8.15 | |
Shrd | 319 | Sharada, Śāradā | vänster till höger | Sharada | 6.1 | 96 | Kap 15.3 | |
Shui | 530 | Shushu | vänster till höger | — Inte i Unicode | ||||
Sidd | 302 | Siddham, Siddhaṃ, Siddhamātṛkā | vänster till höger | Siddham | 7,0 | 92 | Forntida/historiska | Ch 15.5 |
Sind | 318 | Khudawadi, Sindhi | vänster till höger | Khudawadi | 7,0 | 69 | Ch 15.9 | |
Sinh | 348 | singalesiska | vänster till höger | singalesiska | 3.0 | 111 | Kap 13.2 | |
Sogd | 141 | Sogdian | horisontell och vertikal skrift i östasiatiska manus, uppifrån och ner | Sogdian | 11.0 | 42 | Forntida/historiska | Ch 14.10 |
Så gå | 142 | Gamla Sogdian | höger till vänster skript | Gamla Sogdian | 11.0 | 40 | Forntida/historiska | Ch 14.9 |
Sora | 398 | Sora Sompeng | vänster till höger | Sora Sompeng | 6.1 | 35 | Ch 15.17 | |
Soyo | 329 | Soyombo | vänster till höger | Soyombo | 10,0 | 83 | Forntida/historiska | Ch 14.7 |
Sund | 362 | Sundanesiska | vänster till höger | Sundanesiska | 5.1 | 72 | Ch 17.7 | |
Sunu | 274 | Sunuwar | vänster till höger | — Inte i Unicode | ||||
Sylo | 316 | Syloti Nagri | vänster till höger | Syloti Nagri | 4.1 | 45 | Forntida/historiska | Kap 15.1 |
Syrc | 135 | syrisk | höger till vänster skript | syrisk | 3.0 | 88 | Inkluderar typografiska varianter Estrangelo (se § Syre ), Western ( § Syrj ) och Eastern ( § Syrn ) | Kap 9.3 |
Syre | 138 | syrisk (Estrangelo-variant) | blandad | § Syrc ) | — Typografisk variant av syrisk (se||||
Syrj | 137 | syrisk (västerländsk variant) | blandad | § Syrc ) | — Typografisk variant av syrisk (se||||
Syrn | 136 | syrisk (östlig variant) | blandad | § Syrc ) | — Typografisk variant av syrisk (se||||
Tagb | 373 | Tagbanwa | vänster till höger | Tagbanwa | 3.2 | 18 | Kap 17.1 | |
Takr | 321 | Takri, Ṭākrī, Ṭāṅkrī | vänster till höger | Takri | 6.1 | 68 | Ch 15.4 | |
Berättelse | 353 | Tai Le | vänster till höger | Tai Le | 4.0 | 35 | Ch 16.5 | |
Talu | 354 | Nya Tai Lue | vänster till höger | Nya Tai Lue | 4.1 | 83 | Ch 16.6 | |
Taml | 346 | Tamil | vänster till höger | Tamil | 1.0 | 123 | Ch 12.6 | |
Tang | 520 | Tangut | vertikal höger till vänster, vänster till höger | Tangut | 9,0 | 6,914 | Forntida/historiska | Ch 18.11 |
Tavt | 359 | Tai Viet | vänster till höger | Tai Viet | 5.2 | 72 | Ch 16.8 | |
Telu | 340 | Telugu | vänster till höger | Telugu | 1.0 | 100 | Ch 12.7 | |
Teng | 290 | Tengwar | vänster till höger | — Inte i Unicode | ||||
Tfng | 120 | Tifinagh (berber) | vänster till höger | Tifinagh | 4.1 | 59 | kap 19.3 | |
Tglg | 370 | Tagalog (Baybayin, Alibata) | vänster till höger | Tagalog | 3.2 | 23 | Kap 17.1 | |
Thaa | 170 | Thaana | höger till vänster skript | Thaana | 3.0 | 50 | Kap 13.1 | |
Thai | 352 | Thai | vänster till höger | Thai | 1.0 | 86 | Kap 16.1 | |
Tibt | 330 | tibetanska | vänster till höger | tibetanska | 2.0 | 207 | Lades till i 1.0, togs bort i 1.1 och återinfördes i 2.0 | Kap 13.4 |
Tirh | 326 | Tirhuta | vänster till höger | Tirhuta | 7,0 | 82 | Ch 15.11 | |
Tnsa | 275 | Tangsa | vänster till höger | Tangsa | 14,0 | 89 | Ch 13.18 | |
Till till | 294 | Till till | vänster till höger | Till till | 14,0 | 31 | Ch 13.17 | |
Ugar | 040 | Ugaritisk | vänster till höger | Ugaritisk | 4.0 | 31 | Forntida/historiska | Kap 11.2 |
Vaii | 470 | Vai | vänster till höger | Vai | 5.1 | 300 | Ch 19.5 | |
Visp | 280 | Synligt tal | vänster till höger | — Inte i Unicode | ||||
Vith | 228 | Vithkuqi | vänster till höger | Vithkuqi | 14,0 | 70 | Forntida/historiska | Kap 8.12 |
Wara | 262 | Warang Citi (Varang Kshiti) | vänster till höger | Warang Citi | 7,0 | 84 | Ch 13.9 | |
Wcho | 283 | Wancho | vänster till höger | Wancho | 12,0 | 59 | Ch 13.16 | |
Wole | 480 | Woleai | blandad | — Inte i Unicode, förslaget utforskas | ||||
Xpeo | 030 | Gammal persiska | vänster till höger | Gammal persiska | 4.1 | 50 | Forntida/historiska | Kap 11.3 |
Xsux | 020 | Kilskrift, sumero-akkadiska | vänster till höger | Kilskrift | 5.0 | 1 234 | Forntida/historiska | Kap 11.1 |
Yezi | 192 | Yezidi | höger till vänster skript | Yezidi | 13,0 | 47 | Forntida/historiska | Ch 9.6 |
Yiii | 460 | Yi | vänster till höger | Yi | 3.0 | 1 220 | Ch 18.7 | |
Zanb | 339 | Zanabazar Square (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, Horizontal Square Script) | vänster till höger | Zanabazar-torget | 10,0 | 72 | Forntida/historiska | Ch 14.6 |
Zinh | 994 | Kod för ärvt skript | Ärvt | 657 | ||||
Zmth | 995 | Matematisk notation | — Inte ett "skript" i Unicode | |||||
Zsym | 996 | Symboler | — Inte ett "skript" i Unicode | |||||
Zsye | 993 | Symboler (emojivariant) | — Inte ett "skript" i Unicode | |||||
Zxxx | 997 | Kod för oskrivna dokument | — Inte ett "skript" i Unicode | |||||
Zyyy | 998 | Kod för obestämt skript | Allmänning | 8,301 | ||||
Zzzz | 999 | Kod för okodat skript | Okänd | 964,861 | I Unicode: Alla andra kodpunkter | |||
Anteckningar
|
||||||||
Referenser |
Normaliseringsegenskaper
Nedbrytningar, nedbrytningstyp, kanonisk kombinationsklass, uteslutningar av sammansättning och mer.
Ålder
Ålder är den version av standarden där kodpunkten först angavs. Versionsnumret förkortas till numreringen major.minor, även om mer detaljerade versionsnummer används: version 4.0.0 och 4.0.1 är båda namngivna 4.0 som Age. Med tanke på utgåvorna kan ålder vara från intervallet: 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 1. , 12,0, 12,1, 13,0, 14,0 och 15,0. De långa värdena för Age börjar med ett V och använder ett understreck istället för en punkt: V1_1, till exempel. Kodpunkter utan ett specifikt tilldelat åldersvärde har värdet "NA", med den långa formen "Unassigned".
Utfasad
När ett tecken väl har definierats kommer det inte att tas bort eller omtilldelas. Ett tecken kan dock vara utfasad , vilket betyder att dess "användning avråds starkt". Från och med Unicode version 15.0 är följande femton tecken utfasade:
Utfasade tecken i Unicode | ||||
---|---|---|---|---|
Kodpunkt | Karaktärsnamn | Rekommenderat alternativ | Anmärkningar | |
U+0149 | LATINSK LITEN BOKSTAV N FÖREGÅDES AV APOSTROF | U+02BC U+006E | 'n | |
U+0673 | ARABISK BOKSTAV ALEF MED VÅGIG HAMZA NEDAN | U+0627 U+065F | اٟ | |
U+0F77 | TIBETAN VOKALTECKN VOCALIC RR | U+0FB2 U+0F81 | ྲཱྀ | |
U+0F79 | TIBETAN VOKALTECKN VOCALIC LL | U+0FB3 U+0F81 | ླཱྀ | |
U+17A3 | KHMER OBEROENDE VOKAL QAQ | U+17A2 | អ | |
U+17A4 | KHMER OBEROENDE VOKAL QAA | U+17A2 U+17B6 | អា | |
U+206A | FÖRHINDRA SYMMETRISKT BYTE | Ingen | ||
U+206B | AKTIVERA SYMMETRISKT BYTE | Ingen | ||
U+206C | HÄMMA ARABISK FORMFORMNING | Ingen | ||
U+206D | AKTIVERA ARABISK FORMFORMNING | Ingen | ||
U+206E | NATIONELLA SIFFROR | Ingen | ||
U+206F | NOMINELLA SIFFROR | Ingen | ||
U+2329 | VÄNSTERPEKANDE VINKELFÄSTE | U+3008 | 〈 | U+27E8 ⟨ MATEMATISKA VÄNSTER VINKELFÄSTE rekommenderas för matematisk och annan teknisk användning |
U+232A | HÖGERPEKANDE VINKELFÄSTE | U+3009 | 〉 | U+27E9 ⟩ MATEMATICAL RIGHT ANGLE BACKET rekommenderas för matematisk och annan teknisk användning |
U+E0001 | SPRÅKTAG | Ingen | ||
Gränser
Unicode-standarden specificerar följande gränsrelaterade egenskaper:
- Grafemkluster
- Ord
- Linje
- Mening
Alias namn
Unicode kan tilldela aliasnamn till kodpunkter. Dessa namn är unika över alla namn (inklusive vanliga), så de kan användas som identifierare. Det finns fem möjliga skäl att lägga till ett alias:
- 1. Förkortning
- Vanligt förekommande förkortningar eller akronymer för kontrollkoder, formattecken, mellanslag och variationsväljare.
-
Till exempel har
U+00A0 NO-BREAK SPACE alias NBSP . Ibland presenteras i en låda: NBSP.
- 2. Kontroll
- ISO 6429 -namn för C0- och C1-kontrollfunktioner och liknande vanligt förekommande namn läggs till som ett alias till tecknet.
- Till exempel har U+0008 <control-0008> alias BACKSPACE .
- 3. Korrigering
- Detta är en korrigering för ett "allvarligt problem" i det primära teckennamnet, vanligtvis ett fel.
- Till exempel, U+2118 ℘ SCRIPT STORA P är faktiskt ett gement p, och därför ges aliasnamnet WEIERSTRASS ELLIPTIC FUNCTION : "faktiskt har detta formen av ett kalligrafiskt p-format med gemener, trots namnet, och genom aliaset läggs den korrekta stavningen till." I beskrivningar, med föregående symbol ※ .
- 4. Alternativ
- Ett allmänt använt alternativt namn för en karaktär.
- Exempel: U+FEFF ZERO WIDTH NO-BREAK SPACE har alternativt BYTE-ORDNINGSMÄRKE .
- 5. Figment
- Flera dokumenterade etiketter för C1-kontrollkodpunkter som faktiskt aldrig godkändes i någon standard ( figment = låtsas, i fiktion).
- Till exempel U+0099 <control-0099> har ett bildalias INTRODUCER FÖR ENKEL GRAFISK KARAKTER . Detta namn är ett arkitektoniskt koncept från tidiga utkast till ISO/IEC 10646-1, men det godkändes och standardiserades aldrig.
externa länkar
- Unicode Character Database , bilaga #44, som förklarar de olika egenskaperna
- UnicodeData.txt – en lista över alla Unicode-tecken, med deras egenskaper
-
^ a b c d e
"Unicode-standarden, kapitel 4: Teckenegenskaper" (PDF) . Unicode, Inc. september 2022 . Hämtad 2022-09-16 .
{{ citera journal }}
: Citera journal kräver|journal=
( hjälp ) - ^ a b c "Unicode standardbilaga #44: Unicode-teckendatabas" . Unicode-standarden . 2017-06-14.
- ^ "UCD: Unicode-data" .
- ^ "UCD: Namnalias" . Unicode-teckendatabas . Unicode-konsortiet. 2019-03-08.
- ^ "Teckendesignstandarder - mellanslagstecken" . Karaktärsdesignstandarder . Microsoft . 1998–1999. Arkiverad från originalet den 23 augusti 2000 . Hämtad 2009-05-18 .
- ^ Unicode Standard 5.0, tryckt upplaga, sid. 205; finns även i "Kapitel 6 — Skrivsystem och interpunktion" (PDF) . Unicode Standard 5.0, elektronisk utgåva . Unicode-konsortiet . 2006-07-14. sid. 11 (205) . Hämtad 2022-12-22 .
- ^ "Allmän interpunktion" (PDF) . Unicode Standard 5.1 . Unicode Inc. 1991–2008 . Hämtad 2009-05-13 .
- ^ Sargent, Murray III (2006-08-29). "Unicode nästan vanlig textkodning av matematik (version 2)" . Unicode teknisk anmärkning #28 . Unicode Inc. s. 19–20 . Hämtad 2009-05-19 .
- ^ Gillam, Richard (2002). Unicode Demystified: A Practical Programmer's Guide to the Encoding Standard . Addison-Wesley. ISBN 0-201-70052-2 .
- ^ a b Hickson, Ian . "12.5 Namngivna teckenreferenser" . HTML Standard . WHATWG .
- ^ Wolfram . "\[NegativeThickSpace]" . Wolfram språkdokumentation .
- ^ Wolfram . "\[NegativeMediumSpace]" . Wolfram språkdokumentation .
- ^ Wolfram . "\[NegativeThinSpace]" . Wolfram språkdokumentation .
- ^ Wolfram . "\[NegativeVeryThinSpace]" . Wolfram språkdokumentation .
- ^ Faltström, P., red. (augusti 2010). "Zero Width Non-Joiner" . Unicode Code Points och Internationalized Domain Names for Applications (IDNA) . IETF . sek. A.1. doi : 10.17487/RFC5892 . RFC 5892 . Hämtad 4 september 2019 .
- ^ Faltström, P., red. (augusti 2010). "Zero Width Joiner" . Unicode Code Points och Internationalized Domain Names for Applications (IDNA) . IETF . sek. A.2. doi : 10.17487/RFC5892 . RFC 5892 . Hämtad 4 september 2019 .
- ^ "Unicode Standard Annex #44, Unicode Character Database" .
- ^ a b "Unicode standardbilaga #9: Unicode dubbelriktad algoritm" . Unicode-standarden . 2017-05-14.
- ^ "Unicode Standard Annex #24: Unicode Script Property" . Unicode-standarden . 2015-06-01.
- ^ "UCD: Härledd ålder" . Unicode-teckendatabas . Unicode-konsortiet. 2022-04-26.
-
^
"Policyer för stabilitet för Unicode-teckenkodning" . Unicode . Unicode-konsortiet . 2017-06-23 . Hämtad 2021-07-25 .
När ett tecken väl är kodat kommer det inte att flyttas eller tas bort.
- ^ "3.4: Tecken och kodning, D13: Föråldrat tecken" (PDF) . Unicode-standarden, version 15.0 . Mountain View: Unicode Consortium . 2022-09-13. ISBN 978-1-936213-32-0 . Hämtad 2022-09-16 .
- ^ "PropList-15.0.0.txt" . Unicode . Unicode-konsortiet . 2022-08-05 . Hämtad 2022-09-16 .
- ^ "Kapitel 23.3: Föråldrade formattecken" (PDF) . Unicode-standarden, version 13.0 . Mountain View: Unicode Consortium . 2020-03-10. ISBN 9781936213269 . Hämtad 2021-07-25 .
- ^ "23.9: Taggartecken, föråldrad användning för språkmärkning" (PDF) . Unicode-standarden, version 13.0 . Mountain View: Unicode Consortium . 2020-03-10. ISBN 9781936213269 . Hämtad 2021-07-25 .