Privata användningsområden
I Unicode är ett privat användningsområde ( PUA ) en rad kodpunkter som per definition inte kommer att tilldelas tecken av Unicode Consortium . Tre privata användningsområden är definierade: ett i det grundläggande flerspråkiga planet ( U+E000–U+F8FF ), och ett vardera i, och nästan täcker, plan 15 och 16 ( U+F0000–U+FFFFD , U+100000–U +10FFFD ). Kodpunkterna i dessa områden kan inte betraktas som standardiserade tecken i själva Unicode. De lämnas avsiktligt odefinierade så att tredje parter kan definiera sina egna karaktärer utan att komma i konflikt med Unicode Consortium-uppdrag. Enligt Unicodes stabilitetspolicy kommer de privata användningsområdena att förbli tilldelade för detta ändamål i alla framtida Unicode-versioner.
Tilldelningar till karaktärer för privat användningsområde behöver inte vara privata i betydelsen strikt internt i en organisation; ett antal uppdragsscheman har publicerats av flera organisationer. Sådan publicering kan innehålla ett teckensnitt som stöder definitionen (visar glyferna) och programvara som använder tecknen för privat användning (t.ex. ett grafiktecken för en "skriv ut dokument"-funktion). Per definition kan flera privata parter tilldela olika tecken till samma kodpunkt, med konsekvensen att en användare kan se ett privat tecken från ett installerat teckensnitt där ett annat var avsett.
Definition
Enligt Unicode-definitionen tilldelas kodpunkter i de privata användningsområdena tecken – de är inte icke-tecken, reserverade eller otilldelade. Deras kategori är " Annan, privat användning (Co)
", och inga teckennamn anges. Inga representativa glyfer tillhandahålls, och karaktärssemantik överlåts till privat överenskommelse.
Tecken för privat användning tilldelas Unicode-kodpunkter vars tolkning inte specificeras av denna standard och vars användning kan bestämmas genom privat överenskommelse mellan samarbetande användare. Dessa tecken är avsedda för privat bruk och har ingen definierad, tolkbar semantik förutom genom privat överenskommelse.
...
Inga diagram tillhandahålls för tecken för privat användning, eftersom sådana tecken, till sin natur, endast definieras utanför sammanhanget av denna standard.
Uppdrag
I det grundläggande flerspråkiga planet (plan 0) har blocket med titeln Private Use Area 6400 kodpunkter.
Plan 15 och 16 är nästan helt tilldelade två ytterligare privata användningsområden, kompletterande privat användningsområde-A respektive kompletterande privat användningsområde-B. I UTF-16 används en delmängd av de höga surrogaten (U+DB80..U+DBFF) för dessa och endast dessa plan, och kallas High Private Use Surrogates .
Unicode: Private Use Areas | ||||
---|---|---|---|---|
Definition av teckenegenskap: General Category=Co | ||||
Räckvidd | Plan | Blocknamn | Antal kodpunkter | Notera |
U+E000..U+F8FF | BMP (0) | Privat användningsområde | 6 400 | |
U+F0000..U+FFFFD | PUP (15) | Kompletterande privat användningsområde-A | 65,534 | UTF-16 kodar dessa tecken med hjälp av kodpunkter från blocket High Private Use Surrogates (U+DB80..U+DBFF) i BMP. |
U+100000..U+10FFFD | PUP (16) | Kompletterande privat användningsområde-B | 65,534 | |
Anteckningar
|
Unicode PUA-block
Det finns tre PUA-block i Unicode.
Privat användningsområde | |
---|---|
Räckvidd |
U+E000..U+F8FF (6 400 kodpunkter) |
Plan | BMP |
Manus | Okänd |
Tilldelad | 6 400 kodpunkter |
Oanvänd | 0 reserverade kodpunkter |
Unicode versionshistorik | |
1.0.0 (1991) | 5 632 (+5 632) |
1.0.1 (1992) | 6 400 (+768) |
Obs : Version 1.0.1 flyttade och utökade blocket för privat användningsområde (tidigare placerat på U+E800-U+FDFF i version 1.0.0). |
Kompletterande privat användningsområde-A | |
---|---|
Räckvidd |
U+F0000..U+FFFFF (65 536 kodpunkter) |
Plan | SPUA-A |
Manus | Okänd |
Tilldelad | 65 534 kodpunkter |
Oanvänd |
0 reserverade kodpunkter 2 icke-tecken |
Unicode versionshistorik | |
2,0 (1996) | 65 534 (+65 534) |
Obs : |
Kompletterande privat användningsområde-B | |
---|---|
Räckvidd |
U+100000..U+10FFFF (65 536 kodpunkter) |
Plan | SPUA-B |
Manus | Okänd |
Tilldelad | 65 534 kodpunkter |
Oanvänd |
0 reserverade kodpunkter 2 icke-tecken |
Unicode versionshistorik | |
2,0 (1996) | 65 534 (+65 534) |
Obs : |
Historia
I Unicode 1.0.0 sträckte sig området för privat användning från U+E800 till U+FDFF (dvs. inkluderade inte U+E000..E7FF, men inkluderade dessutom U+F900..FDFF-området som nu upptas av CJK Compatibility Ideographs , Alphabetic Presentationsformulär och arabiska presentationsformulär-A ) . Detta ändrades till U+E000..F8FF i Unicode 1.0.1 och förblev så i Unicode 1.1. ingick inte intervallet U+D800..DFFF (reserverat för UTF-16 -surrogat sedan Unicode 2.0) i intervallet för privat användning av någon Unicode 1.x-version.
Historiskt sett var planen E0 (224) till FF (255) och grupperna 60 (96) men 7F (127) av den universella kodade teckenuppsättningen (dvs. U+E00000 till U+FFFFFF och U+60000000 till U+7FFFFFFF) också betecknas som privat bruk. Dessa intervall togs bort från de specificerade intervallen för privat användning när UCS var begränsad till de sjutton plan som kunde nås i UTF-16.
Användande
Standardiseringsinitiativ använder
Många människor och institutioner har skapat karaktärssamlingar för PUA. Vissa av dessa privata användningsavtal publiceras, så andra PUA-implementerare kan sikta på oanvända eller mindre använda kodpunkter för att förhindra överlappningar. Flera tecken och skript som tidigare kodats i avtal för privat användning har faktiskt kodats helt i Unicode, vilket kräver mappningar från PUA till andra Unicode-kodpunkter.
Ett av de mer välkända och brett implementerade PUA-avtalen upprätthålls av ConScript Unicode Registry ( CSUR). CSUR, som inte är officiellt godkänd eller associerad med Unicode Consortium, tillhandahåller en kartläggning för konstruerade skript, såsom Klingon pIqaD och Ferengi script (Star Trek), Tengwar och Cirth (JRR Tolkiens kursiva och runiska skript), Alexander Melville Bells Visible Tal och Dr Seuss alfabet från On Beyond Zebra . CSUR kodade tidigare de okrypterade Phaistos- tecken, såväl som Shavian- och Deseret -alfabeten, som alla har accepterats för officiell kodning i Unicode.
Ett annat vanligt PUA-avtal upprätthålls av Medieval Unicode Font Initiative (MUFI). Detta projekt försöker stödja alla skriftförkortningar, ligaturer, förkomponerade tecken , symboler och alternativa bokstavsformer som finns i medeltida texter skrivna i det latinska alfabetet. Det uttryckliga syftet med MUFI är att experimentellt bestämma vilka tecken som är nödvändiga för att representera dessa texter, och att få dessa tecken officiellt kodade i Unicode. Från och med Unicode version 5.1 har 152 MUFI-tecken införlivats i den officiella Unicode-kodningen. [ behöver uppdateras ]
Vissa överenskomna PUA-teckensamlingar finns helt eller delvis eftersom Unicode-konsortiet inte har bråttom att koda dem. Vissa, som icke-representerade språk, kommer sannolikt att hamna kodade i framtiden. Vissa ovanliga fall som fiktiva språk ligger utanför Unicodes vanliga räckvidd men utesluts inte uttryckligen av Unicodes principer och kan dyka upp så småningom (som Star Trek och Tolkiens skrivsystem). I andra fall bryter den föreslagna kodningen mot en eller flera Unicode-principer och det är därför osannolikt att den någonsin officiellt erkänns av Unicode - mestadels där användare direkt vill koda alternativa former, ligaturer eller bas-tecken-plus-diakritiska kombinationer (som t.ex. TUNE-schema).
Förlagsorganisation | Ämne | PUA-yta som används | Font |
---|---|---|---|
CSUR | Konstgjorda och några antika/medeltida skrifter | PUA (BMP) och plan 15 | Kod2000 |
MUFI | Medeltida skrifter | PUA (BMP) | flera |
SIL | Fonetik och språk | PUA (BMP) | Charis SIL |
TITUS | Forntida och medeltida skrifter | PUA (BMP) | TITUS Cyberbit Basic |
- Emoji är en kodning för bildtecken eller uttryckssymboler som används i japanska trådlösa meddelanden och webbsidor. Med Unicode 6.0 och senare har många av dessa kodats i blocket Diverse Symboler And Pictographs och på andra ställen i SMP .
- GB/T 20542-2006 ("Tibetan Coded Character Set Extension A") och GB/T 22238-2008 ("Tibetan Coded Character Set Extension B") är kinesiska nationella standarder som använder PUA för att koda förkomponerade tibetanska ligaturer .
- GB 18030 och GBK använder PUA för att provisoriskt koda tecken som inte hittades i Unicode-standarder vid tidpunkten för publicering (de flesta har kodats sedan dess).
- Institutet för det estniska språket använder PUA för att koda latinska och kyrilliska förkomponerade tecken som inte har någon Unicode-kodning.
- Free Tengwar Font Project använder en annan mappning än ConScript Unicode Registry som till stor del följer Michael Eversons diskussionsunderlag för Tengwar 2001-03-07, men skiljer sig i vissa detaljer.
- MARC 21-standarden använder PUA för att koda östasiatiska tecken som finns i MARC-8 som inte har någon Unicode-kodning.
- SIL Corporate PUA använder PUA för att koda tecken som används på minoritetsspråk som ännu inte har accepterats i Unicode .
- STIX Fonts-projektet använder PUA för att tillhandahålla en omfattande teckensnittsuppsättning av matematiska symboler och alfabet, av vilka många också är tillgängliga i SMP nu, t.ex. i blocket Mathematical Alphanumeric Symbols .
- Tamil Unicode New Encoding (TUNE) är ett föreslaget system för kodning av tamil som övervinner upplevda brister i den nuvarande Unicode-kodningen.
Säljaranvändning
Informellt är intervallet U+F000 till U+F8FF känt som Corporate Use Area. Detta härstammar från tidiga versioner av Unicode, som definierade en "Slutanvändarzon" som sträcker sig från U+E000 uppåt och en "Corporate Use Zone" som sträcker sig från U+F8FF nedåt, med gränsen mellan de två kvar odefinierad.
- Adobe Glyph List brukade använda PUA för några av dess glyfer.
-
Apple listar ett intervall på 1 280 tecken i sin utvecklardokumentation från U+F400–U+F8FF inom PUA för Apples användning. Av dessa används endast 311, i intervallet U+F700–U+F8FF ( NeXT ( NeXTSTEP och OPENSTEP ) och Apple (Mac OS X AppKit)).
- En av dessa är U+F8FF, Apple-logotypen , som vanligtvis stöds av Apples 8-bitars set.
- WGL4 använder PUA (U+F001 och U+F002) för att koda dubbletter av ligaturerna fi (U+FB01) (U+FB02).
- Microsofts nedlagda Services For Macintosh-funktion använde U+F001 till U+F029 som ersättning för specialtecken tillåtna i HFS men förbjudna i NTFS , och U+F02A för Apple-logotypen.
- I gamla versioner av dess RichEdit-komponent mappade Microsoft U+F020–U+F0FF inom PUA till symbolteckensnitt. För alla tecken i det här intervallet skulle RichEdit visa ett tecken från ett symbolteckensnitt istället för det slutanvändardefinierade tecknet (EUDC)
- AutoCAD [ förtydligande behövs ] använder U+F8FC–U+F8FE för ⌀ (diametertecken), ± ( plus–minustecken ) respektive ° (gradtecken).
- Vissa teckensnitt placerar Windows-logotypen vid
U+F000
. - Nummer
U+F000
är en sifferföljd som börjar på 13 eller 18 i vissa videospel som Agar.io . - På Ubuntu visas
U+E0FF som "Circle Of Friends"-logotypen och
U+F200 är
" ubuntu" i Ubuntu-typsnittet med en upphöjd "Circle Of Friends" (det här är i sigU+F0FF
). - Typsnittet 3270 inkluderar Debians logotyp på
U+F100
- I typsnittet Linux Libertine visar
U+E000
Tux , Linuxs maskot - Font Awesome- ikonens teckensnitt använder PUA för att visa olika glyfer.
- Powerline, en plugin för statusrad för vim, använd U+E0A0–U+E0A2 och U+E0B0–U+E0B3 för extra box-rite-tecken .
- På typsnittet Fira Sans som används i Firefox OS visas
U+E003 som
Mozilla- logotypen (dinosauriehuvudet) . -
Lotus Multi-Byte Character Set (LMBCS), kodningen och teckenuppsättningen som används internt av Lotus / IBM Lotus 1-2-3 , Symphony , SmartSuite , Notes , Domino samt ett antal tredjepartsprodukter som Microsoft Works , använder vissa tecken (
U+F862
-U+F89F
ochU+F8FB
-U+F8FE
) i området för privat användning för symboler som inte definieras i Unicode. Av dessaU+F8FB
känd för att vara reserverad för en kronvalutasymbol ("Kr"), ochU+F8FC
ochU+F8FD
mappades senare tillU+FB02 (
fl ) respektiveU+FB01
( fi ). Dessutom, när UTF-16-koder är inbäddade i LMBCS, ersätts UTF-16-koderna som motsvararU+F601 till
U+F6FF
med UTF-16-koder som skulle innehålla nollbytes , eftersom LMBCS är designad att inte innehålla inbäddade nollbytes. - IBM reserverade flera teckentabells-ID :n för PUA-kodtabeller: teckentabell 1446 för det generiska planet 15, teckentabell 1447 för det allmänna planet 16, teckentabell 1448 för det generiska BMP PUA, teckentabell 1445 (IBM AFP PUA No. 1) för plan 15 med IBM-tilldelningar i U+FFF00–U+FFFFD, och teckentabell 1449 (IBM-standard-PUA) för BMP-PUA med IBM-tilldelningar i U+F83D–U+F8FF.
- Filsystemet som finns i Windows använder blocket
U+F000
tillU+F0FF
för att undvika specialtecken . - NetApp översätter tecken i filnamn som är tillåtna på Unix men ogiltiga för SMB -klienter till PUA-tecken.
-
Twitters Chirp-teckensnitt ger några ytterligare ikoner, som
U+E000
som motsvarar en nedåtpil till vänster,U+EA00
som motsvarar Twitter-fågeln ochU+F8FF
som motsvarar en Apple-logotyp, möjligen för kompatibilitet med Apple-teckensnitt.
Personlig användning av tecken i andra teckenuppsättningar
Konceptet med att reservera specifika kodpunkter för privat bruk är baserat på liknande tidigare användning i andra teckenuppsättningar. I synnerhet fortsätter många annars föråldrade tecken i östasiatiska skript att användas i specifika namn eller andra situationer, och så vissa teckenuppsättningar för dessa skript tog hänsyn till privata tecken (som de användardefinierade planen i CNS 11643 , eller gaiji i vissa japanska kodningar). Unicode-standarden refererar till dessa användningar under namnet "End User Character Definition" (EUCD).
Dessutom innehåller C1-kontrollblocket två koder avsedda för "kontrollfunktioner" för privat bruk av ECMA-48 : 0x91 privat användning en (PU1) och 0x92 privat användning två (PU2). Unicode inkluderar dessa vid
U+0091 <control-0091> och
U+0092 <control-0092> men definierar dem som kontrolltecken (kategori Cc
), inte tecken för privat användning (kategori Co
).
Kodningar som inte har privata användningsområden men har mer eller mindre oanvända områden, som ISO/IEC 8859 och Shift JIS , har sett okontrollerade varianter av dessa kodningar utvecklas. För Unicode kan mjukvaruföretag använda de privata användningsområdena för sina önskade tillägg.