JIS-kodning
Inom datorer hänvisar JIS-kodning till flera japanska industristandarder för kodning av det japanska språket . Strängt taget betyder termen antingen:
- En uppsättning standardkodade teckenuppsättningar för japanska, särskilt:
- JIS X 0201 , den japanska versionen av ISO 646 ( ASCII ) som innehåller basen 7-bitars ASCII-tecken (med vissa modifieringar) och 64 halvbredds katakana-tecken.
- JIS X 0208 , den vanligaste kanji- teckenuppsättningen som innehåller 6 879 tecken, inklusive 6 355 kanji och 524 andra tecken (ett 94 x 94-plan)
- JIS X 0212 , ett tillägg för JIS X 0208 som lägger till 5 801 kanji, totalt 12 156 kanji (ett andra 94 gånger 94 plan)
- JIS X 0213 , som förlänger JIS X 0208 (två plan)
- JIS X 0202 (även känd som ISO-2022-JP), en uppsättning kodningsmekanismer för att skicka JIS-teckendata över överföringsmedier som endast stöder 7-bitars data.
I praktiken hänvisar "JIS-kodning" vanligtvis till JIS X 0208-teckendata kodad med JIS X 0202. Till exempel använder IANA etiketten JIS_Encoding
för att referera till JIS X 0202, och ISO-2022-JP-
etiketten för att referera till profilen därav definierad av RFC 1468 .
Andra kodningsmekanismer för JIS-tecken inkluderar Shift JIS- kodning och EUC-JP . Shift JIS lägger till kanji, full-width hiragana och full-width katakana från JIS X 0208 till JIS X 0201 på ett bakåtkompatibelt sätt. Shift JIS är kanske den mest använda kodningen i Japan, eftersom kompatibiliteten med enkelbyte JIS X 0201-teckenuppsättningen gjorde det möjligt för tillverkare av elektronisk utrustning (som kassaregistertillverkare) att erbjuda en uppgradering från äldre billigare utrustning som inte var kan visa kanji för nyare utrustning med bibehållen teckenuppsättningskompatibilitet.
EUC-JP används på UNIX- system, där JIS-kodningarna är inkompatibla med POSIX -standarder.
Ett nyare alternativ till JIS-kodade tecken är Unicode ( UCS- kodade tecken), särskilt i UTF-8- kodningsmekanismen.
Jämförelse av kodning
Följande tabell jämför funktionerna i de tre huvudkodningsschemana för JIS X 0208.
Kodning | alternativt namn | 7-bitars? | ISO 2022 ? | Statslös? | Accepterar ASCII ? | 0x00–7F alltid ASCII? | Superset av 8-bitars JIS X 0201 ? | Stöder JIS X 0212 ? | Bytevis självsynkronisering? | Bitvis självsynkronisering? |
---|---|---|---|---|---|---|---|---|---|---|
ISO-2022-JP | " JIS " (JIS X 0202) | Ja | Ja | Nej | Ja | Sekvenser kan vara icke-ASCII | Nej (kodning möjlig) | Möjlig | Nej | Nej |
Shift_JIS | "SJIS" | Nej | Nej | Ja | Nästan | Isolerade bytes kan vara icke-ASCII | Ja | Nej | Nej | Nej |
EUC-JP | "UJIS" (Unixized JIS) | Nej | Ja | Ja | Vanligtvis | Ja | Nej (kodat) | Vanligtvis tillgänglig | Nej | Nej |
Unicode- format för jämförelse | ||||||||||
UTF-8 | Nej | Nej | Ja | Ja | Ja | Nej (kodat) | Tillgängliga | Ja | Vanligtvis | |
UTF-16 | "Unicode" | Nej | Nej | Ja | Nej | Nej | Nej (kodat) | Tillgängliga | Endast över 16-bitars ord. | Nej |
GB 18030 | Nej | Nej | Ja | Ja | Isolerade bytes kan vara icke-ASCII | Nej (kodat) | Tillgängliga | Nej | Nej | |
UTF-32 | Nej | Nej | Ja | Nej | Nej | Nej (kodat) | Tillgängliga | Vanligtvis i praktiken | Nej |