JIS-kodning

Inom datorer hänvisar JIS-kodning till flera japanska industristandarder för kodning av det japanska språket . Strängt taget betyder termen antingen:

  • En uppsättning standardkodade teckenuppsättningar för japanska, särskilt:
    • JIS X 0201 , den japanska versionen av ISO 646 ( ASCII ) som innehåller basen 7-bitars ASCII-tecken (med vissa modifieringar) och 64 halvbredds katakana-tecken.
    • JIS X 0208 , den vanligaste kanji- teckenuppsättningen som innehåller 6 879 tecken, inklusive 6 355 kanji och 524 andra tecken (ett 94 x 94-plan)
    • JIS X 0212 , ett tillägg för JIS X 0208 som lägger till 5 801 kanji, totalt 12 156 kanji (ett andra 94 gånger 94 plan)
    • JIS X 0213 , som förlänger JIS X 0208 (två plan)
  • JIS X 0202 (även känd som ISO-2022-JP), en uppsättning kodningsmekanismer för att skicka JIS-teckendata över överföringsmedier som endast stöder 7-bitars data.

  I praktiken hänvisar "JIS-kodning" vanligtvis till JIS X 0208-teckendata kodad med JIS X 0202. Till exempel använder IANA etiketten JIS_Encoding för att referera till JIS X 0202, och ISO-2022-JP- etiketten för att referera till profilen därav definierad av RFC 1468 .

Andra kodningsmekanismer för JIS-tecken inkluderar Shift JIS- kodning och EUC-JP . Shift JIS lägger till kanji, full-width hiragana och full-width katakana från JIS X 0208 till JIS X 0201 på ett bakåtkompatibelt sätt. Shift JIS är kanske den mest använda kodningen i Japan, eftersom kompatibiliteten med enkelbyte JIS X 0201-teckenuppsättningen gjorde det möjligt för tillverkare av elektronisk utrustning (som kassaregistertillverkare) att erbjuda en uppgradering från äldre billigare utrustning som inte var kan visa kanji för nyare utrustning med bibehållen teckenuppsättningskompatibilitet.

EUC-JP används på UNIX- system, där JIS-kodningarna är inkompatibla med POSIX -standarder.

Ett nyare alternativ till JIS-kodade tecken är Unicode ( UCS- kodade tecken), särskilt i UTF-8- kodningsmekanismen.

Jämförelse av kodning

Följande tabell jämför funktionerna i de tre huvudkodningsschemana för JIS X 0208.

Kodning alternativt namn 7-bitars? ISO 2022 ? Statslös? Accepterar ASCII ? 0x00–7F alltid ASCII? Superset av 8-bitars JIS X 0201 ? Stöder JIS X 0212 ? Bytevis självsynkronisering? Bitvis självsynkronisering?
ISO-2022-JP " JIS " (JIS X 0202) Ja Ja Nej Ja Sekvenser kan vara icke-ASCII Nej (kodning möjlig) Möjlig Nej Nej
Shift_JIS "SJIS" Nej Nej Ja Nästan Isolerade bytes kan vara icke-ASCII Ja Nej Nej Nej
EUC-JP "UJIS" (Unixized JIS) Nej Ja Ja Vanligtvis Ja Nej (kodat) Vanligtvis tillgänglig Nej Nej
Unicode- format för jämförelse
UTF-8   Nej Nej Ja Ja Ja Nej (kodat) Tillgängliga Ja Vanligtvis
UTF-16 "Unicode" Nej Nej Ja Nej Nej Nej (kodat) Tillgängliga Endast över 16-bitars ord. Nej
GB 18030   Nej Nej Ja Ja Isolerade bytes kan vara icke-ASCII Nej (kodat) Tillgängliga Nej Nej
UTF-32   Nej Nej Ja Nej Nej Nej (kodat) Tillgängliga Vanligtvis i praktiken Nej

Se även