Buckwalter-translitteration

Buckwalter . Arabic translitteration utvecklades som en del av ALPNET Arabic Project som drivs av Ken Beesley 1988

Start

Den första arabiska språkanalytikern för projektet var en BYU -student vid namn Derek Foxley, anställd som deltid. Foxley gick på fjärde året i arabiska kurser vid den tiden på BYU. Tim Buckwalter anställdes flera månader senare som heltidsanställd på ALPNET. Buckwalter var också doktorand i arabiska vid den tiden. En av hans uppgifter i projektet var att samarbeta med och tilldela arabiska uppgifter till den deltidsanställda Foxley.

Beesley vägledde Buckwalter och Foxley i några av de finare detaljerna inom lingvistik, och en dag vid whiteboardtavlan uppmanade Beesley Foxley och Buckwalter att komma med ett translittereringsschema i det ögonblicket. Foxley hade skrivit in det mesta av data vid den tidpunkten i projektet så var redo att ta itu med detta. Icke desto mindre, i nära samarbete med Buckwalter kom han fram till nästan alla tecken som användes för translitterationstabellen. Buckwalter övervakade Foxleys arabiska uppgifter och gjorde de sista justeringarna och förfiningarna i translitterationstabellen. Det hade inget namn vid den tiden, men Buckwalter hade under några år efter projektet skrivit in tusentals textobjekt med hjälp av translitterationsschemat och presenterat det och förespråkat det många gånger också. Den var därför uppkallad efter honom.

Vid den tiden användes ingen sådan en-till-en-bokstavstranslitteration, eller åtminstone ingen som teamet kände till.

Beesley flyttade senare till Xerox, som köpte rättigheterna till ALPNET-data på 1990-talet. Detta finns dokumenterat i flera andra artiklar som Beesley har presenterat genom åren.

Kommentar till systemet

Buckwalter-translitterationen är ett ASCII -endast translitterationsschema, som representerar arabisk ortografi strikt en-till-en, till skillnad från de vanligare romaniseringsscheman som lägger till morfologisk information som inte uttrycks i arabisk skrift. Således kommer till exempel en wāw att translittereras till w oavsett om den realiseras som en vokal /uː/ eller en konsonant /w/ . Först när wāw modifieras av en hamza ( ؤ ) ändras translitterationen till & . Detta gör att användaren kan skriva eller konvertera text exakt som den ses.

Det har dock förekommit en del kritik mot translitterationsschemat. Vissa användare uppger att de omodifierade bokstäverna är enkla att läsa (förutom * =dhaal och E =ayin, v =thaa), men translitterationerna av bokstäver med diakritiska tecken och harakat tar lite tid att vänja sig vid, till exempel den nunerade - un, -an, -in visas som N, F, K och sukūn ("ingen vokal") som o . Taʾ marbūṭah ة är p . Svårigheten har förmodligen inträffat eftersom Buckwalter-translitterationen vanligtvis används och/eller presenteras utan logiken bakom bokstäverna. Även om de särskilda bokstäverna verkar vara slumpmässiga är de faktiskt mnemoniskt kopplade till originalbrevet.

Dessutom, sedan det ursprungliga Buckwalter-schemat utvecklades, har flera andra varianter dykt upp, även om de inte alla är standardiserade. Buckwalter-translitteration är inte kompatibel med XML, så "XML-säkra" versioner ändrar ofta följande tecken: < > & (أ إ respektive ؤ; Buckwalter föreslår att de translittereras som IOW, respektive). Helt "säkra" translitterationsscheman ersätter alla icke-alfanumeriska tecken (som $';*) med alfanumeriska tecken.

Vid translitterering av arabisk text kan flera andra problem uppstå. För det första är vissa arabiska tecken inte specificerade i translitterationstabellen, inklusive icke-alfabetiska tecken som ۞ och ۝ , skiljetecken som ؛ ؟ och östliga arabiska siffror . På liknande sätt kommer ibland arabiska meningar att låna icke-arabiska bokstäver från persiska, av vilka några definieras i den fullständiga Buckwalter-tabellen. Symboler som inte är definierade i translitterationstabellen kan raderas, behållas som icke-latinska symboler inbäddade i translittererad text, eller translittereras till olika (icke motstridiga) latinska symboler. (Det är till exempel enkelt att konvertera från hindisiffror till arabiska siffror.) En annan fråga som uppstår är hur man hanterar translittererande arabisk text med inbäddad ASCII-text; till exempel en arabisk mening som refererar till "IBM" eller en arabisk mening som innehåller ett citat på engelska. Om den latinska texten inte är explicit markerad är det en utmaning att skilja translittererad arabiska från latin. Om translittererad text med inbäddad latin senare translittereras tillbaka till arabiska, kommer den latinska texten att translittereras till smutsarabiska. Slutligen, ett annat viktigt beslut att fatta är hur mycket normalisering av den arabiska texten bör göras under translitterering. Detta kan inkludera att ta bort kashida , ta bort korta vokaler och/eller andra diakritiska tecken och/eller normalisera stavningen.

Å andra sidan användes inte alla typiska markeringar man kan förvänta sig att använda när man skriver - !@#%?.,;:()[]+= eftersom de också används i arabisk text. Således, om engelska IBM förekom på engelska, i den arabiska texten var det i det ursprungliga konceptet tänkt att markeras genom att sätta dubbla citattecken runt det: ""IBM"". Denna mekanism gör det möjligt för automatisk språkbehandling att äga rum och lämnar icke-arabisk text som den är, obearbetad när den ser de dubbla citattecken. Ursprungligen användes inte ens < > & heller, särskilt < > som är franska lånade citattecken eftersom de ibland används i arabisk text. Dessa tillkom senare som en nödvändighet. Deras XML-säkra versioner förblir med den mnemoniska enheten som utformats (och diskuteras nedan) genom att IOW motsvarar (om det är oprecist) vart och ett av de ljud som görs.

Nyckelbegrepp i utvecklingen av bordet

Det fanns tre nyckelbegrepp som användes i translitterationsschemat:

Den första var att varje arabisk bokstav (ljud) bara kan motsvara ett engelskspråkigt tecken. Vissa arabiska bokstäver ger ett ljud som motsvarar 2 engelska bokstäver när de skrivs. Därför måste en enda bokstav eller gemensam symbol användas för dem.

Det andra konceptet var att använda det välbekanta om möjligt. Om en arabisk bokstav alltid hade associerats med bokstaven "s" på engelska, till exempel, skulle det vara lättare att komma ihåg om det kunde hållas så.

Det tredje nyckelbegreppet var att bordet måste vara helt, lätt mnemoniskt. Därför korrelerar varje enskilt objekt i följande preferensordning a) till ljudet av den arabiska bokstaven, eller b) till en fysisk aspekt av den ursprungliga arabiska bokstaven eller, c) till namnet den kallas .

Mekanik

Små bokstäver användes i första hand. Men när det finns flera arabiska bokstäver som har liknande ljud användes för mer öppna ljud den gemena bokstaven och för mer nära/begränsade ljud användes en stor bokstav. Till exempel på arabiska finns det två bokstäver som liknar [d] i engelska ljud. Det enkla ljudet fick ett litet "d" och det eftertryckliga ljudet [dˤ] tilldelades ett versalt "D".

Med andra ord, en stor bokstav indikerar att bokstaven liknar en liten bokstav – men har en kvalitativ skillnad på något sätt.

Buckwalter translitterationstabell

Arabiska bokstäver	ا	ب	ت	ث	ج	ح	خ	د	ذ	ر	ز	س	ش	ص	ض	ط	ظ	ع	غ	ف	ق	ك	ل	م	ن	ه	و	í	<a i=1>ی ‎
DIN 31635	ʾ / ā	b	t	ṯ	ǧ	ḥ	ḫ	d	ḏ	r	z	s	š	ṣ	ḍ	ṭ	ẓ	ʿ	ġ	f	q	k	l	m	n	h	w / ū	y	ī
Buckwalter	A			v	j	H	x		*				$	S	D	T	Z	E	g								w	y	Y
Qalam	'/aa			th			kh		dh				sh					`	gh								w	y	Y
BATR	A/aa			c			K		z'				x					E	g								w/uu	y	ii
IPA ( MSA )	ʔ , aː	b	t	θ	dʒ ɡ ʒ	ħ	x	d	ð	r	z	s	ʃ	sˤ	dˤ	tˤ	ðˤ zˤ	ʕ	ɣ	f	q	k	l	m	n	h	w , uː	j , iː

hamza

ensam hamza:'
hamza på alif: >
hamza under alif:
hamza on wa: &
hamza på dig: }

alif

madda på alif: |
alif al-wasla: {
dolk alif : `
alif maqsura: Y

harakat

fatha: a
damma: u
kasra: i
fathatayn: F
dammatayn: N
kasratayn K
shadda: ~
sukun: o

ta marbouta: p

tatwil: _

Mnemonics

ا	A	Denna bokstav uttalas vanligtvis [aː] . Det är inte gemener "a" eftersom det skulle strida mot det fatha diakritiska tecknet som uttalas kortare, [a]
ب	b	Uttalad [b] .
ة	sid	Detta är tah marbutah och ett "p" ser väldigt likt det sätt som det skrivs när det är kopplat till en föregående bokstav.
ت	t	Uttalad [t] .
ث	v	Uttalad [θ] . Det finns 3 prickar ovanför det som när det skrivs ser ut som ett upp och nervänt "v" - därför användes ett "v".
ج	j	Uttalad [dʒ]
ح	H	Den här bokstaven uttalas [ħ] och den står i konflikt med [h] -ljudet för en annan bokstav, så en stor bokstav "H" används.
خ	x	Uttalad [x] .
د	d	Uttalad [d] .
ذ	*	Uttalad [ð] . Den har en prick ovanför så den enda asterisken som liknar en prick ovanför linjen användes.
ر	r	Uttalad [r] .
ز	z	Uttalad [z] .
س	s	Uttalad [s] .
ش	$	Uttalad [ʃ] . Dollartecknet användes för att det ser ut som "s" men också har en extra egenskap, en linje genom den. Versalt "S" kunde inte användas eftersom det används för en annan bokstav.
ص	S	Uttalad [sˤ] .
ض	D	Uttalad [dˤ] .
ط	T	Uttalad [tˤ]
ظ	Z	Uttalad [ðˤ~zˤ]
ع	E	Uttalas [ʕ] , ett ljud som inte finns på engelska, så en rent visuell mnemonik användes: denna bokstav och bokstaven E ser likadana ut.
غ	g	Uttalas [ɣ~ʁ] , ljud finns inte på engelska. Det har ofta skrivits som "gh", så "g" behölls och användes också en visuell mnemonik. Den har ett liknande utseende som den gemena bokstaven "g".
ف	f	Uttalad [f] .
ق	q	Uttalad [q] .
ك	k	Uttalad [k] .
ل	l	Uttalad [l] .
م	m	Uttalad [m] .
ن	n	Uttalad [n] .
ه	h	Uttalad [h] .
و	w	Uttalas vanligtvis [w] .
ی	Y	Uttalad [aː] . En visuell mnemonik användes eftersom den ser ut som nästa bokstav, men den har inga prickar under.
í	y	Uttalad [j] .
ً	F	Uttalas [an] . På arabiska kallas detta för fathatan , den dubbla fatha . Versaler "F" eftersom gemener redan används
ٌ	N	Uttalad [un] . Gemener "n" används redan, och för överensstämmelse med "F" för nunerade [ an] används stora bokstäver "N".
ٍ	K	Uttalas [i] . Detta är kasratan , den nunerade kasra . Gemener "k" används redan, och för överensstämmelse med "F" för nunerade [an] används versaler "K".
َ	a	Uttalad [a] .
ُ	u Uttalad [u] .
ِ	i	Uttalad [i] .
ّ	~	Detta är shadda , som är en gemination av konsonanten som är ovan. Tilden är också en markering som sitter ovanför en bokstav och finns på de flesta engelska tangentbord. Det är en "fysisk mnemonik".
ْ	o	Detta är "sukun" och representerar att det inte finns något vokalljud på den bokstaven. Ett nära visuellt minnesmärke med gemener "o" användes.

Det ursprungliga ALPNET-teamet antog snabbt detta schema. Även om Beesley inte hade någon bakgrund i arabiska kunde han snabbt förstå och använda den. Styrkan med Buckwalter-translitterationen är att varje enskild arabisk bokstav representeras distinkt. Ändå gör dess beroende av traditionella translitterationer eller mnemoniska enheter för allt otraditionellt det mycket lätt att lära sig.

Prov

Den första artikeln i den allmänna förklaringen om de mänskliga rättigheterna :

Arabisk text

يُولَدُ جَمِيعُ ٱلنَّاسِ أَحْرَارًا مُتَسَاوِينَ فِي ٱلؒكمََوَا ٱلؒكمَََا قِ. وَقَدْ وُهِبُوا عَقْلًا وَضَمِيرًا وَعَلَيْهِمْ أَُنْ يُعَامِبعمٹامِ َعْضًا بِرُوحِ ٱلْإِخَاءِ.

Buckwalter-translitteration

yuwladu jamiyEu {ln~aAsi >aHoraArFA mutasaAwiyna fiy {lokaraAmapi wa{loHuquwqi. waqado wuhibuwA EaqolFA waDamiyrFA waEalayohimo >ano yuEaAmila baEoDuhumo baEoDFA biruwHi {lo

DIN 31635

Yūladu ǧamīʿu n-nāsi ʾaḥrāran mutasāwīna fī l-karāmati wa-l-ḥuqūq. Wa-qad wuhibū ʿaqlan wa-ḍamīran wa-ʿalayhim ʾan yuʿāmila baʿḍuhum baʿḍan bi-rūḥi l-ʾiḫāʾi.

Engelsk text

Alla människor är födda fria och lika i värdighet och rättigheter. De är utrustade med förnuft och samvete och bör handla mot varandra i en anda av broderskap.

Anteckningar

externa länkar