CEDAR-RÄV

Detta är ett mjukvarusystem för rättsmedicinsk jämförelse av handstil . Det utvecklades vid CEDAR , Center of Excellence for Document Analysis and Recognition vid University at Buffalo. CEDAR-FOX har möjligheter för interaktion med den tillfrågade dokumentgranskaren för att gå igenom bearbetningssteg som att extrahera områden av intresse från ett skannat dokument, bestämma linjer och ord i text, känna igen textelement. Det slutliga målet är att jämföra två skrivprov för att bestämma log-sannolikhetsförhållandet under åtals- och försvarshypoteserna. Den kan också användas för att jämföra signaturprover. Programvaran, som är skyddad av ett amerikanskt patent, kan licensieras från Cedartech, Inc.

Detaljer

Författarverifiering är uppgiften att avgöra om två handskrivna prov är skrivna av samma författare eller inte. Det används i ifrågasatt dokumentgranskare. Genom att använda en uppsättning mätvärden kan CedarFox associera ett mått av förtroende oavsett om två dokument är skrivna av samma individ eller av olika individer. CedarFox låter dig välja antingen hela dokumentet eller en specifik del av ett dokument för att få jämförelsen. Jämförelsen baseras på makrofunktioner (som mäter globala egenskaper såsom lutning, anslutningsmöjligheter, etc.), mikrofunktioner (som är baserade på individuella karaktärsformer) och stilegenskaper (t.ex. former av karaktärspar eller bigram). Två olika sätt för skribentverifiering är tillgängliga: (i) ett ifrågasatt dokument jämförs med ett enda känt dokument (basen för denna jämförelse är statistik baserad på hur mycket variation en person kan ha), och (ii) ett ifrågasatt dokument jämförs mot "flera kända" dokument. Här lär sig systemet av de kända dokumenten om skribentens vanor. Minst fyra kända dokument måste vara tillgängliga för att använda detta läge. Uppgiften att identifiera användaren är uppdelad i två delar,

Dokumentbehandling och extrahering av funktioner

CEDAR-FOX utför olika operationer på dokument för att göra dem redo för jämförelse. De inkluderar tröskelvärde, radborttagning, linjesegmentering, ordsegmentering och transkriptionsmappning.

Analysera bildegenskapen.

Bildbehandling

Tröskelvärde konverterar en gråskalebild till binär för att separera förgrundspixel från bakgrundspixel. De tröskelmetoder som används är Otsus tröskelvärde, Adaptiv tröskelvärde och texturtröskel.
Om dokumentet är skrivet med regelradpapper kan användaren utföra en understrykningsborttagning. Även om transformering tillämpas för denna operation och användaren kan välja rätt tröskel för densamma. Att välja högt tröskelvärde kommer att resultera i att några av teckendragen tas bort och användaren måste komma med rätt värde för tröskeln.
Linjesegmentering separerar varje rad i dokumentet och använder konceptet Bi-Variate Gaussian Densities. Ordsegmentering fungerar på liknande sätt och separerar varje ord i dokumentet.

Ordsegmentering.
Transcript Matching är en grundsanningsmatchning där programvaran tillhandahålls en textfil som innehåller transkriptionen av den handskrivna bilden. Detta är användbart när olika ämnen krävs för att handskriva samma innehåll och sedan matchas med det okända dokumentet. Den hittar den bästa ordnivåanpassningen mellan transkription och den handskrivna bilden. Karaktärsbilderna extraheras och kan användas för att jämföra likheten mellan dokumentet.

Systemverktyg

CedarFox har användargränssnitt för att skanna dokument direkt samt för att lägga in resultaten direkt i kalkylblad och för att skriva ut mellanresultat. En databasåtkomst är också tillgänglig för att lagra dokumentmetadata.

Dokumentjämförelse

Många alternativ är tillgängliga med CEDAR-FOX för dokumentjämförelse. De fyra stora verifieringsmodellerna som används är

Identifiera diskriminerande element.

Funktionerna är uppdelade i makro (globala) och mikro (lokala) funktioner. Makrofunktioner beräknas på hela dokumentet medan mikrofunktioner beräknas på utvalda tecken/bi-gram/ord. Makrofunktionerna är gråskalebaserade, konturbaserade, lutningsbaserade, slagbredd, lutning, höjd och ordgap. Dessa funktioner används för jämförelse.

Kartläggning från objekt till avståndsutrymme genom att använda likhetsmått .

Jämförelsen av dokumentkartor från funktionsutrymme till avståndsutrymme. Makrofunktionerna är reellt värderade och så mappningen till avståndsrymd är den absoluta skillnaden mellan två funktioner. Likhet för binärt värderade funktioner kan beräknas med hjälp av hammingsavstånd, euklidiskt avstånd och etcetera. Korrelationslikhetsmått rekommenderas som det bästa måttet.

Parametrisk modellering av avståndsfördelningen med hjälp av pdf.

Fördelning för avståndsutrymme modelleras med hjälp av sannolikhetstäthetsfunktioner som representeras som Gauss- eller Gamma-fördelning. dokumentens karaktär påverkar mikrofunktionerna men inte makrofunktionerna. Likelihood Ratio(LR) beräknas följt av Log Likelihood Ratio(LLR).

Beräknar en 9-punkts styrka av bevis.

LLR kartläggs till en 9-gradig kvalitativ skala. Denna skala motsvarar styrkan av bevis som är associerad med LLR-värdet. Den följer 9-punktsskalan från ASTM-tekniken. [1- Identifierad som samma, 2-Mycket sannolikt, 3-Gjorde troligen, 4-Indikationer gjorde det, 5-Ingen slutsats, 6-Indikation gjorde det inte, 7-Förmodligen inte, 8-Mycket sannolikt inte, 9-Identifierad som Eliminering ].

Sökande

CedarFox har flera metoder för att söka i handskrivna dokument efter närvaron av nyckelord. Word spotting låter användaren välja en ordbild som en fråga, som används för att hitta liknande ordbilder i ett specificerat dokument. En annan typ av sökning låter användaren skriva in ett ord som används för att rangordna alla ord i dokumentet/dokumenten för att se hur sannolikt ordet matchar frågan.

Handskriftsigenkänning

CedarFox har automatisk karaktärsigenkänning. Ordigenkänning med ett fördefinierat lexikon är också inbyggt. Användaren kan också manuellt mata in teckenidentiteter om högsta teckenigenkänningsnoggrannhet önskas i syfte att skrivarverifiering/identifiering.

Jämföra handskriftsprover.

Läsbarhets- och läsbarhetsanalys

Jämförelse av ordgap och jämförelse med Palmer-mått stöds.

externa länkar