Relationsberoende nätverk
Relationsberoendenätverk (RDN) är grafiska modeller som utökar beroendenätverk för att ta hänsyn till relationsdata. Relationsdata är data organiserade i en eller flera tabeller, som är korsrelaterade genom standardfält. En relationsdatabas är ett kanoniskt exempel på ett system som tjänar till att upprätthålla relationsdata. Ett relationellt beroendenätverk kan användas för att karakterisera kunskapen som finns i en databas.
Introduktion
Relational Dependency Networks (eller RDN) syftar till att få den gemensamma sannolikhetsfördelningen över variablerna i en datauppsättning representerad i den relationella domänen. De är baserade på beroendenätverk (eller DN) och utökar dem till relationsmiljön. RDN:er har effektiva inlärningsmetoder där ett RDN kan lära sig parametrarna oberoende, med de villkorade sannolikhetsfördelningarna uppskattade separat. Eftersom det kan finnas vissa inkonsekvenser på grund av den oberoende inlärningsmetoden, använder RDN:er Gibbs sampling för att återställa gemensam distribution, som DN:er.
Till skillnad från beroendenätverk behöver RDN:er tre grafer för att representera dem fullt ut.
- Datagraf: Noderna i denna graf representerar objekt från datamängden, och kanter representerar beroenden mellan dessa objekt. Varje objekt och kant får en typ, och varje objekt har en attributuppsättning.
- Modelldiagram: En högre ordningsgraf som representerar typer. Noderna i denna graf representerar attributen för en given typ, och kanterna representerar beroenden mellan attribut. Beroendena kan vara mellan attribut av samma typ eller olika typer.
- Varje nod är associerad med en sannolikhetsfördelning som är betingad till dess överordnade noder. Modellgrafen gör inga antaganden om datamängden, vilket gör den tillräckligt generell för att stödja olika data som representeras av datagrafen. Således är det möjligt att använda en given datamängd för att lära sig modellgrafens struktur och villkorliga sannolikhetsfördelningar och sedan generera slutledningsgrafen från modelldiagrammet som tillämpas på en datagraf som representerar en annan uppsättning data.
- Inferensgraf: En graf som genereras från datagrafen och modelldiagrammet i en process som kallas "utrullning". Inferensgrafer är i allmänhet större än både datagrafer och modellgrafer, eftersom varje enskilt attribut för ett enskilt objekt är en instans på inferensgrafen vars egenskaper motsvarar attributet som hämtas från modellgrafen.
Datagrafen vägleder med andra ord hur modelldiagrammet kommer att rullas ut för att generera slutledningsdiagrammet.
RDN-inlärning
Inlärningsmetoderna för en RDN liknar den som används av en DN:er. dvs alla betingade sannolikhetsfördelningar kan läras för var och en av variablerna oberoende. Emellertid kan endast villkorliga relationella inlärare användas under parameteruppskattningsprocessen för RDN:er. fungerar inte de elever som används av DN:er, som beslutsträd eller logistisk regression , för RDN:er.
Neville, J., & Jensen, D. (2007) genomförde några experiment som jämförde RDN:er vid inlärning med Relational Bayesian Classifiers och RDN:er vid inlärning med Relational Probability Trees. Natarajan et al. (2012) använde en serie regressionsmodeller för att representera villkorsfördelningar.
Denna inlärningsmetod gör RDN till en modell med en effektiv inlärningstid. Denna metod gör emellertid också RDN:er mottagliga för vissa strukturella eller numeriska inkonsekvenser. Om den villkorade sannolikhetsfördelningsuppskattningsmetoden använder funktionsval, är det möjligt att en given variabel hittar ett beroende mellan sig själv och en annan variabel medan den senare inte hittar detta beroende. I detta fall är RDN strukturellt inkonsekvent. Dessutom, om den gemensamma fördelningen inte summerar till en på grund av de approximationer som orsakas av den oberoende inlärningen, kallas det en numerisk inkonsekvens. Sådana inkonsekvenser kan emellertid förbigås under slutledningssteget.
RDN-inferens
RDN-inferens börjar med skapandet av en slutledningsgraf genom en process som kallas utrullning. I denna process rullas modellgrafen ut över datagrafen för att bilda slutledningsgrafen. Därefter Gibbs samplingsteknik användas för att återställa en betingad sannolikhetsfördelning.
Ansökningar
RDN:er har använts i många verkliga domäner. De främsta fördelarna med RDN:er är deras förmåga att använda relationsinformation för att förbättra modellens prestanda. Diagnos, prognostisering, automatiserad vision, sensorfusion och tillverkningskontroll är några exempel på problem där RDN:er tillämpades.
Genomföranden
Några förslag på RDN-implementationer:
- BoostSRL: Ett system specialiserat på gradientbaserad boosting approach-inlärning för olika typer av statistiska relationsbaserade inlärningsmodeller, inklusive Relational Dependency Networks. För mer detaljer och notationer, se Natarajan et al. (2011).