Diskretisering av kontinuerliga funktioner

Inom statistik och maskininlärning hänvisar diskretisering till processen att konvertera eller partitionera kontinuerliga attribut , funktioner eller variabler till diskretiserade eller nominella attribut/funktioner/variabler/ intervall . Detta kan vara användbart när du skapar sannolikhetsmassfunktioner – formellt i densitetsuppskattning . Det är en form av diskretisering i allmänhet och även av binning , som att göra ett histogram . Närhelst kontinuerlig data diskretiseras, finns det alltid en viss mängd diskretiseringsfel . Målet är att minska mängden till en nivå som anses försumbar för de aktuella modelleringssyften .

Typiskt diskretiseras data i partitioner med K lika längder/bredd (lika intervall) eller K% av den totala datan (lika frekvenser).

Mekanismer för att diskretisera kontinuerlig data inkluderar Fayyad & Iranis MDL-metod, som använder ömsesidig information för att rekursivt definiera de bästa papperskorgen, CAIM, CACC, Ameva och många andra

Många maskininlärningsalgoritmer är kända för att producera bättre modeller genom att diskretisera kontinuerliga attribut.

programvara

Detta är en ofullständig lista över programvara som implementerar MDL-algoritm.

Se även

  1. ^ Clarke, EJ; Barton, BA (2000). "Entropi och MDL-diskretisering av kontinuerliga variabler för Bayesianska trosnätverk" ( PDF) . International Journal of Intelligent Systems . 15 :61–92. doi : 10.1002/(SICI)1098-111X(200001)15:1<61::AID-INT4>3.0.CO;2-O . Hämtad 2008-07-10 .
  2. ^ Fayyad, Usama M.; Irani, Keki B. (1993) "Multi-Interval Discretion of Continuous-Valued Attributes for Classification Learning" (PDF) . hdl : 2014/35171 . , Proc. 13:e Int. Gemensam konf. om artificiell intelligens (Q334 .I571 1993), s. 1022-1027
  3. ^ Dougherty, J.; Kohavi, R.; Sahami, M. (1995). " Övervakad och oövervakad diskretisering av kontinuerliga funktioner" . I A. Prieditis & SJ Russell, red. Arbete . Morgan Kaufmann, s. 194-202
  4. ^   Kotsiantis, S.; Kanellopoulos, D (2006). "Diskretiseringstekniker: En färsk undersökning". GESTS Internationella transaktioner inom datavetenskap och teknik . 32 (1): 47–58. CiteSeerX 10.1.1.109.3084 .