Medoid

Medoider är representativa objekt för en datamängd eller ett kluster inom en datamängd vars summa av olikheter till alla objekt i klustret är minimal. Medoider liknar till begrepp medel eller centroider , men medoider är alltid begränsade till att vara medlemmar i datamängden. Medoider används oftast på data när ett medelvärde eller tyngdpunkt inte kan definieras, såsom grafer. De används också i sammanhang där tyngdpunkten inte är representativ för datamängden som i bilder, 3D-banor och genuttryck (där medan data är sparsam behöver medoiden inte vara). Dessa är också av intresse samtidigt som man vill hitta en representant som använder något annat avstånd än kvadratiskt euklidiskt avstånd (till exempel i filmbetyg).

För vissa datamängder kan det finnas mer än en medoid, som med medianer. En vanlig tillämpning av medoiden är k-medoidernas klustringsalgoritm, som liknar k- medelalgoritmen men fungerar när ett medelvärde eller tyngdpunkt inte är definierbart. Denna algoritm fungerar i princip enligt följande. Först väljs en uppsättning medoider slumpmässigt. För det andra beräknas avstånden till de andra punkterna. För det tredje är data klustrade enligt den medoid de liknar mest. För det fjärde optimeras medoiduppsättningen via en iterativ process.

Observera att en medoid inte är likvärdig med en median , en geometrisk median eller tyngdpunkt . En median definieras endast på 1-dimensionell data, och den minimerar endast olikhet med andra punkter för mått som induceras av en norm (som Manhattan-avståndet eller Euklidiskt avstånd ). En geometrisk median definieras i vilken dimension som helst, men är inte nödvändigtvis en punkt från den ursprungliga datamängden.

Definition

Låt vara en uppsättning av punkter i ett utrymme med en avståndsfunktion d. Medoid definieras som

Klustring med Medoids

Medoider är en populär ersättning för klustermedelvärdet när avståndsfunktionen inte är (kvadrat) euklidiskt avstånd, eller inte ens ett metriskt (eftersom medoiden inte kräver triangelolikheten). När datauppsättningen partitioneras i kluster kan medoiden för varje kluster användas som en representant för varje kluster.

Klustringsalgoritmer baserade på idén om medoider inkluderar:

Algoritmer för att beräkna medelvärdet för en uppsättning

Från definitionen ovan är det tydligt att medoiden för en mängd kan beräknas efter att ha beräknat alla parvisa avstånd mellan punkter i ensemblen. Detta skulle ta avståndsutvärderingar (med ). I värsta fall kan man inte beräkna medoiden med färre avståndsutvärderingar. Det finns dock många tillvägagångssätt som gör att vi kan beräkna medoider antingen exakt eller ungefär i sub-kvadratisk tid under olika statistiska modeller.

Om punkterna ligger på den verkliga linjen, reduceras beräkning av medoiden till beräkning av medianen som kan göras i med snabbvalsalgoritmen från Hoare. I högre dimensionella reella utrymmen är dock ingen linjär-tidsalgoritm känd. RAND är en algoritm som uppskattar det genomsnittliga avståndet för varje punkt till alla andra punkter genom att sampla en slumpmässig delmängd av andra punkter. Det krävs totalt avståndsberäkningar för att approximera medoiden inom en faktor på med hög sannolikhet, där är det maximala avståndet mellan två punkter i ensemblen. Observera att RAND är en approximationsalgoritm, och dessutom kanske inte är känd apriori.

RAND utnyttjades av TOPRANK som använder uppskattningarna som erhållits av RAND för att fokusera på en liten delmängd av kandidatpoäng, utvärderar det genomsnittliga avståndet för dessa punkter exakt och väljer minimum av dessa. TOPRANK behöver avståndsberäkningar för att hitta den exakta medoiden med hög sannolikhet under ett fördelningsantagande på medelavstånden.

trimed presenterar en algoritm för att hitta medoiden med avståndsutvärderingar under ett fördelningsantagande på punkterna. Algoritmen använder triangelolikheten för att minska sökutrymmet.

Meddit utnyttjar en koppling av medoidberäkningen med flerarmade banditer och använder en upper-Confidence-bound typ av algoritm för att få en algoritm som tar avståndsutvärderingar under statistiska antaganden på punkterna.

Korrelerad sekventiell halvering utnyttjar också flerarmade bandittekniker, vilket förbättrar Meddit . Genom att utnyttja korrelationsstrukturen i problemet kan algoritmen bevisligen ge en drastisk förbättring (vanligtvis runt 1-2 storleksordningar) i både antal avståndsberäkningar som behövs och väggklockans tid.

Genomföranden

En implementering av RAND , TOPRANK och trimed finns här . En implementering av Meddit finns här och här . En implementering av Correlated Sequential Halving finns här .

  1. ^ Struyf, Anja; Hubert, Mia ; Rousseeuw, Peter (1997). "Klustring i en objektorienterad miljö" . Journal of Statistical Software . 1 (4): 1–30.
  2. ^   van der Laan, Mark J. ; Pollard, Katherine S.; Bryan, Jennifer (2003). "En ny uppdelning runt Medoids-algoritmen" . Journal of Statistical Computation and Simulation . Taylor & Francis Group. 73 (8): 575–584. doi : 10.1080/0094965031000136012 . S2CID 17437463 .
  3. ^ a b Newling, James; & Fleuret, François (2016); "A sub-quadratic exact medoid algorithm", i Proceedings of the 20th International Conference on Artificial Intelligence and Statistics, PMLR 54:185-193, 2017 Tillgänglig online .
  4. ^ a b Bagaria, Vivek; Kamath, Govinda M.; Ntranos, Vasilis; Zhang, Martin J.; & Tse, David N. (2017); "Medoider i nästan linjär tid via flerarmade banditer", arXiv preprint Tillgänglig online .
  5. ^ Hoare, Charles Antony Richard (1961); "Algorithm 65: find", i Communications of the ACM , 4 (7), 321-322
  6. ^ Eppstein, David ; & Wang, Joseph (2006); "Snabb approximation av centralitet", i Graph Algorithms and Applications , 5 , s. 39-45
  7. ^ Okamoto, Kazuya; Chen, Wei; & Li, Xiang-Yang (2008); "Ranking av närhetscentralitet för storskaliga sociala nätverk" , i Preparata, Franco P.; Wu, Xiaodong; Yin, Jianping (red.); Frontiers in Algorithmics Workshop 2008 , Lecture Notes in Computer Science , 5059 , 186-195
  8. ^ Baharav, Tavor Z.; & Tse, David N. (2019); "Ultra Fast Medoid Identification via Correlated Sequential Halving", i Advances in Neural Information Processing Systems , tillgänglig online