Suffix trädklustring

Suffix Tree Clustering , ofta förkortat som STC, är en metod för klustring som använder suffixträd . Ett suffixträdkluster håller reda på alla n-gram av en given längd som ska infogas i en uppsättning ordsträng samtidigt som olika strängar kan infogas inkrementellt i linjär ordning. Detta har fördelen att säkerställa att ett stort antal kluster kan hanteras sekventiellt. En potentiell nackdel kan dock vara att det också ökar antalet möjliga dokument som behöver tittas igenom vid hantering av stora uppsättningar data . Suffixträdkluster kan antingen vara sönderfallande eller agglomerativa till sin natur, beroende på vilken typ av data som hanteras.