Clusteranalyse is een statistische techniek die wordt gebruikt om te identificeren hoe verschillende eenheden, zoals mensen, groepen of samenlevingen, kunnen worden gegroepeerd vanwege gemeenschappelijke kenmerken. Ook bekend als clustering, is het een verkennend hulpmiddel voor gegevensanalyse dat tot doel heeft verschillende objecten in groepen te sorteren op een manier dat wanneer ze behoren tot dezelfde groep hebben ze een maximale mate van associatie en wanneer ze niet tot dezelfde groep behoren is hun mate van associatie dat wel minimaal. In tegenstelling tot sommige andere statistische technieken, de structuren die door clusteranalyse worden blootgelegd, hebben geen uitleg of interpretatie nodig - het ontdekt structuur in de gegevens zonder uit te leggen waarom ze bestaan.
Wat is clustering?
Clustering bestaat in bijna elk aspect van ons dagelijks leven. Neem bijvoorbeeld items in een supermarkt. Verschillende soorten items worden altijd weergegeven op dezelfde of nabijgelegen locaties: vlees, groenten, frisdrank, ontbijtgranen, papierproducten, enz. Onderzoekers willen vaak hetzelfde doen met gegevens en objecten of onderwerpen groeperen in logische clusters.
Om een voorbeeld te nemen uit de sociale wetenschappen, laten we zeggen dat we naar landen kijken en ze willen groeperen in clusters op basis van kenmerken zoals arbeidsverdeling, legers, technologie of geschoolde bevolking. We zouden ontdekken dat Groot-Brittannië, Japan, Frankrijk, Duitsland en de Verenigde Staten vergelijkbare kenmerken hebben en samen zouden worden geclusterd. Oeganda, Nicaragua en Pakistan zouden ook worden gegroepeerd in een andere cluster omdat ze een andere set kenmerken delen, waaronder lage welvaartsniveaus, eenvoudigere arbeidsverdelingen, relatief onstabiele en ondemocratische politieke instellingen en lage technologische ontwikkeling.
Clusteranalyse wordt doorgaans gebruikt in de verkennende fase van onderzoek wanneer de onderzoeker er geen heeft vooraf bedachte hypothesen. Het is gewoonlijk niet de enige statistische methode die wordt gebruikt, maar wordt eerder in de vroege stadia van een project gedaan om de rest van de analyse te begeleiden. Om deze reden zijn significantietesten meestal niet relevant en ook niet geschikt.
Er zijn verschillende soorten clusteranalyse. De twee meest gebruikte zijn K-middelenclustering en hiërarchische clustering.
K-betekent Clustering
K-betekent clustering behandelt de waarnemingen in de gegevens als objecten met locaties en afstanden van elkaar (merk op dat de afstanden die worden gebruikt bij clustering vaak geen ruimtelijke afstanden vertegenwoordigen). Het verdeelt de objecten in K elkaar wederzijds uitsluitende clusters, zodat objecten binnen elk cluster hetzelfde zijn zo dicht mogelijk bij elkaar en tegelijkertijd zo ver mogelijk van objecten in andere clusters. Elke cluster wordt dan gekenmerkt door zijn gemiddelde of middelpunt.
Hiërarchische clustering
Hiërarchische clustering is een manier om groeperingen in de gegevens tegelijkertijd over verschillende schalen en afstanden te onderzoeken. Het doet dit door een clusterboom met verschillende niveaus te maken. In tegenstelling tot K-betekent clustering, is de boom geen enkele verzameling clusters. De boom is eerder een hiërarchie met meerdere niveaus waarbij clusters op één niveau worden samengevoegd als clusters op het volgende hogere niveau. Het algoritme dat wordt gebruikt, begint met elk geval of variabele in een apart cluster en combineert vervolgens clusters totdat er nog maar één over is. Zo kan de onderzoeker beslissen welk niveau van clustering het meest geschikt is voor zijn of haar onderzoek.
Een clusteranalyse uitvoeren
Meest statistieken softwareprogramma's kan clusteranalyse uitvoeren. Selecteer in SPSS analyseren uit het menu dan classificeren en clusteranalyse. In SAS, de proc cluster functie kan worden gebruikt.
Bijgewerkt door Nicki Lisa Cole, Ph.D.