Skip to main content

Dolovanie dát pomocou klastrovania K-prostriedkov

Anonim

k- znamená algoritmus zoskupovania je nástroj na dolovanie dát a strojový vzdelávací nástroj, ktorý sa používa na zoskupovanie pozorovaní do skupín súvisiacich pozorovaní bez predchádzajúcej znalosti týchto vzťahov. Odberom vzoriek sa algoritmus pokúša zobraziť, do ktorej kategórie alebo klastra patria údaje, pričom počet klastrov je definovaný hodnotou k.

k- znamená, že algoritmus je jedným z najjednoduchších techník zhlukovania a bežne sa používa v lekárskom zobrazovaní, biometrii a príbuzných odboroch. Výhoda k- znamená zhlukovanie, že informuje o vašich údajoch (pomocou svojej bez dozoru), skôr než, aby ste museli poučiť algoritmus o údajoch na začiatku (pomocou kontrolovaného formulára algoritmu).

Niekedy sa označuje ako Lloydov algoritmus, najmä v kruhoch počítačov, pretože štandardný algoritmus bol prvýkrát navrhnutý Stuartom Lloydom v roku 1957. Termín "k-prostriedky" bol vytvorený v roku 1967 Jamesom McQueenom.

Ako funguje algoritmus K-znamená algoritmus

k- znamená algoritmus je evolučný algoritmus, ktorý získava svoje meno z jeho spôsobu činnosti. Algoritmus zhlukuje pozorovania k skupiny, kde k ako vstupný parameter. Potom priraďuje každému pozorovaniu zhluky na základe pozorovacej blízkosti k priemeru zhluku. Potom sa priemer klastra prepočíta a proces sa znova začne. Tu funguje algoritmus:

  1. Algoritmus ľubovoľne vyberie k ako východiskové klastrové centrá (prostriedky).
  2. Každý bod v množine údajov je priradený uzatvorenému klastra na základe euklidovskej vzdialenosti medzi každým bodom a každým stredom klastra.
  3. Každé centrum klastra sa prepočítava ako priemer bodov v tomto klastri.
  4. Kroky 2 a 3 zopakujte, kým sa zhluky zhromaždia. Konvergencia môže byť definovaná odlišne v závislosti od implementácie, ale zvyčajne to znamená, že pri krokoch 2 a 3 sa žiadne zmeny nezmenia, keď sa kroky 2 a 3 opakujú, alebo že zmeny nedávajú podstatný rozdiel v definícii klastrov.

Výber počtu klastrov

Jedným z hlavných nevýhod k- znamená zoskupenie je skutočnosť, že musíte uviesť počet klastrov ako vstup do algoritmu. Navrhnutý algoritmus nie je schopný určiť vhodný počet klastrov a závisí od toho, že ho používateľ vopred identifikuje.

Napríklad, ak ste mali skupinu ľudí, ktoré majú byť zhromaždené na základe binárnej pohlavnej identity ako muž alebo žena, k- znamená algoritmus používajúci vstup k = 3 by núti ľudí do troch klastrov, ak len dva, alebo vstup k = 2, by bolo prirodzenejšie.

Podobne, ak bola skupina jednotlivcov ľahko zhromaždená na základe domáceho stavu a zavolali ste k- znamená algoritmus so vstupom k = 20, výsledky by mohli byť príliš všeobecné, aby boli účinné.

Z tohto dôvodu je často dobré experimentovať s rôznymi hodnotami k identifikovať hodnotu, ktorá najlepšie vyhovuje vašim údajom. Tiež by ste mohli chcieť preskúmať použitie iných algoritmov dolovania údajov vo vašom úsilí o znalosti získané z počítača.