Použitie klasifikácie v dolovaní dát

Klasifikácia je metóda získavania údajov, ktorá priraďuje kategórie ku zbierke údajov, aby pomohla pri presnejších predpovediach a analýzach. Tiež nazývané niekedy nazývané a Rozhodovací strom , klasifikácia je jednou z niekoľkých metód, ktoré majú efektívne robiť analýzu veľmi rozsiahlych súborov údajov.

Prečo klasifikácia?

Veľké databázy sa stávajú normou v dnešnom svete veľké dáta , Predstavte si databázu s viacerými terabajtami dát - terabajt je jeden bilión bajtov údajov.

Facebook samotný skrotiť 600 terabajtov nových dát každý deň (od roku 2014, keď naposledy ohlásil tieto špecifikácie). Hlavnou výzvou veľkých údajov je, ako to urobiť zmysel.

Úplný objem nie je jediný problém: veľké údaje majú tendenciu byť rôznorodé, nestrukturované a rýchlo sa meniace. Zvážte audio a video dáta, príspevky zo sociálnych médií, 3D dáta alebo geopriestorové dáta. Tento druh údajov nie je ľahko kategorizovaný ani organizovaný.

Na splnenie tejto výzvy sa medzi sebou vyvinul celý rad automatických metód na získavanie užitočných informácií klasifikácia .

Ako funguje klasifikácia

Pri nebezpečenstve, že príliš ďaleko prejdem k tech-speak, poďme diskutovať o tom, ako funguje klasifikácia. Cieľom je vytvoriť súbor pravidiel klasifikácie, ktoré odpovedia na otázku, rozhodnú sa alebo predpovedajú správanie. Na začiatok sa vytvorí súbor tréningových údajov, ktorý obsahuje určitý súbor atribútov, ako aj pravdepodobný výsledok.

Úlohou algoritmu klasifikácie je zistiť, ako dosiahne tento súbor atribútov jeho záver.

Scenár: Možno, že spoločnosť s kreditnou kartou sa snaží určiť, ktoré vyhliadky by mali dostať ponuku kreditnej karty.

Môže ísť o súbor tréningových údajov:

**Výcvikové údaje**

názov	Vek	rod	Ročný príjem	Ponuka kreditnej karty
John Doe	25	M	$39,500	žiadny
Jane Doe	56	F	$125,000	Áno

Stĺpce "Prediktor" Vek , rod , a Ročný príjem určiť hodnotu "prediktorového atribútu" Ponuka kreditnej karty , V tréningovej množine je známy prediktorový atribút. Algoritmus klasifikácie sa potom snaží určiť, ako sa dosiahla hodnota prediktorového atribútu: aké vzťahy existujú medzi prediktormi a rozhodnutím? Vytvorí súbor predikčných pravidiel, zvyčajne vyhlásenie IF / THEN, napríklad:

AK (vek> 18 rokov alebo vek <75) A ročný príjem> 40 000 THEN Ponuka kreditnej karty = áno

Je zrejmé, že toto je jednoduchý príklad a algoritmus by potreboval oveľa väčší vzorkovací údaj než tu zaznamenané dve záznamy. Okrem toho pravdepodobnosť predikcie bude oveľa zložitejšia, vrátane podradených pravidiel na zachytenie podrobností o atribútoch.

Ďalej je algoritmu daná "predikčná sada" dát na analýzu, ale táto množina nemá predikčný atribút (alebo rozhodnutie):

**Predictor Data**

názov	Vek	rod	Ročný príjem	Ponuka kreditnej karty
Jack Frost	42	M	$88,000
Mary Murrayová	16	F	$0

Tieto údaje o prediktoroch pomáhajú odhadnúť presnosť pravidiel predpovedí a pravidlá sa potom upravia dovtedy, kým vývojár nepovažuje predpovede za efektívne a užitočné.

Každodenné príklady klasifikácie

Klasifikácia a ďalšie metódy dolovania dát sú za veľa našich každodenných skúseností ako spotrebiteľov.

Predpovede počasia môžu používať klasifikáciu na ohlásenie toho, či bude deň daždivý, slnečný alebo zakalený. Lekárska profesia môže analyzovať zdravotné podmienky na predpovedanie zdravotných výsledkov. Typ klasifikačnej metódy, Naive Bayesian, využíva podmienenú pravdepodobnosť kategorizácie nevyžiadaných e-mailov. Od detekcie podvodov až po ponuku produktov, klasifikácia je v zákulisí každý deň analyzovaním údajov a vytváraním predpovedí.