weka explorer visualization
Tento kurz vysvětluje, jak provádět vizualizaci dat, K-means klastrovou analýzu a dolování asociačních pravidel pomocí WEKA Explorer:
V Předchozí tutoriál , jsme se dozvěděli o datové sadě WEKA, klasifikátoru a algoritmu J48 pro rozhodovací strom.
Jak jsme viděli dříve, WEKA je nástroj pro dolování dat s otevřeným zdrojovým kódem používaný mnoha výzkumníky a studenty k provádění mnoha úkolů strojového učení. Uživatelé mohou také vytvářet své metody strojového učení a provádět experimenty na ukázkových datových sadách poskytovaných v adresáři WEKA.
Vizualizaci dat v WEKA lze provést pomocí ukázkových datových sad nebo uživatelských datových sad ve formátu .arff, .csv.
=> Přečtěte si celou sérii školení o strojovém učení
Dolování asociačních pravidel se provádí pomocí algoritmu Apriori. Je to jediný algoritmus poskytovaný společností WEKA k provádění časté těžby vzorků.
Existuje mnoho algoritmů přítomných v WEKA k provádění klastrové analýzy, například FartherestFirst, FilteredCluster a HierachicalCluster atd. Z nich použijeme SimpleKmeans, což je nejjednodušší metoda klastrování.
Co se naučíte:
- Těžba pravidel asociace pomocí průzkumníka WEKA
- Algoritmus K-means pomocí WEKA Explorer
- Implementujte vizualizaci dat pomocí WEKA
- Závěr
Těžba pravidel asociace pomocí průzkumníka WEKA
Podívejme se, jak implementovat dolování asociačních pravidel pomocí aplikace WEKA Explorer.
Těžba pravidel sdružení
Byl vyvinut a navržen Srikantem a Aggarwalem v roce 1994. Pomáhá nám najít vzory v datech. Jedná se o proces dolování dat, který vyhledává funkce, které se vyskytují společně, nebo funkce, které jsou ve vzájemném vztahu.
dotazy sql procvičují otázky s odpověďmi
Aplikace pravidel přidružení zahrnují analýzu Market Basket Analysis pro analýzu položek zakoupených v jednom košíku; Cross Marketing, abychom spolupracovali s dalšími podniky, což zvyšuje hodnotu našich obchodních produktů, jako je prodejce vozidel a ropná společnost.
Asociační pravidla jsou vytěžena poté, co jsou nalezeny časté sady položek ve velké datové sadě. Tyto datové sady se zjišťují pomocí těžebních algoritmů, jako jsou Apriori a FP Growth. Těžba častých položek těží data pomocí opatření podpory a důvěryhodnosti.
Podpora a důvěra
Podpěra, podpora měří pravděpodobnost, že dvě položky budou zakoupeny společně v rámci jedné transakce, například chleba s máslem. Důvěra je opatření, které uvádí pravděpodobnost, že budou zakoupeny dvě položky jedna po druhé, ale ne společně, jako je antivirový software pro notebooky a počítače.
Předpokládá se, že minimální prahová podpora a minimální prahové hodnoty spolehlivosti prořezávají transakce a zjišťují nejčastěji se vyskytující sadu položek.
Implementace pomocí WEKA Explorer
WEKA obsahuje implementaci Apriori algoritmus pro učení asociačních pravidel. Apriori pracuje pouze s binárními atributy, kategorickými daty (nominálními daty), takže pokud datová sada obsahuje jakékoli číselné hodnoty, převeďte je nejprve na nominální.
Apriori zjistí všechna pravidla s minimální prahovou hodnotou podpory a spolehlivosti.
Postupujte podle následujících pokynů:
# 1) Připravte datovou sadu souborů Excel a pojmenujte ji jako „ apriori.csv '.
#dva) Otevřete WEKA Explorer a na kartě Preprocess zvolte soubor „apriori.csv“.
# 3) Soubor se nyní načte v průzkumníku WEKA.
# 4) Odeberte pole Transakce zaškrtnutím políčka a kliknutím na Odebrat, jak je znázorněno na obrázku níže. Nyní uložte soubor jako „aprioritest.arff“.
# 5) Přejděte na kartu Přidružení. Odtud lze těžit pravidla apriori.
# 6) Kliknutím na Vybrat nastavíte parametry podpory a spolehlivosti. Zde lze nastavit různé parametry:
- ' lowerBoundMinSupport ' a ' upperBoundMinSupport ”, Toto je interval úrovně podpory, ve kterém bude náš algoritmus fungovat.
- Delta je přírůstek podpory. V tomto případě je 0,05 přírůstek podpory od 0,1 do 1.
- metricType mohou být „Důvěra“, „Výtah“, „Pákový efekt“ a „Přesvědčení“. To nám říká, jak hodnotíme pravidla přidružení. Obecně se volí důvěra.
- numRules říká počet pravidel přidružení, která se mají těžit. Ve výchozím nastavení je nastavena na 10.
- úroveň významnosti zobrazuje, jaký je význam úrovně spolehlivosti.
# 7) Tlačítko Textové pole vedle výběru zobrazuje „ Apriori-N-10-T-0-C-0,9-D 0,05-U1,0-M0,1-S-1,0-c-1 “, Který zobrazuje souhrnná pravidla nastavená pro algoritmus na kartě nastavení.
# 8) Klikněte na tlačítko Start. Pravidla přidružení jsou generována na pravém panelu. Tento panel se skládá ze 2 částí. První je algoritmus, datová sada zvolená ke spuštění. Druhá část ukazuje informace Apriori.
Rozumíme informacím o běhu v pravém panelu:
- Schéma nás využilo Apriori.
- Instance a atributy: Má 6 instancí a 4 atributy.
- Minimální podpora je 0,4 a minimální spolehlivost 0,9. Z 6 případů jsou nalezeny 2 instance s minimální podporou,
- Počet cyklů provedených pro pravidlo asociace těžby je 12.
- Generované velké sady položek jsou 3: L (1), L (2), L (3), ale tyto nejsou seřazeny, protože jejich velikosti jsou 7, 11 a 5.
- Nalezená pravidla jsou hodnocena. Výklad těchto pravidel je následující:
- Máslo T 4 => Pivo F 4: znamená ze 6, 4 případů, které ukazují, že u másla platí, že pivo je nepravdivé. To dává silnou asociaci. Úroveň spolehlivosti je 0,1.
Výstup
Pravidla přidružení lze vytěžit pomocí aplikace WEKA Explorer s algoritmem Apriori. Tento algoritmus lze použít na všechny typy datových sad dostupných v adresáři WEKA i na další datové sady vytvořené uživatelem. Podporu a důvěru a další parametry lze nastavit pomocí okna Nastavení algoritmu.
Algoritmus K-means pomocí WEKA Explorer
Podívejme se, jak implementovat algoritmus K-means pro shlukování pomocí WEKA Explorer.
Co je klastrová analýza
Clustering Algorithms are supervised learning algorithms used to create groups of data with similar characteristics. Agreguje objekty se podobnostmi do skupin a podskupin, což vede k rozdělení datových sad. Klastrová analýza je proces rozdělování souborů dat do podskupin. Tyto podmnožiny se nazývají shluky a množině shluků se říká shlukování.
Clusterová analýza se používá v mnoha aplikacích, jako je rozpoznávání obrázků, rozpoznávání vzorů, vyhledávání na webu a zabezpečení, v business intelligence, jako je seskupování zákazníků s podobnými zálibami.
Co je shlukování K-means
K znamená shlukování je nejjednodušší shlukovací algoritmus. V algoritmu K-klastrování je datová sada rozdělena do K-klastrů. Objektivní funkce se používá k nalezení kvality oddílů tak, aby podobné objekty byly v jednom klastru a odlišné objekty v jiných skupinách.
V této metodě se zjistí, že těžiště klastru představuje klastr. Těžiště se bere jako střed kupy, který se počítá jako střední hodnota bodů v kupě. Nyní je kvalita shlukování zjištěna měřením euklidovské vzdálenosti mezi bodem a středem. Tato vzdálenost by měla být maximální.
Jak funguje K-Mean Clustering Algorithm
Krok 1: Vyberte hodnotu K, kde K je počet klastrů.
Krok 2: Iterujte každý bod a přiřaďte k němu shluk, který má nejbližší střed. Když je každý prvek iterován, vypočítejte těžiště všech klastrů.
Krok č. 3: Iterujte každý prvek z datové sady a vypočítejte euklidovskou vzdálenost mezi bodem a těžištěm každého klastru. Pokud je v klastru nějaký bod, který k němu není nejblíže, přidělte tento bod nejbližšímu klastru a po provedení všech bodů v datové sadě znovu vypočítejte těžiště každého clusteru.
Krok č. 4: Provádějte krok č. 3, dokud mezi dvěma po sobě následujícími iteracemi nebude žádné nové přiřazení.
Implementace klastrů K-means pomocí WEKA
Kroky implementace pomocí Weky jsou následující:
# 1) Otevřete WEKA Explorer a klikněte na Otevřít soubor na kartě Předzpracování. Vyberte datovou sadu „vote.arff“.
#dva) Přejděte na kartu „Klastr“ a klikněte na tlačítko „Vybrat“. Vyberte metodu shlukování jako „SimpleKMeans“.
# 3) Zvolte Nastavení a poté nastavte následující pole:
- Funkce vzdálenosti jako Euklidián
- Počet shluků jako 6. S větším počtem shluků se sníží součet druhé mocniny chyby.
- Semeno jako 10. dne
Klikněte na OK a spusťte algoritmus.
# 4) Klikněte na Start v levém panelu. Výsledky zobrazení algoritmu na bílé obrazovce. Analyzujme informace o běhu:
- Schéma, vztah, instance a atributy popisují vlastnost datové sady a použitou metodu shlukování. V tomto případě má datová sada vote.arff 435 instancí a 13 atributů.
- U clusteru Kmeans je počet iterací 5.
- Součet druhé mocniny chyby je 1098,0. Tato chyba se sníží s nárůstem počtu klastrů.
- 5 finálních klastrů s centroidy je zobrazeno ve formě tabulky. V našem případě jsou centroidy klastrů 168,0, 47,0, 37,0, 122,0,33,0 a 28,0.
- Klastrované instance představují počet a procento celkových instancí klesajících v klastru.
# 5) Vyberte „Hodnocení tříd ke klastrům“ a klikněte na Start.
Algoritmus přiřadí štítku třídy klastru. Klastr 0 představuje republikána a Klastr 3 představuje demokraty. Nesprávně seskupená instance je 39,77%, což lze snížit ignorováním nedůležitých atributů.
# 6) Ignorovat nedůležité atributy. Klikněte na tlačítko „Ignorovat atributy“ a vyberte atributy, které chcete odebrat.
# 7) Pomocí karty „Vizualizovat“ vizualizujte výsledek algoritmu klastrování. Přejděte na kartu a klikněte na libovolné pole. Přesuňte Jitter na maximum.
- Osa X a osa Y představují atribut.
- Modrá barva představuje demokratický štítek třídy a červená barva představuje republikánský štítek třídy.
- Jitter se používá k prohlížení klastrů.
- Kliknutím na pole na pravé straně okna můžete změnit atribut souřadnic x a zobrazit shlukování s ohledem na další atributy.
Výstup
K znamená shlukování je jednoduchá metoda klastrové analýzy. Počet klastrů lze nastavit pomocí karty nastavení. Těžiště každého klastru se vypočítá jako průměr všech bodů v klastrech. S nárůstem počtu klastrů se snižuje součet čtvercových chyb. Objekty v klastru vykazují podobné vlastnosti a vlastnosti. Klastry představují popisky tříd.
Implementujte vizualizaci dat pomocí WEKA
Vizualizace dat
Metoda reprezentace dat prostřednictvím grafů a grafů s cílem jasného pochopení dat je vizualizace dat.
Existuje mnoho způsobů, jak reprezentovat data. Některé z nich jsou následující:
# 1) Vizualizace orientovaná na pixely: Zde barva pixelu představuje hodnotu dimenze. Barva pixelu představuje odpovídající hodnoty.
# 2) Geometrické zobrazení: Vícerozměrné datové sady jsou reprezentovány v 2D, 3D a 4D bodových grafech.
# 3) Vizualizace na základě ikon: Data jsou znázorněna pomocí Chernoffových tváří a panáčků. Chernoffovy tváře využívají schopnost lidské mysli rozpoznávat charakteristiky obličeje a rozdíly mezi nimi. Panáček používá 5 panáčků k reprezentaci vícerozměrných dat.
# 4) Hierarchická vizualizace dat: Datové sady jsou reprezentovány pomocí stromových map. Představuje hierarchická data jako sadu vnořených trojúhelníků.
Vizualizace dat pomocí aplikace WEKA Explorer
Vizualizace dat pomocí WEKA se provádí na datové sadě IRIS.arff.
Jedná se o tyto kroky:
# 1) Přejděte na kartu Předzpracování a otevřete datovou sadu IRIS.arff.
#dva) Datová sada má 4 atributy a 1 štítek třídy. Atributy v této datové sadě jsou:
- Samostatná délka: Typ - číselný
- Sepalwidth: Typ - číselný
- Délka: Typově číselné
- Šířka okvětního lístku: Typově číselné
- Třída: Typově nominální
# 3) Chcete-li vizualizovat datovou sadu, přejděte na kartu Vizualizovat. Na záložce jsou uvedeny matice vykreslení atributů. Atributy datové sady jsou označeny na ose x a ose y, zatímco jsou vykresleny instance. Pole s atributem osy x a atributem osy y lze zvětšit.
# 4) Kliknutím na rámeček grafu obrázek zvětšíte. Například, x: petallength a y: petalwidth. Štítky třídy jsou znázorněny v různých barvách.
- Štítek třídy - Iris-setosa: modrá barva
- Štítek třídy - Iris-versicolor: červená
- Třída štítek-Iris-virginica-zelená
Tyto barvy lze změnit. Chcete-li změnit barvu, klikněte na štítek třídy dole, zobrazí se barevné okno.
# 5) Klikněte na instanci představovanou znakem „x“ v grafu. Poskytne podrobnosti instance. Například:
- Číslo instance: 91
- Sepalength: 5.5
- Sepalwidth: 2.6
- Délka: 4.4
- Šířka okvětního lístku: 1.2
- Třída: Iris-versicolor
Některé body v grafu vypadají tmavší než jiné body. Tyto body představují 2 nebo více instancí se stejným štítkem třídy a stejnou hodnotou atributů vykreslených v grafu, jako je například šířka a petalength.
Obrázek níže představuje bod s informacemi o 2 instancích.
# 6) Atributy os X a Y lze změnit na pravém panelu v grafu Vizualizace. Uživatel může zobrazit různé grafy.
nejlepší stahovač mp3 skladeb pro Android
# 7) Jitter se používá k přidání náhodnosti do grafu. Někdy se body překrývají. S chvěním představují tmavší skvrny více instancí.
# 8) Chcete-li získat jasnější pohled na datovou sadu a odebrat odlehlé hodnoty, může uživatel vybrat instanci z rozevíracího seznamu. Klikněte na rozbalovací nabídku „vybrat instanci“. Vyberte „Obdélník“. Díky tomu bude uživatel moci vybrat body v grafu vykreslením obdélníku.
# 9) Klikněte na „Odeslat“. Budou zobrazeny pouze vybrané body datové sady a ostatní body budou z grafu vyloučeny.
Obrázek níže ukazuje body z vybraného obdélníkového tvaru. Děj představuje body pouze se 3 štítky tříd. Uživatel může kliknutím na „Uložit“ uložit datovou sadu nebo „Obnovit“ vybrat jinou instanci. Datová sada bude uložena v samostatném souboru .ARFF.
Výstup:
Vizualizace dat pomocí WEKA je zjednodušena pomocí krabicového grafu. Uživatel může zobrazit libovolnou úroveň podrobnosti. Atributy jsou vyneseny na osu X a osu y, zatímco instance jsou vyneseny proti ose X a Y. Některé body představují více instancí, které jsou reprezentovány body s tmavou barvou.
Závěr
WEKA je účinný nástroj pro dolování dat k provádění mnoha úkolů dolování dat a experimentování s novými metodami na souborech dat. WEKA byla vyvinuta katedrou informatiky University of Waikato na Novém Zélandu.
Dnešní svět je zahlcen daty od nakupování v supermarketu po bezpečnostní kamery u nás doma. Data mining využívá tato nezpracovaná data, převádí je na informace a vytváří předpovědi. WEKA pomocí algoritmu Apriori pomáhá při těžbě asociačních pravidel v datové sadě. Apriori je častý algoritmus dolování vzorů, který počítá počet výskytů sady položek v transakci.
Klastrová analýza je technika pro zjišťování shluků dat, které představují podobné charakteristiky. WEKA poskytuje mnoho algoritmů pro provádění klastrové analýzy, z nichž jsou velmi využívány jednoduché kmeans.
Vizualizaci dat v WEKA lze provádět na všech datových sadách v adresáři WEKA. Surovou datovou sadu lze zobrazit a další výsledné datové sady dalších algoritmů, jako je klasifikace, shlukování a přidružení, lze vizualizovat pomocí WEKA.
=> Navštivte zde exkluzivní sérii strojového učení
Doporučené čtení
- Výukový program Weka - Jak stáhnout, nainstalovat a používat nástroj Weka
- Datová sada, klasifikátor a algoritmus J48 pro rozhodovací strom
- 15 NEJLEPŠÍCH nástrojů a softwaru pro vizualizaci dat v roce 2021
- Výukový program D3.js - Framework pro vizualizaci dat pro začátečníky
- Výukový program vizualizace dat D3.js - tvary, grafy, animace
- 7 Principy testování softwaru: Shlukování vad a Paretův princip
- Těžba dat: Proces, techniky a hlavní problémy v analýze dat
- Techniky dolování dat: Algoritmus, metody a nejlepší nástroje pro dolování dat