weka dataset classifier
Tento kurz vysvětluje datovou sadu WEKA, klasifikátor a algoritmus J48 pro rozhodovací strom. Poskytuje také informace o ukázkových souborech dat ARFF pro Weka:
V Předchozí tutoriál , jsme se dozvěděli o nástroji Weka Machine Learning, jeho funkcích a o tom, jak stáhnout, nainstalovat a používat software Weka Machine Learning.
WEKA je knihovna algoritmů strojového učení pro řešení problémů s dolováním dat na reálných datech. WEKA také poskytuje prostředí pro vývoj mnoha algoritmů strojového učení. Má sadu nástrojů pro provádění různých úloh dolování dat, jako je klasifikace dat, shlukování dat, regrese, výběr atributů, dolování častých položek atd.
Všechny tyto úkoly lze provádět na souboru sample.ARFF dostupném v úložišti WEKA nebo si uživatelé mohou připravit své datové soubory. Ukázkové soubory .arff jsou datové sady, které obsahují integrovaná historická data shromážděná výzkumníky.
=> Přečtěte si celou sérii školení o strojovém učení
V tomto kurzu uvidíme některé ukázkové datové sady v WEKA a provedeme také těžbu dat algoritmu rozhodovacího stromu pomocí datové sady weather.arff.
Co se naučíte:
Zkoumání datových sad WEKA
Nástroj strojového učení WEKA poskytuje adresář některých ukázkových datových sad. Tyto datové sady lze přímo načíst do WEKA, aby uživatelé mohli okamžitě začít vyvíjet modely.
Datové sady WEKA lze prozkoumat pomocí odkazu „C: Program Files Weka-3-8 data“. Datové sady jsou ve formátu .arff.
Ukázkové datové sady WEKA
Některé ukázkové datové sady přítomné v WEKA jsou uvedeny v následující tabulce:
Č. | Ukázkové datové sady |
---|---|
7. | cukrovka. poleva |
1. | letecká společnost. pole |
2. | rakovina prsu. pole |
3. | kontaktní čočka. pole |
Čtyři. | cpu.arff |
5. | cpu.with-vendor.arff |
6. | úvěr-g.arff |
8. | sklo. arff |
9. | hypotyreóza. pole |
10. | ionospehre.arff |
jedenáct. | iris. 2D. pole |
12. | iris.arff |
13. | práce |
14. | ReutersCorn-train.arff |
patnáct. | ReutersCorn-test.arff |
16. | ReutersGrain-train.arff |
17. | ReutersGrain-test.arff |
18. | segment-challenge.arff |
19. | segment-test.arff |
dvacet. | sója. poleva |
dvacet jedna. | supermarket. pole |
22. | nevyvážený. pole |
2. 3. | hlasovat |
24. | počasí. numerické. pole |
25. | počasí. nominální. pole |
Podívejme se na některé z těchto:
kontaktní čočka. pole
datová sada contact-lens.arff je databáze pro nasazování kontaktních čoček. V roce 1990 jej daroval Benoit Julien.
Databáze: Tato databáze je kompletní. Příklady použité v této databázi jsou úplné a bez šumu. Databáze má 24 instancí a 4 atributy.
Atributy: Všechny čtyři atributy jsou nominální. Neexistují žádné chybějící hodnoty atributů. Čtyři atributy jsou následující:
# 1) Věk pacienta: Atribut věk může nabývat hodnot:
- Mladá
- pre-presbyopický
- presbyopický
#dva) Předpis brýlí: Tento atribut může nabývat hodnot:
- krátkozraký
- hypermetrop
# 3) Astigmatik: Tento atribut může nabývat hodnot
- Ne
- Ano
# 4) Rychlost produkce slz: Hodnoty mohou být
- snížena
- normální
Třída: Zde jsou definovány tři štítky tříd. Tyto jsou:
- pacient by měl být vybaven tvrdými kontaktními čočkami.
- pacient by měl být vybaven měkkými kontaktními čočkami.
- pacient by neměl být vybaven kontaktními čočkami.
Distribuce tříd: Instance, které jsou klasifikovány do štítků tříd, jsou uvedeny níže:
Štítek třídy | Počet instancí | |
---|---|---|
1. | Tvrdé kontaktní čočky | 4 |
2. | Měkké kontaktní čočky | 5 |
3. | Žádné kontaktní čočky | patnáct |
iris.arff
Soubor dat iris.arff vytvořil v roce 1988 Michael Marshall. Je to databáze rostlin kosatce.
sql rozhovor otázky s odpověďmi pdf
Databáze: Tato databáze se používá pro rozpoznávání vzorů. Datová sada obsahuje 3 třídy po 50 instancích. Každá třída představuje typ rostliny duhovky. Jedna třída je lineárně oddělitelná od ostatních 2, ale druhá třída není lineárně oddělitelná od sebe navzájem. Předpovídá, ke kterému druhu květu kosatce patří pozorování. Tomu se říká datový soubor klasifikace více tříd.
Atributy: Má 4 numerické, prediktivní atributy a třídu. Neexistují žádné chybějící atributy.
Atributy jsou:
- délka sepalu v cm
- šířka sepalu v cm
- délka okvětního lístku v cm
- šířka okvětního lístku v cm
- třída:
- Iris Setosa
- Iris Versicolor
- Iris Virginica
Souhrnná statistika:
Min | Max | Znamenat | SD | Korelace třídy | |
---|---|---|---|---|---|
délka sepalu | 4.3 | 7.9 | 5,84 | 0,83 | 0,7826 |
šířka sepalu | 2.0 | 4.4 | 3.05 | 0,43 | -0,4194 |
délka okvětního lístku | 1.0 | 6.9 | 3,76 | 1,76 | 0,9490 (vysoká!) |
šířka okvětního lístku | 0,1 | 2.5 | 1.20 | 0,76 | 0,9565 (vysoká!) |
Distribuce tříd: 33,3% pro každou ze 3 tříd
Některé další datové sady:
cukrovka. poleva
Databází tohoto datového souboru je Pima Indians Diabetes. Tento soubor dat předpovídá, zda je pacient v příštích 5 letech náchylný k cukrovce. Pacienti v tomto datovém souboru jsou všechny ženy ve věku nejméně 21 let z indického dědictví Pima. Má 768 instancí a 8 číselných atributů plus třídu. Toto je datový soubor binární klasifikace, kde předpovězená výstupní proměnná je nominální a skládá se ze dvou tříd.
ionosféra. pole
Toto je populární datová sada pro binární klasifikaci. Instance v tomto datovém souboru popisuje vlastnosti radarových výnosů z atmosféry. Používá se k předpovědi, kde má ionosféra nějakou strukturu nebo ne. Má 34 číselných atributů a třídu.
Atribut třídy je „dobrý“ nebo „špatný“, což je predikováno na základě pozorování 34 atributů. Přijaté signály jsou zpracovávány funkcí autokorelace, přičemž jako argumenty jsou použity časové impulsy a čísla pulsů.
Regresní datové sady
Regresní datové soubory lze stáhnout z webové stránky WEKA “ Kolekce datových sad “. Má 37 regresních problémů získaných z různých zdrojů. Stažený soubor vytvoří numerický adresář s regresními datovými sadami ve formátu .arff.
Populární datové sady v adresáři jsou: Ekonomický datový soubor Longley (longley.arff), datový soubor cen bostonských domů (housing.arff) a spánek v datové sadě savců (sleep.arff).
Podívejme se nyní, jak identifikovat skutečné a nominální atributy v datové sadě pomocí průzkumníka WEKA.
Co jsou skutečné hodnoty a nominální atributy
Skutečné hodnotné atributy jsou číselné atributy obsahující pouze skutečné hodnoty. Jedná se o měřitelné veličiny. Tyto atributy lze škálovat podle intervalu, jako je teplota, nebo podle měřítka, jako je průměr, medián.
Nominální atributy představují jména nebo nějakou reprezentaci věcí. V takových atributech není pořadí a představují nějakou kategorii. Například, barva.
Postupujte podle níže uvedených kroků a použijte WEKA k identifikaci skutečných hodnot a nominálních atributů v datové sadě.
# 1) Otevřete WEKA a v části „Aplikace“ vyberte „Průzkumník“.
#dva) Vyberte kartu „Předběžné zpracování“. Klikněte na „Otevřít soubor“. S uživatelem WEKA máte přístup k ukázkovým souborům WEKA.
# 3) Vyberte vstupní soubor ze složky WEKA3.8 uložené v místním systému. Vyberte předdefinovaný soubor .arff „credit-g.arff“ a klikněte na „Otevřít“.
# 4) Na levém panelu se otevře seznam atributů. Statistika vybraných atributů se zobrazí na pravém panelu spolu s histogramem.
Analýza datové sady:
V levém panelu zobrazuje aktuální vztah:
- Název vztahu: german_credit je ukázkový soubor.
- Instance: 1000 počet datových řádků v datové sadě.
- Atributy: 21 atributů v datové sadě.
Panel pod aktuální relací zobrazuje název atributů.
V pravém panelu jsou zobrazeny statistiky vybraných atributů. Vybrat atribut „kontrolní_status“.
Ukazuje:
- Název atributu
- Chybějící: Jakékoli chybějící hodnoty atributu v datové sadě. 0% v tomto případě.
- Odlišný: Atribut má 4 odlišné hodnoty.
- Typ: Atribut je nominálního typu, to znamená, že nemá žádnou číselnou hodnotu.
- Počet: Mezi 1000 instancemi je počet každého odlišného štítku třídy zapsán do sloupce počtu.
- Histogram: Zobrazí atribut výstupní třídy pro atribut. Štítek třídy v této datové sadě je buď dobrý, nebo špatný. Existuje 700 případů dobrého (označeno modře) a 300 případů špatného (označeno červeně).
- Pro štítek<0, the instances for good or bad are almost the same in number.
- Pro štítek 0<= X<200, the instances with decision good are more than instances with bad.
- Podobně pro štítek> = 200 se maximální instance vyskytují dobře a žádný kontrolní štítek nemá více instancí s dobrým rozhodnutím.
Pro další atribut „trvání“.
Pravý panel zobrazuje:
- Název: Toto je Název atributu.
- Typ: Typ atributu je číselný.
- Chybějící hodnota: Atribut nemá žádnou chybějící hodnotu.
- Odlišný: Má 33 odlišných hodnot v 1000 případech. To znamená, že v 1000 případech má 33 odlišných hodnot.
- Unikátní: Má 5 jedinečných hodnot, které se navzájem neshodují.
- Minimální hodnota: Minimální hodnota atributu je 4.
- Maximální hodnota: Maximální hodnota atributu je 72.
- Znamenat: Mean je přidání všech hodnot děleno instancemi.
- Standardní odchylka: Standardní odchylka trvání atributu.
- Histogram: Histogram zobrazuje trvání 4 jednotek, maximální instance se vyskytují pro dobrou třídu. Jak se doba zvyšuje na 38 jednotek, počet instancí se u štítků dobré třídy snižuje. Doba trvání dosahuje 72 jednotek, které mají pouze jednu instanci, která klasifikuje rozhodnutí jako špatné.
Třída je klasifikačním znakem nominálního typu. Má dvě odlišné hodnoty: dobre a spatne. Štítek dobré třídy má 700 instancí a štítek špatné třídy má 300 instancí.
Chcete-li vizualizovat všechny atributy datové sady, klikněte na „Vizualizovat vše“.
# 5) Chcete-li zjistit pouze číselné atributy, klikněte na tlačítko Filtr. Odtud klikněte na Zvolte -> WEKA> FILTRY -> Typ bez dozoru -> Odebrat typ.
Filtry WEKA mají mnoho funkcí k transformaci hodnot atributů datové sady tak, aby byla vhodná pro algoritmy. Například, numerická transformace atributů.
Filtrování nominálních a skutečných atributů z datové sady je dalším příkladem použití filtrů WEKA.
# 6) Klikněte na RemoveType na kartě filtru. Otevře se okno editoru objektů. Vyberte atribut Zadejte „Odstranit číselné atributy“ a klikněte na OK.
# 7) Použijte filtr. Budou zobrazeny pouze číselné atributy.
Atribut třídy je nominálního typu. Klasifikuje výstup, a proto jej nelze odstranit. Vidí to tedy s číselným atributem.
Výstup:
Jsou identifikovány atributy skutečné hodnoty a nominální hodnoty v datové sadě. Vizualizace se štítkem třídy je viděna ve formě histogramů.
Algoritmy klasifikace rozhodovacích stromů Weka
Nyní uvidíme, jak implementovat klasifikaci rozhodovacího stromu na datové sadě weather.nominal.arff pomocí klasifikátoru J48.
počasí. nominální. pole
Jedná se o ukázkovou datovou sadu přítomnou přímo od WEKA. Tato datová sada předpovídá, zda je počasí vhodné pro hraní kriketu. Datová sada má 5 atributů a 14 instancí. Štítek třídy „přehrát“ klasifikuje výstup jako „ano“ nebo „ne“.
Co je rozhodovací strom
Rozhodovací strom je klasifikační technika, která se skládá ze tří složek kořenový uzel, větev (hrana nebo odkaz) a listový uzel. Kořen představuje podmínku testu pro různé atributy, větev představuje všechny možné výsledky, které tam mohou být v testu, a uzly listu obsahují označení třídy, do které patří. Kořenový uzel je na začátku stromu, který se také nazývá vrchol stromu.
Klasifikátor J48
Jedná se o algoritmus pro generování rozhodovacího stromu, který je generován C4.5 (přípona ID3). Je také známý jako statistický klasifikátor. Pro klasifikaci rozhodovacích stromů potřebujeme databázi.
Kroky zahrnují:
# 1) Otevřete průzkumník WEKA.
#dva) Vyberte soubor weather.nominal.arff z možnosti „vybrat soubor“ pod záložkou předzpracování.
# 3) Chcete-li klasifikovat nezařazená data, přejděte na kartu „Klasifikace“. Klikněte na tlačítko „Vybrat“. Z toho vyberte „stromy -> J48“. Pojďme se také rychle podívat na další možnosti v tlačítku Vybrat:
- Bayes: Jedná se o odhad hustoty pro číselné atributy.
- Meta: Jedná se o lineární regrese s více odezvami.
- Funkce: Je to logistická regrese.
- Líný: Nastavuje entropii směsi automaticky.
- Pravidlo: Učí se pravidlu.
- Stromy: Stromy klasifikují data.
# 4) Klikněte na tlačítko Start. Výstup klasifikátoru se zobrazí na pravém panelu. Zobrazuje informace o běhu v panelu jako:
- Systém: Použitý klasifikační algoritmus.
- Instance: Počet řádků dat v datové sadě.
- Atributy: Datová sada má 5 atributů.
- Počet listů a velikost stromu popisuje rozhodovací strom.
- Čas potřebný k vytvoření modelu: Čas pro výstup.
- Úplná klasifikace J48 prořezaná s atributy a počtem instancí.
# 5) Chcete-li vizualizovat strom, klepněte pravým tlačítkem na výsledek a vyberte vizualizovat strom.
Výstup :
Výstup je ve formě rozhodovacího stromu. Hlavním atributem je „výhled“.
Pokud je výhled slunečný, pak strom dále analyzuje vlhkost. Pokud je vlhkost vysoká, přehrajte štítek třídy = „ano“.
Pokud je výhled zatažený, štítek třídy, hra je „ano“. Počet instancí, které se řídí klasifikací, je 4.
Pokud je výhled deštivý, probíhá další klasifikace za účelem analýzy atributu „větrný“. Pokud je větrno = pravda, hra = „ne“. Počet instancí, které se řídí klasifikací outlook = windy a windy = true, je 2.
Závěr
WEKA nabízí širokou škálu ukázkových datových sad pro použití algoritmů strojového učení. Uživatelé mohou provádět úkoly strojového učení, jako je klasifikace, regrese, výběr atributů, přidružení na těchto ukázkových datových sadách, a mohou se také naučit nástroj pomocí nich.
Průzkumník WEKA se používá k provádění několika funkcí, počínaje předzpracováním. Předběžné zpracování bere vstup jako soubor .arff, zpracovává vstup a poskytuje výstup, který lze použít v jiných počítačových programech. Ve WEKA dává výstup předzpracování atributy přítomné v datové sadě, které lze dále použít pro statistickou analýzu a srovnání se štítky tříd.
WEKA také nabízí mnoho klasifikačních algoritmů pro rozhodovací strom. J48 je jeden z populárních klasifikačních algoritmů, který vydává rozhodovací strom. Pomocí karty Klasifikace může uživatel vizualizovat rozhodovací strom. Pokud je rozhodovací strom příliš naplněn, lze prořez stromu použít na kartě Předzpracování odstraněním nepotřebných atributů a zahájením procesu klasifikace znovu.
=> Navštivte zde exkluzivní sérii strojového učení
Doporučené čtení
- Výukový program Weka - Jak stáhnout, nainstalovat a používat nástroj Weka
- Jak psát složité testovací scénáře obchodní logiky pomocí techniky rozhodovací tabulky
- Průzkumník WEKA: Vizualizace, shlukování, těžba pravidel asociace
- Příklady algoritmu rozhodovacího stromu při dolování dat
- Konstrukční rozhodovací procesy v C ++
- Datová struktura stromu B a stromu B + v C ++
- Struktura dat binárního stromu v C ++
- Datová struktura stromu AVL a haldy v C ++