weka tutorial how download
Tento výukový program WEKA vysvětluje, co je nástroj Weka Machine Learning, jeho funkce a jak stahovat, instalovat a používat software Weka Machine Learning:
V Předchozí výukový program , jsme se dozvěděli o Support Vector Machine v ML a souvisejících konceptech jako Hyperplane, Support Vectors & Applications of SVM.
Machine Learning je oblast vědy, kde stroje fungují jako uměle inteligentní systém. Stroje se mohou učit samy, aniž by vyžadovaly jakékoli explicitní kódování. Jedná se o iterativní proces, který přistupuje k datům, učí se sám a předpovídá výsledek. Pro provádění úloh strojového učení je zapotřebí mnoho nástrojů a skriptů.
WEKA je platforma strojového učení skládající se z mnoha nástrojů usnadňujících mnoho činností strojového učení.
=> Přečtěte si celou sérii školení o strojovém učení
Co se naučíte:
- Co je WEKA
- Závěr
Co je WEKA
Weka je nástroj s otevřeným zdrojovým kódem navržený a vyvinutý vědci / výzkumníky z University of Waikato na Novém Zélandu. WEKA znamená Waikato Environment for Knowledge Analysis. Je vyvíjen mezinárodní vědeckou komunitou a distribuován pod bezplatnou licencí GNU GPL.
WEKA je plně vyvinuta v Javě. Poskytuje integraci s databází SQL pomocí připojení k databázi Java. Poskytuje mnoho algoritmů strojového učení pro implementaci úloh dolování dat. Tyto algoritmy lze použít buď přímo pomocí nástroje WEKA, nebo je lze použít v jiných aplikacích využívajících programovací jazyk Java.
Poskytuje mnoho nástrojů pro předzpracování dat, klasifikaci, shlukování, regresní analýzu, vytváření asociačních pravidel, extrakci funkcí a vizualizaci dat. Je to mocný nástroj, který podporuje vývoj nových algoritmů ve strojovém učení.
Proč používat WEKA Machine Learning Tool
S WEKA jsou algoritmy strojového učení uživatelům snadno dostupné. Specialisté ML mohou pomocí těchto metod extrahovat užitečné informace z velkého množství dat. Zde mohou specialisté vytvořit prostředí pro vývoj nových metod strojového učení a jejich implementaci na reálných datech.
WEKA je používána výzkumnými pracovníky strojového učení a aplikovaných věd pro účely učení. Je to efektivní nástroj pro provádění mnoha úkolů dolování dat.
Stažení a instalace WEKA
# 1) Stáhněte si software z tady .
Zkontrolujte konfiguraci počítačového systému a stáhněte si stabilní verzi WEKA (aktuálně 3,8) z této stránky.
#dva) Po úspěšném stažení otevřete umístění souboru a dvakrát klikněte na stažený soubor. Objeví se průvodce Step Up. Klikněte na Další.
# 3) Budou otevřeny podmínky licenční smlouvy. Přečtěte si to důkladně a klikněte na „Souhlasím“.
c ++ dvojnásobně propojený seznam
# 4) Podle svých požadavků vyberte komponenty, které se mají nainstalovat. Doporučuje se úplná instalace komponent. Klikněte na Další.
# 5) Vyberte cílovou složku a klikněte na Další.
# 6) Poté se spustí instalace.
# 7) Pokud v systému není nainstalována Java, nainstaluje se nejprve Java.
# 8) Po dokončení instalace se zobrazí následující okno. Klikněte na Další.
# 9) Zaškrtněte políčko Spustit Weka. Klikněte na Dokončit.
# 10) Otevře se okno WEKA Tool and Explorer.
#jedenáct) Manuál WEKA lze stáhnout z tady.
Grafické uživatelské rozhraní WEKA
GUI WEKA nabízí pět možností: Průzkumník, experimentátor, tok znalostí, Workbench a jednoduché rozhraní příkazového řádku. Pochopme každý z nich jednotlivě.
# 1) Jednoduché CLI
Jednoduché CLI je Weka Shell s příkazovým řádkem a výstupem. Pomocí „nápovědy“ lze zobrazit přehled všech příkazů. Jednoduché rozhraní příkazového řádku nabízí přístup ke všem třídám, jako jsou klasifikátory, clustery a filtry atd.
Některé z jednoduchých příkazů CLI jsou:
- Přestávka: Chcete-li zastavit aktuální vlákno
- Výstup: Ukončete CLI
- Pomoc() : Vypíše nápovědu pro zadaný příkaz
- -java weka.classifiers.trees.J48 -t c: /temp/iris.arff: Chcete-li vyvolat třídu WEKA, přidejte předponu Java. Tento příkaz nasměruje WEKA, aby načetla třídu a provedla ji s danými parametry. V tomto příkazu je vyvolán klasifikátor J48 v datové sadě IRIS.
# 2) Průzkumník
Okna Průzkumníka WEKA zobrazují různé karty počínaje předzpracováním. Zpočátku je aktivní karta předzpracování, protože nejprve je před zpracováním datová sada před použitím algoritmů a prozkoumána datová sada.
Karty jsou následující:
- Předzpracování: Vyberte a upravte načtená data.
- Klasifikovat: Aplikujte tréninkové a testovací algoritmy na data, která budou data klasifikovat a regresovat.
- Klastr: Formulujte klastry z dat.
- Spolupracovník: Mine out asociační pravidlo pro data.
- Vyberte atributy: Použijí se opatření pro výběr atributů.
- Vizualizovat: Je vidět 2D reprezentace dat.
- Stavový řádek: V dolní části okna se zobrazuje stavový řádek. Tato část ukazuje, co se aktuálně děje ve formě zprávy, například při načítání souboru. Klikněte pravým tlačítkem na toto, Paměť informace lze vidět a také Běh odpadky kolektor lze uvolnit místo.
- Tlačítko protokolu: Ukládá protokol všech akcí ve Wece s časovým razítkem. Po kliknutí na tlačítko Protokol se protokoly zobrazí v samostatném okně.
- Ikona ptáka WEKA: V pravém dolním rohu je zobrazen pták WEKA, který představuje počet procesů spuštěných současně (x). Když proces běží, pták se bude pohybovat.
# 3) Experimentátor
Tlačítko experimentátoru WEKA umožňuje uživatelům vytvářet, spouštět a upravovat různá schémata v jednom experimentu na datové sadě. Experimentátor má 2 typy konfigurace: Jednoduché a pokročilé. Obě konfigurace umožňují uživatelům spouštět experimenty lokálně a na vzdálených počítačích.
- Tlačítko „Otevřít“ a „Nové“ otevře nové okno experimentu, které uživatelé mohou provádět.
- Výsledek: Nastavte cílový soubor výsledků ze souboru ARFF, JDFC a CSV.
- Typ experimentu: Uživatel si může vybrat mezi křížovou validací a procentuálním rozdělením vlaku / testu. Uživatel si může vybrat mezi klasifikací a regresí na základě použité datové sady a klasifikátoru.
- Datové sady: Uživatel může procházet a vybírat datové sady odtud. Pokud pracujete na různých počítačích, zaškrtne se políčko relativní cesty. Podporovaný formát datových sad je ARFF, C4.5, CSV, libsvm, bsi a XRFF.
- Opakování: Výchozí číslo iterace je nastaveno na 10. Datové sady nejprve a algoritmy nejprve pomáhají při přepínání mezi datovou sadou a algoritmy, aby bylo možné spustit algoritmy na všech datových sadách.
- Algoritmy: Nové algoritmy přidává „Nové tlačítko“. Uživatel si může vybrat klasifikátor.
- Uložte experiment pomocí tlačítka Uložit.
- Spusťte experiment pomocí tlačítka Spustit.
# 4) Tok znalostí
Tok znalostí ukazuje grafické znázornění algoritmů WEKA. Uživatel může vybrat komponenty a vytvořit pracovní postup pro analýzu datových sad. S daty lze nakládat dávkově nebo přírůstkově. Lze navrhnout paralelní pracovní postupy a každý bude spuštěn v samostatném vlákně.
Dostupné různé komponenty jsou Zdroje dat, datové spořiče, filtry, klasifikátory, klastry, hodnocení a vizualizace.
# 5) Pracovní stůl
WEKA má modul pracovního stolu, který obsahuje všechny GUI v jednom okně.
Vlastnosti WEKA Explorer
# 1) Datová sada
Datová sada se skládá z položek. Představuje objekt například: v marketingové databázi bude představovat zákazníky a produkty. Datové sady jsou popsány atributy. Datová sada obsahuje datové n-tice v databázi. Datová sada má atributy, které mohou být nominální, číselné nebo řetězcové. Ve Wece je datová sada reprezentována weka.core. Látky třída.
Reprezentace datové sady s 5 příklady:
@data
slunečno, NEPRAVDA, 85,85, č
slunečno, PRAVDA, 80,90, č
zataženo, FALSE, 83,86, ano
deštivé, FALSE, 70,96, ano
deštivé, FALSE, 68,80, ano
Co je to atribut?
Atribut je datové pole představující charakteristiku datového objektu. Například, v databázi zákazníků budou atributy customer_id, customer_email, customer_address atd. Atributy mají různé typy.
Jsou možné tyto typy:
A) Nominální atributy: Atribut, který souvisí se jménem a má předdefinované hodnoty, jako je barva, počasí. Tyto atributy se nazývají kategorické atributy . Tyto atributy nemají žádné pořadí a jejich hodnoty se také nazývají výčty.
@attribute outlook {slunečno, zataženo, deštivo}: prohlášení nominálního atributu.
B) Binární atributy: Tyto atributy představují pouze hodnoty 0 a 1. Jedná se o typ nominálních atributů pouze s 2 kategoriemi. Tyto atributy se také nazývají Boolean.
C) Pořadové atributy: Atributy, které zachovávají určité pořadí nebo pořadí mezi nimi, jsou řadové atributy. Postupné hodnoty nelze předvídat, ale je zachováno pouze pořadí. Příklad: velikost, známka atd.
D) Číselné atributy: Atributy představující měřitelné veličiny jsou číselné atributy. Ty jsou reprezentovány reálnými čísly nebo celými čísly. Příklad: teplota, vlhkost.
skutečná vlhkost atributu: deklarace číselného atributu
E) Atributy řetězce: Tyto atributy představují seznam znaků představovaných v uvozovkách.
# 2) ARFF datový formát
WEKA pracuje na souboru ARFF pro analýzu dat. ARFF znamená Attribute Relation File Format. Má 3 sekce: vztah, atributy a data. Každá část začíná znakem „@“.
Soubory ARFF přebírají atributy dat Nominal, Numeric, String, Date a Relational. Některé známé datové sady strojového učení jsou ve WEKA přítomny jako ARFF.
Formát pro ARFF je:
@vztah
@atribut
@data
Příkladem souboru ARFF je:
@relation weather @attribute outlook {sunny, overcast, rainy}: @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} //class attribute: The class attribute represents the output. @data sunny, FALSE,85,85,no sunny, TRUE,80,90,no overcast, FALSE,83,86,yes rainy, FALSE,70,96,yes rainy, FALSE,68,80,yes
# 3) Formát dat XRFF
XRFF znamená XML atribut Relation File Format. Představuje data, která mohou ukládat komentáře, atributy a váhy instancí. Má příponu .xrff a příponu souboru .xrff.gz (komprimovaný formát). Soubory XRFF představovaly data ve formátu XML.
# 4) Připojení k databázi
S WEKA je snadné se připojit k databázi pomocí ovladače JDBC. Ovladač JDBC je nezbytný pro připojení k databázi, příklad:
MS SQL Server (com.microsoft.jdbc.sqlserver.SQLServerDriver)
Věštec (oracle.jdbc.driver.OracleDriver)
# 5) Klasifikátory
K předpovědi výstupních dat obsahuje WEKA klasifikátory. Klasifikační algoritmy dostupné pro učení jsou rozhodovací stromy, podpůrné vektorové stroje, klasifikátory založené na instancích a logistická regrese a Bayesovské sítě. V závislosti na požadavku pomocí pokusu a testu může uživatel najít vhodný algoritmus pro analýzu dat. Klasifikátory se používají ke klasifikaci datových sad na základě charakteristik atributů.
# 6) Shlukování
WEKA používá kartu Klastr k předpovědi podobností v datové sadě. Na základě shlukování může uživatel zjistit atributy užitečné pro analýzu a ignorovat další atributy. Dostupné algoritmy pro shlukování v WEKA jsou k-means, EM, Cobweb, X-means a FarhtestFirst.
# 7) Sdružení
Jediným algoritmem dostupným ve WEKA pro zjištění pravidel přidružení je Apriori.
# 8) Atribut sekce opatření
WEKA používá 2 přístupy pro nejlepší výběr atributů pro účely výpočtu:
- Použití algoritmu metody vyhledávání: Nejlepší první, dopředný výběr, náhodný, vyčerpávající, genetický algoritmus a algoritmus hodnocení.
- Použití algoritmů metody hodnocení: Korelace, obal, zisk informací, chi-kvadrát.
# 9) Vizualizace
WEKA podporuje 2D reprezentaci dat, 3D vizualizace s rotací a 1D reprezentaci jediného atributu. Má možnost „Jitter“ pro nominální atributy a „skryté“ datové body.
Další hlavní rysy WEKA jsou:
- Jedná se o open-source nástroj s grafickým uživatelským rozhraním ve formě „Průzkumník“, „Experimentátor“ a „Tok znalostí“.
- Je nezávislý na platformě.
- Obsahuje 49 nástrojů pro předzpracování dat.
- Ve WEKA je přítomno 76 klasifikačních a regresních algoritmů, 8 klastrových algoritmů
- Má 15 algoritmů pro výběr atributů a 10 algoritmů pro výběr funkcí.
- Má 3 algoritmy pro nalezení pravidla přidružení.
- Pomocí WEKA mohou uživatelé vyvíjet vlastní kód pro strojové učení.
Závěr
V tomto tutoriálu WEKA jsme poskytli úvod do open-source softwaru pro strojové učení WEKA a vysvětlili krok za krokem proces stahování a instalace. Také jsme viděli pět možností dostupných pro grafické uživatelské rozhraní Weka, jmenovitě Průzkumník, Experimentátor, Tok znalostí, Workbench a Jednoduché rozhraní příkazového řádku.
Na příkladech jsme se také dozvěděli o funkcích WEKA. Mezi funkce patří datová sada, formát ARFF Data, připojení k databázi atd.
=> Navštivte zde exkluzivní sérii strojového učení
Doporučené čtení
- Datová sada, klasifikátor a algoritmus J48 pro rozhodovací strom WEKA
- Průzkumník WEKA: Vizualizace, shlukování, těžba pravidel asociace
- 11 nejpopulárnějších softwarových nástrojů pro strojové učení v roce 2021
- Kompletní průvodce umělou neuronovou sítí ve strojovém učení
- Data Mining vs. Machine Learning vs. Artificial Intelligence vs. Deep Learning
- Výukový program pro strojové učení: Úvod do ML a jeho aplikací
- Top 13 NEJLEPŠÍCH společností pro strojové učení (aktualizovaný seznam 2021)
- Co je podpora vektorového stroje (SVM) ve strojovém učení