data mining process
Tento podrobný výukový program pro dolování dat vysvětluje, co je dolování dat, včetně procesů a technik používaných pro analýzu dat:
Pojďme pochopit význam pojmu těžba na příkladu těžby zlata z hornin, kterému se říká těžba zlata. Zde je užitečná věc „zlato“, proto se jí říká těžba zlata.
Podobně získávání užitečných informací z velkého množství dat se nazývá dolování znalostí a je populárně známé jako dolování dat. Pod pojmem užitečné informace označujeme data, která nám mohou pomoci při předpovídání výstupu.
Například zjištění trendů nákupu konkrétní věci (řekněme železa) konkrétní věkovou skupinou ( Příklad: 40-70 let).
=>POSUNOUT DOLŮzobrazit celý seznam 7 hloubkových výukových programů pro těžbu dat pro začátečníky
Co se naučíte:
c ++ 11 otázek k pohovoru
- Seznam výukových programů pro těžbu dat
- Přehled výukových programů v této sérii dolování dat
- Co je dolování dat?
- Jaké druhy dat lze těžit?
- Jaké techniky se používají při dolování dat?
- Hlavní problémy v analýze dat
- Závěr
Seznam výukových programů pro těžbu dat
Výukový program č. 1: Těžba dat: Proces, techniky a hlavní problémy v analýze dat (Tento návod)
Výukový program č. 2: Techniky dolování dat: Algoritmus, metody a nejlepší nástroje pro dolování dat
Výukový program č. 3: Proces dolování dat: Zapojené modely, procesní kroky a výzvy
Výukový program č. 4: Příklady dolování dat: Nejběžnější aplikace dolování dat 2019
Výukový program č. 5: Příklady algoritmu rozhodovacího stromu v dolování dat
Výukový program č. 6: Apriori Algorithm in Data Mining: Implementation with examples
Výukový program č. 7: Algoritmus růstu frekvence (FP) při dolování dat
Přehled výukových programů v této sérii dolování dat
Tutorial # | Co se naučíte |
---|---|
Tutorial_ # 7: | Algoritmus růstu frekvence (FP) při dolování dat Toto je podrobný návod k algoritmu růstu častých vzorů, který představuje databázi ve formě stromu FP. Zde je také vysvětleno srovnání FP Growth Vs Apriori. |
Tutorial_ # 1: | Těžba dat: Proces, techniky a hlavní problémy v analýze dat Tento podrobný výukový program pro dolování dat vysvětluje, co je dolování dat, včetně procesů a technik používaných pro analýzu dat. |
Tutorial_ # 2: | Techniky dolování dat: Algoritmus, metody a nejlepší nástroje pro dolování dat Tento výukový program o technikách dolování dat vysvětluje algoritmy, nástroje pro dolování dat a metody pro extrakci užitečných dat. |
Výukový program č. 3: | Proces dolování dat: Zapojené modely, procesní kroky a výzvy Tento návod k procesu dolování dat zahrnuje modely dolování dat, kroky a výzvy spojené s procesem extrakce dat. |
Výukový program č. 4: | Příklady dolování dat: Nejběžnější aplikace dolování dat 2019 Nejoblíbenější příklady dolování dat v reálném životě jsou popsány v tomto výukovém programu. Dozvíte se více o Data Mining Application v oblasti financí, marketingu, zdravotnictví a CRM. |
Tutorial_ # 5: | Příklady algoritmu rozhodovacího stromu v dolování dat Tento podrobný výukový program vysvětluje vše o algoritmu rozhodovacího stromu v dolování dat. Dozvíte se o příkladech rozhodovacího stromu, algoritmu a klasifikaci. |
Tutorial_ # 6: | Apriori Algorithm in Data Mining: Implementation with examples Toto je jednoduchý výukový program k aprioriho algoritmu, jak zjistit časté položky v dolování dat. Také se seznámíte s kroky v Apriori a pochopíte, jak to funguje. |
Co je dolování dat?
Těžba dat je dnes velmi žádaná, protože pomáhá podnikům studovat, jak se může zvýšit prodej jejich produktů. Můžeme to pochopit na příkladu módního obchodu, který zaregistruje každého ze svých zákazníků, který si koupí zboží ze svého obchodu.
Na základě údajů poskytnutých zákazníkem, jako je věk, pohlaví, příjmová skupina, profese atd., Bude obchod schopen zjistit, který typ zákazníků nakupuje různé produkty. Zde vidíme, že jméno zákazníka není k ničemu, protože nemůžeme předpovědět trend nákupu podle jména, zda tato osoba koupí určitý produkt či nikoli.
Užitečné informace lze tedy zjistit pomocí věkové skupiny, pohlaví, příjmové skupiny, profese atd. Hledání znalostí nebo zajímavých vzorců v datech je „Data Mining“. Další pojmy, které lze použít na místě, jsou Dolování znalostí z dat, Extrakce znalostí, Analýza dat, Analýza vzorů atd.
Dalším termínem, který se běžně používá při dolování dat, je Knowledge Discovery from Data nebo KDD.
Proces analýzy dat
Proces zjišťování znalostí je posloupností následujících kroků:
- Čištění dat: Tento krok odstraní šum a nekonzistentní data ze vstupních dat.
- Integrace dat: Tento krok kombinuje více zdrojů dat. Čištění dat a integrace dat společně vytvářejí předzpracování dat. Předzpracovaná data se poté uloží do datového skladu.
- Výběr dat: Tyto kroky vybírají data analytické úlohy z databáze.
- Transformace dat: V tomto kroku se používají různé techniky agregace dat a shrnutí dat k transformaci dat do užitečné formy pro těžbu.
- Dolování dat: V tomto kroku jsou datové vzory extrahovány pomocí inteligentních metod.
- Hodnocení vzoru: Extrahované datové vzory jsou hodnoceny a rozpoznávány podle měr zajímavosti.
- Reprezentace znalostí: K prezentaci vytěžených znalostí uživatelům se používají techniky vizualizace a reprezentace znalostí.
Kroky 1 až 4 procházejí fází předzpracování dat. Těžba dat je zde představována jako jeden krok, ale odkazuje na celý proces zjišťování znalostí.
Můžeme tedy říci, že analýza dat je proces objevování zajímavých vzorců a znalostí z velkého množství dat. Zdroje dat mohou zahrnovat databáze, datové sklady, World Wide Web, ploché soubory a další informativní soubory.
Jaké druhy dat lze těžit?
Nejzákladnějšími formami dat pro těžbu jsou data databáze, data datového skladu a transakční data. Techniky dolování dat lze také použít na jiné formy, jako jsou datové toky, sekvenovaná data, textová data a prostorová data.
# 1) Data databáze: Systém správy databáze je sada vzájemně souvisejících dat a sada softwarových programů pro správu a přístup k datům. Systém relační databáze je kolekce tabulek a každá tabulka se skládá ze sady atributů a n-tic.
Těžba relačních databází prohledává trendy a datové vzory Např . kreditní riziko zákazníků na základě věku, příjmu a předchozího úvěrového rizika. Těžba může také zjistit odchylky od očekávaného Např. významné zvýšení ceny položky.
# 2) Data datového skladu: Datový sklad je sbírka informací shromážděných z více zdrojů dat, uložených v jednotném schématu na jednom místě. DW je modelován jako vícerozměrná datová struktura zvaná datová kostka s buňkami a dimenzemi poskytující předpočítání a rychlejší přístup k datům.
VR sluchátka pro PC a PS4
Dolování dat se provádí ve stylu OLAP kombinací dimenzí na různých úrovních podrobnosti.
# 3) Transakční údaje: Transakční data zachycují transakci. Má ID transakce a seznam položek použitých při transakci.
# 4) Jiné druhy dat: Mezi další data patří: časová data, prostorová data, hypertextová data a multimediální data.
Jaké techniky se používají při dolování dat?
Data Mining je doména vysoce využívaná aplikacemi. Mnoho technik, jako jsou statistiky, strojové učení, rozpoznávání vzorů, získávání informací, vizualizace atd., Ovlivňuje vývoj metod analýzy dat.
Podívejme se zde na některé z nich !!
Statistika
Studii sběru, analýzy, interpretace a prezentace údajů lze provést pomocí statistických modelů. Například Statistiky lze použít k modelování šumu a chybějících dat a poté lze tento model použít ve velké datové sadě k identifikaci šumu a chybějících hodnot v datech.
Strojové učení
ML se používá ke zlepšení výkonu na základě dat. Hlavní oblastí výzkumu je, aby se počítačové programy automaticky naučily rozpoznávat složité vzorce a na základě dat přijímat inteligentní rozhodnutí.
Machine Learning se zaměřuje na přesnost a dolování dat se zaměřuje na účinnost a škálovatelnost těžebních metod u velké datové sady, komplexních dat atd.
Strojové učení je tří typů:
- Kontrolované učení: Cílová datová sada je známá a stroj je trénován podle cílových hodnot.
- Neřízené učení: Cílové hodnoty nejsou známy a stroje se učí samy.
- Výuka s částečným dohledem: Využívá jak techniky supervidovaného, tak nekontrolovaného učení.
Načítání informací (IR)
Je to věda o hledání dokumentů nebo informací v dokumentech.
Používá dva principy:
- Data, která mají být prohledána, jsou nestrukturovaná.
- Dotazy jsou tvořeny hlavně klíčovými slovy.
Pomocí analýzy dat a IR můžeme najít hlavní témata ve sbírce dokumentů a také hlavní témata zahrnutá v každém dokumentu.
Hlavní problémy v analýze dat
Data Mining má řadu souvisejících problémů, jak je uvedeno níže:
Metodika těžby
- Jelikož existují různé aplikace, stále se objevují nové úkoly těžby. Tyto úkoly mohou používat stejnou databázi různými způsoby a vyžadují vývoj nových technik dolování dat.
- Při hledání znalostí ve velkých souborech dat musíme prozkoumat multidimenzionální prostor. Chcete-li najít zajímavé vzory, je třeba použít různé kombinace dimenzí.
- Nejistá, hlučná a neúplná data mohou někdy vést k chybnému odvození.
Interakce uživatele
- Proces analýzy dat by měl být vysoce interaktivní. Pro usnadnění procesu těžby je důležité, aby byla uživatelsky interaktivní.
- Znalosti domény, znalosti pozadí, omezení atd., By měly být všechny začleněny do procesu dolování dat.
- Znalosti objevené těžbou dat by měly být použitelné pro člověka. Systém by měl přijmout expresivní vyjádření znalostí, uživatelsky přívětivé vizualizační techniky atd.
Efektivita a škálovatelnost
- Algoritmy pro dolování dat by měly být účinné a škálovatelné, aby mohly efektivně extrahovat zajímavá data z velkého množství dat v úložištích dat.
- Široká distribuce dat, složitost výpočtu motivuje k vývoji paralelních a distribuovaných algoritmů náročných na data.
Rozmanitost typů databází
- Konstrukce účinných a efektivních nástrojů pro analýzu dat pro různé aplikace, široké spektrum datových typů od nestrukturovaných dat, časových dat, hypertextu, multimediálních dat a kódu softwarového programu zůstává náročnou a aktivní oblastí výzkumu.
Sociální dopad
- Zveřejnění použití údajů a potenciální porušení soukromí jednotlivců a ochrana práv jsou oblasti, které je třeba řešit.
Závěr
Data Mining pomáhá při rozhodování a analýze velkého množství dat. V dnešní době je to nejběžnější obchodní technika. Umožňuje automatickou analýzu dat a identifikuje populární trendy a chování.
Analýzu dat lze kombinovat se strojovým učením, statistikami, umělou inteligencí atd. Pro pokročilou analýzu dat a studium chování.
Těžba dat by měla být aplikována s přihlédnutím k různým faktorům, jako jsou náklady na extrakci informací a vzor z databází (je třeba použít složité algoritmy, které vyžadují odborné zdroje), typ informací (protože historická data nemusí být stejná jako to, co jsou v současnosti, takže analýza nebude užitečná).
Doufáme, že tento návod obohatil své znalosti o konceptu Data Mining !!
Doporučené čtení
- 10 nejlepších nástrojů pro analýzu dat pro dokonalou správu dat (SEZNAM 2021)
- Data Mining Vs Machine Learning Vs Artificial Intelligence Vs Deep Learning
- 10 nejlepších nástrojů pro mapování dat užitečných v procesu ETL (SEZNAM 2021)
- Co jsou testovací data? Testujte techniky přípravy dat pomocí příkladu
- Parametrizace dat JMeter pomocí uživatelem definovaných proměnných
- Top 15 nejlepších bezplatných nástrojů pro dolování dat: nejkomplexnější seznam
- 10+ nejlepších nástrojů pro sběr dat se strategiemi sběru dat
- Funkce datového fondu v produktu IBM Rational Quality Manager pro správu testovacích dat