data mining process models
Tento návod k procesu dolování dat zahrnuje modely dolování dat, kroky a výzvy spojené s procesem extrakce dat:
Techniky dolování dat byly podrobně vysvětleny v našem předchozím tutoriálu v tomto Kompletní školení v oblasti dolování dat pro všechny . Data Mining je slibným oborem ve světě vědy a techniky.
Data Mining, který je také známý jako Knowledge Discovery v databázích, je proces zjišťování užitečných informací z velkého množství dat uložených v databázích a datových skladech. Tato analýza se provádí pro rozhodovací procesy ve společnostech.
Dolování dat se provádí pomocí různých technik, jako je shlukování, asociace a sekvenční analýza vzorů a rozhodovací strom.
Co se naučíte:
- Co je dolování dat?
- Extrakce dat jako proces
- Modely pro dolování dat
- Kroky v procesu dolování dat
- Proces dolování dat v Oracle DBMS
- Proces dolování dat v Datawarehouse
- Jaké jsou aplikace extrakce dat?
- Výzvy v oblasti dolování dat
- Závěr
- Doporučené čtení
Co je dolování dat?
Data Mining je proces objevování zajímavých vzorců a znalostí z velkého množství dat. Zdroje dat mohou zahrnovat databáze, datové sklady, web a další úložiště informací nebo data, která se do systému streamují dynamicky.
Proč podniky potřebují extrakci dat?
S příchodem velkých dat se dolování dat rozšířilo. Big data jsou extrémně velké soubory dat, které mohou počítače analyzovat a odhalit určité vzorce, asociace a trendy, kterým lidé rozumějí. Big data mají rozsáhlé informace o různých typech a rozmanitém obsahu.
S tímto množstvím dat by tedy jednoduchá statistika s manuálním zásahem nefungovala. Tuto potřebu splňuje proces dolování dat. To vede ke změně od jednoduchých statistik dat ke složitým algoritmům dolování dat.
Proces dolování dat extrahuje relevantní informace z nezpracovaných dat, jako jsou transakce, fotografie, videa, ploché soubory a automaticky tyto informace vygeneruje, aby vygeneroval zprávy užitečné pro podnikatele.
Proces dolování dat je tedy zásadní pro podniky, aby se mohly lépe rozhodovat objevováním vzorů a trendů v datech, sumarizací dat a odebíráním relevantních informací.
Extrakce dat jako proces
Jakýkoli obchodní problém prozkoumá nezpracovaná data, aby vytvořil model, který bude popisovat informace a vyvede zprávy, které bude podnik používat. Vytváření modelu ze zdrojů dat a formátů dat je iterační proces, protože nezpracovaná data jsou k dispozici v mnoha různých zdrojích a mnoha formách.
Data se den ode dne zvyšují, a proto když se najde nový zdroj dat, může to změnit výsledky.
Níže je uveden přehled procesu.
(obraz zdroj )
Modely pro dolování dat
Mnoho průmyslových odvětví, jako je výroba, marketing, chemický a letecký průmysl, těží z těžby dat. Tím se drasticky zvyšuje poptávka po standardních a spolehlivých procesech dolování dat.
Mezi důležité modely dolování dat patří:
# 1) Meziodvětvový standardní proces pro dolování dat (CRISP-DM)
CRISP-DM je spolehlivý model dolování dat skládající se ze šesti fází. Jedná se o cyklický proces, který poskytuje strukturovaný přístup k procesu dolování dat. Těchto šest fází lze implementovat v libovolném pořadí, ale někdy by to vyžadovalo návrat k předchozím krokům a opakování akcí.
oboustranná fronta c ++
Šest fází CRISP-DM zahrnuje:
# 1) Obchodní porozumění: V tomto kroku jsou stanoveny cíle podniků a jsou objeveny důležité faktory, které pomohou při dosažení cíle.
# 2) Pochopení údajů: Tento krok shromáždí všechna data a vyplní data v nástroji (pokud používáte jakýkoli nástroj). Data jsou uvedena s jejich zdrojem dat, umístěním, způsobem jejich získání a případnými potížemi. Data jsou vizualizována a dotazována ke kontrole jejich úplnosti.
# 3) Příprava dat: Tento krok zahrnuje výběr příslušných dat, čištění, konstrukci atributů z dat, integraci dat z více databází.
# 4) Modelování: V tomto kroku se provádí výběr techniky dolování dat, jako je rozhodovací strom, generování návrhu testu pro vyhodnocení vybraného modelu, sestavování modelů z datové sady a hodnocení sestaveného modelu s odborníky k diskusi o výsledku.
# 5) Hodnocení: Tento krok určí, do jaké míry výsledný model splňuje obchodní požadavky. Vyhodnocení lze provést testováním modelu na reálných aplikacích. Model je zkontrolován, zda neobsahuje chyby nebo kroky, které by se měly opakovat.
# 6) Nasazení: V tomto kroku je vytvořen plán nasazení, je vytvořena strategie pro monitorování a udržování výsledků modelu dolování dat pro kontrolu jeho užitečnosti, jsou vytvářeny závěrečné zprávy a provádí se kontrola celého procesu, aby se zkontrolovala jakákoli chyba a zjistilo se, zda se nějaký krok opakuje .
(obraz zdroj )
# 2) SEMMA (Sample, Explore, Modify, Model, Assess)
SEMMA je další metodika dolování dat vyvinutá SAS Institute. Zkratka SEMMA znamená vzorek, zkoumat, upravovat, modelovat, hodnotit.
žádá o povýšení v hodnotícím vzorku
SEMMA usnadňuje použití průzkumných statistických a vizualizačních technik, výběr a transformaci významných předpovězených proměnných, vytvoření modelu pomocí proměnných, který má vyjít s výsledkem, a zkontrolovat jeho přesnost. SEMMA je také poháněn vysoce iteračním cyklem.
Kroky v SEMMA
- Vzorek: V tomto kroku se extrahuje velká datová sada a odebere se vzorek, který představuje úplná data. Vzorkování sníží výpočetní náklady a dobu zpracování.
- Prozkoumat: Data jsou prozkoumána pro jakékoli odlehlé hodnoty a anomálie pro lepší pochopení dat. Data se vizuálně zkontrolují, aby se zjistily trendy a seskupení.
- Upravit: V tomto kroku se manipulace s daty, jako je seskupování a podskupiny, provádí udržováním zaměření modelu, který má být vytvořen.
- Modelka: Na základě průzkumů a úprav jsou konstruovány modely, které vysvětlují vzory v datech.
- Posoudit: V tomto kroku se hodnotí užitečnost a spolehlivost vytvořeného modelu. Testování modelu na reálných datech se provádí zde.
Přístup SEMMA i CRISP fungují pro proces objevování znalostí. Jakmile jsou modely postaveny, jsou nasazeny pro firmy a výzkumné práce.
Kroky v procesu dolování dat
Proces dolování dat je rozdělen do dvou částí, tj. Předzpracování dat a dolování dat. Předběžné zpracování dat zahrnuje čištění dat, integraci dat, redukci dat a transformaci dat. Část pro dolování dat provádí dolování dat, vyhodnocení vzorů a znalostní reprezentaci dat.
(obraz zdroj )
Proč data předzpracováváme?
Užitečnost údajů určuje mnoho faktorů, například přesnost, úplnost, konzistence a včasnost. Data musí mít kvalitu, pokud splňují zamýšlený účel. Předzpracování je tedy v procesu dolování dat zásadní. Níže jsou vysvětleny hlavní kroky předzpracování dat.
# 1) Čištění dat
Čištění dat je prvním krokem v dolování dat. Má důležitost, protože špinavá data, pokud jsou použita přímo v těžbě, mohou způsobit zmatek v postupech a způsobit nepřesné výsledky.
V zásadě tento krok zahrnuje odstranění hlučných nebo neúplných dat ze sbírky. Mnoho metod, které obecně čistí data sama o sobě, je k dispozici, ale nejsou robustní.
Tento krok provádí běžné úklidové práce:
(i) Vyplňte chybějící údaje:
Chybějící data lze vyplnit způsoby, jako jsou:
- Ignorování n-tice.
- Ruční doplnění chybějící hodnoty.
- Použijte míru centrální tendence, medián nebo
- Vyplnění nejpravděpodobnější hodnoty.
(ii) Odebrat hlučná data: Náhodná chyba se nazývá hlučná data.
Metody k odstranění hluku jsou:
Binování: Metody binování se používají seřazením hodnot do segmentů nebo košů. Vyhlazení se provádí konzultováním sousedních hodnot.
Binování se provádí vyhlazením pomocí koše, tj. Každý koš je nahrazen průměrem koše. Vyhlazení mediánem, kde je každá hodnota bin nahrazena mediánem bin. Vyhlazení podle hranic bin, tj. Minimální a maximální hodnoty v bin jsou hranice bin a každá hodnota bin je nahrazena nejbližší hraniční hodnotou.
- Identifikace odlehlých hodnot
- Řešení nesrovnalostí
# 2) Integrace dat
Když se pro analýzu kombinuje více heterogenních zdrojů dat, jako jsou databáze, datové kostky nebo soubory, tento proces se nazývá datová integrace. To může pomoci zlepšit přesnost a rychlost procesu dolování dat.
Různé databáze mají různé konvence pojmenování proměnných tím, že způsobují nadbytečnost v databázích. Lze provést další čištění dat, aby se odstranila nadbytečnost a nekonzistence z integrace dat, aniž by to ovlivnilo spolehlivost dat.
Integraci dat lze provést pomocí nástrojů pro migraci dat, jako je Oracle Data Service Integrator a Microsoft SQL atd.
jaká je nejlepší aplikace pro stahování mp3 pro Android
# 3) Redukce dat
Tato technika se používá k získání relevantních dat pro analýzu ze sběru dat. Velikost reprezentace má mnohem menší objem při zachování integrity. Redukce dat se provádí pomocí metod, jako jsou Naive Bayes, Rozhodovací stromy, Neuronová síť atd.
Některé strategie redukce dat jsou:
- Redukce rozměrů: Snížení počtu atributů v datové sadě.
- Snížení početnosti: Nahrazení původního objemu dat menšími formami reprezentace dat.
- Komprese dat: Komprimovaná reprezentace původních dat.
# 4) Transformace dat
V tomto procesu jsou data transformována do formy vhodné pro proces dolování dat. Data jsou konsolidována, takže proces těžby je efektivnější a vzory jsou srozumitelnější. Transformace dat zahrnuje proces mapování dat a generování kódu.
Strategie pro transformaci dat jsou:
- Vyhlazování: Odstranění šumu z dat pomocí shlukování, regresních technik atd.
- Agregace: Souhrnné operace se použijí na data.
- Normalizace: Škálování dat spadá do menšího rozsahu.
- Diskretizace: Nezpracované hodnoty číselných dat jsou nahrazeny intervaly. Například, Stáří.
# 5) Dolování dat
Data Mining je proces k identifikaci zajímavých vzorců a znalostí z velkého množství dat. V těchto krocích se používají inteligentní vzory k extrakci datových vzorů. Data jsou reprezentována ve formě vzorů a modely jsou strukturovány pomocí technik klasifikace a shlukování.
# 6) Vyhodnocení vzoru
Tento krok zahrnuje identifikaci zajímavých vzorců představujících znalosti na základě měr zajímavosti. Metody sumarizace a vizualizace dat se používají k tomu, aby data byla uživateli srozumitelná.
# 7) Reprezentace znalostí
Reprezentace znalostí je krok, kdy se k reprezentaci vytěžených dat používají nástroje pro vizualizaci dat a reprezentaci znalostí. Data jsou vizualizována ve formě zpráv, tabulek atd.
Proces dolování dat v Oracle DBMS
RDBMS představuje data ve formě tabulek s řádky a sloupci. K datům lze přistupovat zápisem databázových dotazů.
Relační systémy pro správu databází, jako je Oracle, podporují dolování dat pomocí CRISP-DM. Vybavení databáze Oracle je užitečné při přípravě a porozumění datům. Oracle podporuje dolování dat prostřednictvím rozhraní Java, rozhraní PL / SQL, automatizovaného dolování dat, funkcí SQL a grafických uživatelských rozhraní.
Proces dolování dat v Datawarehouse
Datový sklad je modelován pro vícerozměrnou datovou strukturu nazvanou datová kostka. Každá buňka v datové krychli ukládá hodnotu některých agregovaných měr.
Dolování dat ve vícerozměrném prostoru prováděné ve stylu OLAP (Online Analytical Processing), kde umožňuje zkoumání více kombinací dimenzí na různých úrovních granularity.
Jaké jsou aplikace extrakce dat?
Seznam oblastí, kde se těžba dat široce používá, zahrnuje:
# 1) Analýza finančních údajů: Těžba dat je široce používána v bankovnictví, investování, úvěrových službách, hypotékách, půjčkách na automobily a v pojišťovacích a akciových investičních službách. Údaje shromážděné z těchto zdrojů jsou úplné, spolehlivé a vysoce kvalitní. To usnadňuje systematickou analýzu dat a dolování dat.
# 2) Maloobchod a telekomunikační odvětví: Maloobchodní sektor shromažďuje obrovské množství dat o prodeji, historii nakupování zákazníků, přepravě zboží, spotřebě a službách. Dolování dat z maloobchodu pomáhá identifikovat chování zákazníků při nakupování, vzorce a trendy v nakupování zákazníků, zlepšovat kvalitu služeb zákazníkům, lepší udržení zákazníků a spokojenost.
# 3) Věda a inženýrství: Počítačová věda a technika pro dolování dat mohou pomoci monitorovat stav systému, zlepšit výkon systému, izolovat chyby softwaru, detekovat plagiátorství softwaru a rozpoznat poruchy systému.
# 4) Detekce a prevence narušení: Narušení je definováno jako jakákoli sada akcí, které ohrožují integritu, důvěrnost nebo dostupnost síťových prostředků. Metody dolování dat mohou pomoci systému detekce a prevence narušení zvýšit jeho výkon.
# 5) Doporučující systémy: Doporučovací systémy pomáhají spotřebitelům vydávat doporučení produktů, která jsou pro uživatele zajímavá.
Výzvy v oblasti dolování dat
Níže jsou uvedeny různé výzvy spojené s těžbou dat.
- Data Mining vyžaduje rozsáhlé databáze a sběr dat, které je obtížné spravovat.
- Proces dolování dat vyžaduje odborníky na doménu, které je opět těžké najít.
- Integrace z heterogenních databází je složitý proces.
- Aby bylo možné použít výsledky dolování dat, je třeba upravit postupy na úrovni organizace. Restrukturalizace procesu vyžaduje úsilí a náklady.
Závěr
Data Mining je iterační proces, při kterém lze zdokonalit proces těžby a integrovat nová data za účelem dosažení efektivnějších výsledků. Data Mining splňuje požadavek efektivní, škálovatelné a flexibilní analýzy dat.
Lze jej považovat za přirozené hodnocení informačních technologií. Jako proces zjišťování znalostí dokončují proces přípravy dat a úlohy dolování dat proces dolování dat.
Procesy dolování dat lze provádět na jakémkoli typu dat, jako jsou databázová data a pokročilé databáze, jako jsou časové řady atd. Proces dolování dat má také své vlastní výzvy.
Zůstaňte naladěni na náš nadcházející výukový program a dozvíte se více o příkladech dolování dat !!
Výukový program PREV | DALŠÍ výuka
Doporučené čtení
- Těžba dat: Proces, techniky a hlavní problémy v analýze dat
- Techniky dolování dat: Algoritmus, metody a nejlepší nástroje pro dolování dat
- 10 nejlepších nástrojů pro mapování dat užitečných v procesu ETL (SEZNAM 2021)
- Top 10 databázových návrhových nástrojů pro vytváření komplexních datových modelů
- Data Mining Vs Machine Learning Vs Artificial Intelligence Vs Deep Learning
- Top 15 nejlepších bezplatných nástrojů pro dolování dat: nejkomplexnější seznam
- Otestujte koncept, proces a strategii správy dat
- Parametrizace dat JMeter pomocí uživatelem definovaných proměnných