data mining techniques
nejlepší software pro tvorbu her pro začátečníky
Tento podrobný výukový program o technikách dolování dat vysvětluje algoritmy, nástroje pro dolování dat a metody extrakce užitečných dat:
V tomhle Výukový program pro hloubkovou těžbu dat pro všechny , jsme prozkoumali vše o dolování dat v našem předchozím tutoriálu.
V tomto kurzu se seznámíme s různými technikami používanými pro extrakci dat. Jak víme, že dolování dat je koncept extrakce užitečných informací z obrovského množství dat, některé techniky a metody jsou aplikovány na velké sady dat pro extrahování užitečných informací.
Tyto techniky jsou v zásadě ve formě metod a algoritmů aplikovaných na datové sady. Mezi některé techniky dolování dat patří Těžba častých vzorů, sdružení a korelace, klasifikace, shlukování, detekce odlehlých hodnot a některé pokročilé techniky, jako je statistická, vizuální a zvuková těžba dat.
Obecně se pro techniky dolování dat používají relační databáze, transakční databáze a datové sklady. Existují však také některé pokročilé techniky těžby komplexních dat, jako jsou časové řady, symbolické sekvence a biologická sekvenční data.
Co se naučíte:
- Účel technik dolování dat
- Seznam technik extrakce dat
- Nejlepší algoritmy pro dolování dat
- Metody extrakce dat
- Nejlepší nástroje pro dolování dat
- Závěr
- Doporučené čtení
Účel technik dolování dat
Vzhledem k tomu, že se každý den ukládá obrovské množství dat, mají podniky nyní zájem zjistit trendy z nich. Techniky extrakce dat pomáhají při převádění nezpracovaných dat na užitečné znalosti. K těžbě obrovského množství dat je nutný software, protože je nemožné, aby člověk ručně procházel velkým objemem dat.
Software pro dolování dat analyzuje vztah mezi různými položkami ve velkých databázích, které mohou pomoci v rozhodovacím procesu, dozvědět se více o zákaznících, vytvořit marketingové strategie, zvýšit prodej a snížit náklady.
Seznam technik extrakce dat
Použitá technika dolování dat závisí na perspektivě naší analýzy dat.
Pojďme si tedy promluvit o různých technikách, jak lze extrakci dat provádět různými způsoby:
# 1) Častá těžba vzorů / analýza přidružení
Tento typ techniky dolování dat hledá opakující se vztahy v dané datové sadě. Bude hledat zajímavé asociace a korelace mezi různými položkami v databázi a identifikovat vzor.
Příklad, takového druhu by byla „Analýza nákupního košíku“: zjištění „jaké produkty si zákazníci pravděpodobně v obchodě společně zakoupí?“ jako je chléb a máslo.
Aplikace: Návrh umístění produktů na pultech obchodů, marketing, křížový prodej produktů.
Vzory mohou být reprezentovány ve formě pravidel přidružení. Pravidlo přidružení říká, že podpora a důvěra jsou parametry pro zjištění užitečnosti přidružených položek. Transakce, při nichž byly obě položky zakoupeny najednou, se označují jako podpora.
Transakce, při nichž zákazníci koupili obě položky, ale jednu po druhé, jsou důvěryhodností. Těžený vzor by byl považován za zajímavý, pokud má a minimální práh podpory a minimální práh spolehlivosti hodnota. O prahových hodnotách rozhodují odborníci na doménu.
Chléb => máslo (podpora = 2%, důvěra - 60%)
Výše uvedené prohlášení je příkladem pravidla přidružení. To znamená, že existuje 2% transakce, která koupila chléb s máslem společně a existuje 60% zákazníků, kteří si koupili chléb i máslo.
Kroky k implementaci asociační analýzy:
- Nalezení častých položek. Položka znamená sadu položek. Sada položek obsahující položky k je sada položek k. Frekvence sady položek je počet transakcí, které obsahují sadu položek.
- Generování silných asociačních pravidel z častých položek. Silnými asociačními pravidly máme na mysli, že je splněna minimální prahová podpora a důvěra.
Existují různé časté metody těžby položek jako Apriori Algorithm, Pattern Growth Approach a Mining using the Vertical Data Format. Tato technika se běžně nazývá Analýza tržního koše.
# 2) Korelační analýza
Korelační analýza je pouze rozšířením pravidel přidružení. Parametry podpory a důvěry mohou někdy uživatelům přinést nezajímavé vzory.
Příkladem podpory výše uvedeného prohlášení může být: z 1000 analyzovaných transakcí obsahovalo 600 pouze chléb, zatímco 750 obsahovalo máslo a 400 obsahovalo chléb i máslo. Předpokládejme, že minimální podpora pro běh pravidla přidružení je 30% a minimální spolehlivost je 60%.
Hodnota podpory 400/1 000 = 40% a hodnota spolehlivosti = 400/600 = 66% splňuje prahovou hodnotu. Vidíme však, že pravděpodobnost nákupu másla je 75%, což je více než 66%. To znamená, že chléb a máslo negativně korelují, protože nákup jednoho by vedl ke snížení nákupu druhého. Výsledky klamou.
Z výše uvedeného příkladu je podpora a důvěra doplněna dalším měřítkem zajímavosti, tj. Korelační analýzou, která pomůže při těžbě zajímavých vzorů.
A => B (podpora, spolehlivost, korelace).
Korelační pravidlo se měří pomocí podpory, spolehlivosti a korelace mezi položkami A a B. Korelace se měří pomocí Lift a Chi-Square.
(zvedám: Jak samotné slovo říká, Lift představuje míru, do jaké přítomnost jedné sady položek zvedne výskyt dalších sad položek.
Výtah mezi výskytem A a B lze měřit pomocí:
Výtah (A, B) = P (A U B) / P (A). P (B).
Pokud to je<1, then A and B are negatively correlated.
Pokud je> 1. Pak A a B jsou pozitivně korelované, což znamená, že výskyt jednoho znamená výskyt druhého.
Pokud je = 1, pak mezi nimi neexistuje žádná korelace.
ii) Chí-náměstí: Toto je další korelační měřítko. Měří čtvercový rozdíl mezi pozorovanou a očekávanou hodnotou pro slot (pár A a B) dělený očekávanou hodnotou.
Pokud je> 1, pak je negativně korelována.
# 3) Klasifikace
Klasifikace pomáhá při vytváření modelů důležitých tříd dat. Model nebo klasifikátor je konstruován tak, aby předpovídal popisky tříd. Štítky jsou definované třídy se samostatnými hodnotami jako „ano“ nebo „ne“, „bezpečné“ nebo „riskantní“. Jde o typ kontrolovaného učení, protože třída štítků je již známa.
Klasifikace dat je dvoustupňový proces:
- Krok učení: Model je zde konstruován. Na data se použije předem definovaný algoritmus k analýze s poskytnutým štítkem třídy a jsou vytvořena pravidla klasifikace.
- Krok klasifikace: Model se používá k předpovědi označení třídy pro daná data. Přesnost pravidel klasifikace se odhaduje podle údajů ze zkoušek, které se při klasifikaci nových datových řazených kolekcí použijí, pokud se zjistí jejich přesnost.
Položky v sadě položek budou přiřazeny cílovým kategoriím k předpovídání funkcí na úrovni štítku třídy.
Aplikace: Banky, které identifikují žadatele o úvěr jako osoby s nízkým, středním nebo vysokým rizikem, podniky navrhující marketingové kampaně na základě klasifikace věkových skupin. “
# 4) Indukce rozhodovacího stromu
Metoda indukce rozhodovacích stromů spadá pod klasifikační analýzu. Rozhodovací strom je stromová struktura, která je snadno srozumitelná, jednoduchá a rychlá. V tomto představuje každý nelistový uzel test na atributu a každá větev představuje výsledek testu a listový uzel představuje popisek třídy.
Hodnoty atributů v n-tici jsou testovány proti rozhodovacímu stromu od kořene po uzel listu. Rozhodovací stromy jsou populární, protože nevyžadují žádné znalosti domény. Mohou představovat vícerozměrná data. Rozhodovací stromy lze snadno převést na klasifikační pravidla.
Aplikace: Rozhodovací stromy jsou konstruovány v medicíně, výrobě, výrobě, astronomii atd. Níže je uveden příklad:
# 5) Bayesova klasifikace
Bayesiánská klasifikace je další metodou klasifikační analýzy. Bayesovy klasifikátory předpovídají pravděpodobnost, že daná n-tice bude patřit do konkrétní třídy. Je založen na Bayesově teorému, který je založen na pravděpodobnosti a teorii rozhodování.
Bayesova klasifikace pracuje na zadní pravděpodobnosti a předchozí pravděpodobnosti pro rozhodovací proces. Při zadní pravděpodobnosti je hypotéza vytvořena z dané informace, tj. Jsou známy hodnoty atributů, zatímco u předchozí pravděpodobnosti jsou hypotézy uvedeny bez ohledu na hodnoty atributů.
# 6) Klastrová analýza
Jedná se o techniku rozdělení souboru dat do klastrů nebo skupin objektů. Shlukování se provádí pomocí algoritmů. Jde o typ učení bez kontroly, protože informace o štítku nejsou známy. Metody shlukování identifikují data, která jsou navzájem podobná nebo odlišná, a provádí se analýza charakteristik.
Clusterová analýza může být použita jako předkrok k aplikaci různých dalších algoritmů, jako je charakterizace, výběr podmnožiny atributů atd. Clusterová analýza může být také použita pro detekci odlehlých hodnot, jako jsou vysoké nákupy v transakcích kreditní kartou.
Aplikace: Rozpoznávání obrázků, vyhledávání na webu a zabezpečení.
# 7) Detekce odlehlých hodnot
Proces hledání datových objektů, které mají výjimečné chování od ostatních objektů, se nazývá detekce odlehlých hodnot. Detekce odlehlých hodnot a klastrová analýza spolu souvisejí. Odlehlé metody jsou rozděleny do kategorií na statistiku, blízkost, shlukování a klasifikaci.
Existují různé typy odlehlých hodnot, některé z nich jsou:
- Global Outlier: Datový objekt se významně odchýlil od zbytku datové sady.
- Kontextová odlehlá hodnota: Závisí to na určitých faktorech, jako je den, čas a místo. Pokud se datový objekt významně odchyluje s odkazem na kontext.
- Kolektivní odlehlé: Když se skupina datových objektů chová odlišně od celé datové sady.
Aplikace: Detekce rizik podvodu s kreditní kartou, detekce novinek atd.
# 8) Sekvenční vzory
U tohoto typu dolování dat je rozpoznán trend nebo některé konzistentní vzory. Pochopení chování zákazníků při nakupování a sekvenčních vzorů používají obchody k vystavení svých produktů na regálech.
Aplikace: Příklad elektronického obchodování, kde se při nákupu položky A ukáže, že položka B se často kupuje, když se položka A dívá na minulou historii nákupu.
# 9) Regresní analýza
Tento typ analýzy je pod dohledem a identifikuje, které sady položek mezi různými vztahy souvisejí nebo jsou na sobě nezávislé. Může předvídat prodej, zisk, teplotu, předvídat lidské chování atd. Má již známou hodnotu souboru dat.
Když je zadán vstup, regresní algoritmus porovná vstup a očekávanou hodnotu a chyba se vypočítá, aby se získal přesný výsledek.
Aplikace: Porovnání úsilí v oblasti marketingu a vývoje produktů.
Nejlepší algoritmy pro dolování dat
Techniky dolování dat jsou aplikovány prostřednictvím algoritmů za nimi. Tyto algoritmy běží na softwaru pro extrakci dat a jsou aplikovány na základě obchodních potřeb.
Níže jsou definovány některé z algoritmů, které organizace často používají k analýze datových sad:
- K znamená: Jedná se o populární techniku klastrové analýzy, kdy je skupina podobných položek seskupena dohromady.
- Algoritmus Apriori: Jedná se o častou techniku těžby položek a v transakčních databázích se na ni vztahují pravidla přidružení. Zjistí časté položky a zvýrazní obecné trendy.
- K Nejbližší soused: Tato metoda se používá pro klasifikaci a regresní analýzu. Nejbližší soused k je líné učení, kde ukládá tréninková data a když přijde nová neoznačená data, klasifikuje vstupní data.
- Bayesovy lodě: Jedná se o skupinu jednoduchých pravděpodobnostních klasifikačních algoritmů, které předpokládají, že vlastnosti každého datového objektu jsou na sobě nezávislé. Je to aplikace Bayesovy věty.
- AdaBoost: Jedná se o meta-algoritmus strojového učení, který se používá ke zlepšení výkonu. Adaboost je citlivý na hlučná data a odlehlé hodnoty.
Metody extrakce dat
Níže jsou vysvětleny některé pokročilé metody dolování dat pro zpracování složitých datových typů.
Data v dnešním světě jsou rozmanitých typů, od jednoduchých až po složitá data. K těžbě komplexních datových typů, jako jsou časové řady, vícerozměrná, prostorová a multimediální data, jsou potřeba pokročilé algoritmy a techniky.
Některé z nich jsou popsány níže:
- KLIKNUTÍ: Jednalo se o první klastrovací metodu k nalezení klastrů ve vícerozměrném podprostoru.
- P3C: Jedná se o dobře známou klastrovací metodu pro středně až vysoce multidimenzionální data.
- JEZERO: Jedná se o metodu založenou na k-means zaměřenou na shlukování dat střední a vysoké dimenze. Algoritmus rozděluje data na k disjunktní sadu prvků odstraněním možných odlehlých hodnot.
- NATÁČKA: Jedná se o algoritmus shlukování korelace, který zaznamenává lineární i nelineární korelace.
Nejlepší nástroje pro dolování dat
Data Mining Tools jsou software používaný k těžbě dat. Nástroje spouštějí algoritmy na backendu. Tyto nástroje jsou na trhu k dispozici jako otevřený zdroj, svobodný software a licencovaná verze.
Mezi nástroje pro extrakci dat patří:
# 1) RapidMiner
RapidMiner je open-source softwarová platforma pro analytické týmy, která spojuje přípravu dat, strojové učení a prediktivní nasazení modelu. Tento nástroj se používá k provádění analýzy dolování dat a vytváření datových modelů. Má velké sady pro klasifikaci, shlukování, dolování pravidel asociace a regresní algoritmy.
# 2) Oranžová
Jedná se o open-source nástroj obsahující balíček vizualizace a analýzy dat. Orange lze importovat do libovolného pracovního prostředí pythonu. Je vhodný pro nové výzkumné pracovníky a malé projekty.
# 3) JAZYK
KEEL (Extrakce znalostí založená na evolučním učení) je open-source ( GPLv3 ) Softwarový nástroj Java, který lze použít pro velké množství různých úkolů zjišťování znalostních dat.
# 4) SPSS
IBM SPSS Modeler je softwarová aplikace pro dolování dat a analýzu textu od společnosti IBM. Používá se k vytváření prediktivních modelů a provádění dalších analytických úkolů.
# 5) KNIME
Je to bezplatný nástroj s otevřeným zdrojovým kódem obsahující balíček pro čištění a analýzu dat, specializované algoritmy v oblastech analýzy sentimentu a analýzy sociálních sítí. KNIME může integrovat data z různých zdrojů do stejné analýzy. Má rozhraní s programováním Java, Python a R.
Důležitá otázka: Jak se klasifikace liší od predikce?
Klasifikace je seskupení dat. Příkladem klasifikace je seskupení na základě věkové skupiny, zdravotního stavu atd. Zatímco predikce odvozuje výsledek pomocí utajovaných údajů.
Příklad prediktivní analýzy je předpovídání zájmů na základě věkové skupiny, léčby zdravotního stavu. Predikce je také známá jako odhad pro spojité hodnoty.
Důležitý termín: Prediktivní dolování dat
Prediktivní dolování dat se provádí za účelem předpovědi nebo předpovědi určitých datových trendů pomocí Business Intelligence a dalších dat. Pomáhá podnikům mít lepší analytiku a činit lepší rozhodnutí. Prediktivní analýza se často kombinuje s prediktivní těžbou dat.
Prediktivní dolování dat zjistí relevantní data pro analýzu. Prediktivní analýza využívá data k předpovědi výsledku.
Závěr
V tomto kurzu jsme diskutovali o různých technikách dolování dat, které mohou organizacím a podnikům pomoci najít nejužitečnější a nejrelevantnější informace. Tyto informace se používají k vytvoření modelů, které předpovídají chování zákazníků, aby na ně podniky mohly reagovat.
Po přečtení všech výše uvedených informací o technikách dolování dat lze ještě lépe určit jeho důvěryhodnost a proveditelnost. Mezi techniky extrakce dat patří práce s daty, přeformátování dat, restrukturalizace dat. Formát potřebných informací je založen na použité technice a analýze.
Nakonec všechny techniky, metody a systémy dolování dat pomáhají při objevování nových kreativních inovací.
Výukový program PREV | DALŠÍ výuka
Doporučené čtení
- Těžba dat: Proces, techniky a hlavní problémy v analýze dat
- 10 nejlepších nástrojů pro modelování dat pro správu složitých návrhů
- Top 15 nejlepších bezplatných nástrojů pro dolování dat: nejkomplexnější seznam
- 10+ nejlepších nástrojů pro sběr dat se strategiemi sběru dat
- Top 10 databázových návrhových nástrojů pro vytváření komplexních datových modelů
- 10+ nejlepších nástrojů pro správu dat k naplnění vašich datových potřeb v roce 2021
- Data Mining vs. Machine Learning vs. Artificial Intelligence vs. Deep Learning
- Top 14 NEJLEPŠÍCH nástrojů pro správu dat testování v roce 2021