frequent pattern growth algorithm data mining
Podrobný návod k algoritmu růstu častých vzorů, který představuje databázi ve formě stromu FP. Zahrnuje FP Growth Vs Apriori srovnání:
Aprioriho algoritmus bylo podrobně vysvětleno v našem předchozím tutoriálu. V tomto tutoriálu se dozvíme o častém růstu vzorů - růst FP je metoda těžby častých položek.
html5 otázky a odpovědi na pohovor pdf
Jak všichni víme, Apriori je algoritmus pro častou těžbu vzorů, který se zaměřuje na generování množin položek a objevování nejčastější položky. Výrazně snižuje velikost sady položek v databázi, ale Apriori má také své vlastní nedostatky.
Přečtěte si naše Celá řada školení pro těžbu dat pro úplnou znalost konceptu.
Co se naučíte:
- Nedostatky aprioriho algoritmu
- Algoritmus růstu častých vzorů
- FP strom
- Kroky častého algoritmu vzoru
- Příklad FP-růstového algoritmu
- Výhody algoritmu růstu FP
- Nevýhody FP-růstového algoritmu
- FP Growth vs Apriori
- LESK
- Závěr
- Doporučené čtení
Nedostatky aprioriho algoritmu
- Používání Apriori vyžaduje generaci kandidátských položek. Počet těchto položek může být velký, pokud je sada položek v databázi obrovská.
- Apriori potřebuje několik skenů databáze, aby zkontrolovalo podporu každé vygenerované sady položek, což vede k vysokým nákladům.
Tyto nedostatky lze překonat pomocí algoritmu růstu FP.
Algoritmus růstu častých vzorů
Tento algoritmus je vylepšením metody Apriori. Generuje se častý vzor bez nutnosti generování kandidátů. Algoritmus růstu FP představuje databázi ve formě stromu, který se nazývá strom častých vzorů nebo strom FP.
Tato stromová struktura bude udržovat přidružení mezi sadami položek. Databáze je fragmentována pomocí jedné časté položky. Tato fragmentovaná část se nazývá „fragment fragmentu“. Analyzují se položky těchto fragmentovaných vzorů. Díky této metodě je tedy hledání častých položek omezeno.
FP strom
Frequent Pattern Tree je stromová struktura, která je vytvořena s počátečními sadami položek databáze. Účelem stromu FP je vytěžit nejčastější vzor. Každý uzel stromu FP představuje položku sady položek.
Kořenový uzel představuje null, zatímco spodní uzly představují sady položek. Při vytváření stromu je zachováno přidružení uzlů k dolním uzlům, kterými jsou sady položek, k ostatním sadám položek.
Kroky častého algoritmu vzoru
Metoda častého růstu vzorů nám umožňuje najít častý vzor bez generování kandidátů.
Podívejme se na kroky, které následovaly při těžbě častého vzoru pomocí algoritmu častého růstu vzoru:
# 1) Prvním krokem je skenování databáze a nalezení výskytů sad položek v databázi. Tento krok je stejný jako první krok Apriori. Počet sad 1 položek v databázi se nazývá počet podpory nebo frekvence sady 1 položek.
#dva) Druhým krokem je konstrukce FP stromu. Za tímto účelem vytvořte kořen stromu. Kořen je reprezentován null.
# 3) Dalším krokem je opětovné prohledání databáze a prozkoumání transakcí. Prozkoumejte první transakci a vyhledejte v ní sadu položek. Sada položek s maximálním počtem se odebírá nahoře, další sada položek s nižším počtem atd. To znamená, že větev stromu je konstruována s transakčními položkami v sestupném pořadí podle počtu.
# 4) Je zkoumána další transakce v databázi. Sady položek jsou seřazeny v sestupném pořadí podle počtu. Pokud je některá položka této transakce již přítomna v jiné větvi (například v první transakci), pak by tato transakční větev sdílela společnou předponu kořene.
To znamená, že společná sada položek je propojena s novým uzlem jiné sady položek v této transakci.
# 5) Počet položek sady se také zvýší, jak se vyskytuje v transakcích. Počet společných uzlů i nových uzlů se zvyšuje o 1, protože jsou vytvářeny a propojovány podle transakcí.
# 6) Dalším krokem je těžba vytvořeného stromu FP. Za tímto účelem se nejprve prozkoumá nejnižší uzel spolu s odkazy nejnižších uzlů. Nejnižší uzel představuje délku kmitočtového vzoru 1. Z toho projeďte cestu ve stromu FP. Tato cesta nebo cesty se nazývají podmíněná základna vzoru.
Podmíněný vzorový základ je sub-databáze skládající se z cest předpon ve stromu FP vyskytujících se s nejnižším uzlem (příponou).
# 7) Vytvořte podmíněný strom FP, který je tvořen počtem sad položek v cestě. Sady položek, které splňují podporu prahové hodnoty, jsou považovány ve stromu podmíněného FP.
# 8) Časté vzory jsou generovány z podmíněného stromu FP.
Příklad FP-růstového algoritmu
Prahová hodnota podpory = 50%, spolehlivost = 60%
stůl 1
co je klíč bezdrátové sítě
Transakce | Seznam položek |
---|---|
Využití paměti | |
T1 | I1, I2, I3 |
T2 | I2, I3, I4 |
T3 | I4, I5 |
T4 | I1, I2, I4 |
T5 | I1, I2, I3, I5 |
T6 | I1, I2, I3, I4 |
Řešení:
Prahová hodnota podpory = 50% => 0,5 * 6 = 3 => min_sup = 3
1. Počet jednotlivých položek
Tabulka 2
Položka | Počet |
---|---|
I1 | 4 |
I2 | 5 |
I3 | 4 |
I4 | 4 |
I5 | dva |
2. Seřaďte sadu položek v sestupném pořadí.
Tabulka 3
Položka | Počet |
---|---|
I2 | 5 |
I1 | 4 |
I3 | 4 |
I4 | 4 |
3. Vytvořte strom FP
- Vzhledem k nulovému kořenovému uzlu.
- První sken Transakce T1: I1, I2, I3 obsahuje tři položky {I1: 1}, {I2: 1}, {I3: 1}, kde I2 je propojen jako dítě s rootem, I1 je propojen s I2 a I3 je spojen s I1.
- T2: I2, I3, I4 obsahuje I2, I3 a I4, kde I2 je spojen s rootem, I3 je spojen s I2 a I4 je spojen s I3. Ale tato větev by sdílela I2 uzel tak běžný, jak se již používá v T1.
- Zvýší počet I2 o 1 a I3 je jako dítě spojeno s I2, I4 je jako dítě spojeno s I3. Počet je {I2: 2}, {I3: 1}, {I4: 1}.
- T3: I4, I5. Podobně je nová větev s I5 propojena s I4, když je vytvořeno dítě.
- T4: I1, I2, I4. Sekvence bude I2, I1 a I4. I2 je již propojen s kořenovým uzlem, proto se zvýší o 1. Podobně se I1 zvýší o 1, protože je již propojen s I2 v T1, tedy {I2: 3}, {I1: 2}, {I4: 1}.
- T5: I1, I2, I3, I5. Sekvence bude I2, I1, I3 a I5. Tedy {I2: 4}, {I1: 3}, {I3: 2}, {I5: 1}.
- T6: I1, I2, I3, I4. Sekvence bude I2, I1, I3 a I4. Tedy {I2: 5}, {I1: 4}, {I3: 3}, {I4 1}.
4. Těžba FP-stromu je shrnuta níže:
- Nejnižší položka uzlu I5 není brána v úvahu, protože nemá minimální počet podpor, a proto je odstraněna.
- Další dolní uzel je I4. I4 se vyskytuje ve 2 větvích, {I2, I1, I3:, I41}, {I2, I3, I4: 1}. Proto vzhledem k tomu, že I4 jako přípona budou cesty předpon, budou {I2, I1, I3: 1}, {I2, I3: 1}. To tvoří podmíněný vzorový základ.
- Podmíněný vzorový základ je považován za databázi transakcí, je vytvořen strom FP. To bude obsahovat {I2: 2, I3: 2}, I1 není považován, protože nesplňuje minimální počet podpor.
- Tato cesta vygeneruje všechny kombinace častých vzorů: {I2, I4: 2}, {I3, I4: 2}, {I2, I3, I4: 2}
- Pro I3 by cesta předpony byla: {I2, I1: 3}, {I2: 1}, vygeneruje se 2 uzlový FP strom: {I2: 4, I1: 3} a generují se časté vzory: {I2 , I3: 4}, {I1: I3: 3}, {I2, I1, I3: 3}.
- Pro I1 by cesta předpony byla: {I2: 4} vygeneruje FP strom s jedním uzlem: {I2: 4} a generují se časté vzory: {I2, I1: 4}.
Položka | Podmíněná základna vzoru | Podmíněný strom FP | Generované časté vzory |
---|---|---|---|
I4 | {I2, I1, I3: 1}, {I2, I3: 1} | {I2: 2, I3: 2} | {I2, I4: 2}, {I3, I4: 2}, {I2, I3, I4: 2} |
I3 | {I2, I1: 3}, {I2: 1} | {I2: 4, I1: 3} | {I2, I3: 4}, {I1: I3: 3}, {I2, I1, I3: 3} |
I1 | {I2: 4} | {I2: 4} | {I2, I1: 4} |
Níže uvedený diagram znázorňuje podmíněný strom FP spojený s podmíněným uzlem I3.
Výhody algoritmu růstu FP
- Tento algoritmus potřebuje skenovat databázi pouze dvakrát ve srovnání s Apriori, který skenuje transakce pro každou iteraci.
- Párování položek se v tomto algoritmu neprovádí, a proto je rychlejší.
- Databáze je uložena v kompaktní verzi v paměti.
- Je efektivní a škálovatelný pro těžbu jak dlouhých, tak krátkých častých vzorů.
Nevýhody FP-růstového algoritmu
- FP Tree je těžkopádnější a těžší stavět než Apriori.
- Může to být drahé.
- Když je databáze velká, nemusí se algoritmus ve sdílené paměti vešly.
FP Growth vs Apriori
Růst FP | A priori |
---|---|
Generování vzorů | |
Růst FP generuje vzor konstrukcí stromu FP | Apriori generuje vzor spárováním položek do singletonů, párů a tripletů. |
Generace kandidátů | |
Neexistuje žádná generace kandidátů | Apriori používá generování kandidátů |
Proces | |
Tento proces je ve srovnání s Apriori rychlejší. Doba běhu procesu se lineárně zvyšuje s nárůstem počtu sad položek. | Proces je poměrně pomalejší než růst FP, doba běhu se exponenciálně zvyšuje s nárůstem počtu sad položek |
Uloží se kompaktní verze databáze | Kombinace kandidátů jsou uloženy v paměti |
LESK
Výše uvedená metoda, Apriori a FP growth, těží časté sady položek pomocí horizontálního datového formátu. ECLAT je metoda těžby častých položek pomocí vertikálního datového formátu. Transformuje data ve vodorovném datovém formátu do vertikálního formátu.
Například,Apriori a FP růst použití:
Transakce | Seznam položek |
---|---|
T1 | I1, I2, I3 |
T2 | I2, I3, I4 |
T3 | I4, I5 |
T4 | I1, I2, I4 |
T5 | I1, I2, I3, I5 |
T6 | I1, I2, I3, I4 |
ECLAT bude mít formát tabulky jako:
Položka | Sada transakcí |
---|---|
I1 | {T1, T4, T5, T6} |
I2 | {T1, T2, T4, T5, T6} |
I3 | {T1, T2, T5, T6} |
I4 | {T2, T3, T4, T5} |
I5 | {T3, T5} |
Tato metoda vytvoří ve vertikálním datovém formátu 2-položky, 3 položky, k položky. Tento proces s k se zvyšuje o 1, dokud nebudou nalezeny žádné sady položek kandidáta. Spolu s Apriori se používají některé optimalizační techniky, jako například diffset.
Tato metoda má oproti Apriori výhodu, protože nevyžaduje skenování databáze, aby se našla podpora k + 1 položek. Důvodem je, že sada transakcí bude nést počet výskytů každé položky v transakci (podpora). Úzké místo nastává, když existuje mnoho transakcí, které vyžadují velkou paměť a výpočetní čas pro protnutí sad.
Závěr
Algoritmus Apriori se používá pro dolování asociačních pravidel. Funguje na principu, „musí být časté i neprázdné podmnožiny častých položek“. Vytváří kandidáty k-itemet z (k-1) itemets a skenuje databázi, aby našel časté sady itemů.
jaké jsou dobré anime webové stránky
Frequent Pattern Growth Algorithm je metoda hledání častých vzorů bez generování kandidátů. Konstruuje strom FP spíše než pomocí strategie generování a testování Apriori. Algoritmus FP Growth se zaměřuje na fragmentaci cest položek a těžbu častých vzorů.
Doufáme, že tyto výukové programy v seriálu Data Mining Series obohatily vaše znalosti o dolování dat !!
Výukový program PREV | PRVNÍ výuka
Doporučené čtení
- Techniky dolování dat: Algoritmus, metody a nejlepší nástroje pro dolování dat
- Apriori Algorithm in Data Mining: Implementation With examples
- Příklady algoritmu rozhodovacího stromu při dolování dat
- Příklady dolování dat: Nejběžnější aplikace dolování dat 2021
- Těžba dat: Proces, techniky a hlavní problémy v analýze dat
- Proces dolování dat: zúčastněné modely, procesní kroky a výzvy
- Vzor dotazu na certifikační zkoušku softwaru CSTE
- Data Mining vs. Machine Learning vs. Artificial Intelligence vs. Deep Learning