Algoritmus růstu frekvence (FP) při dolování dat

frequent pattern growth algorithm data mining

Vyzkoušejte Náš Nástroj Pro Odstranění Problémů

Vyberte Operační Systém Vyberte Program Projekce (Volitelně)

Popište Svůj Problém

Podrobný návod k algoritmu růstu častých vzorů, který představuje databázi ve formě stromu FP. Zahrnuje FP Growth Vs Apriori srovnání:

Aprioriho algoritmus bylo podrobně vysvětleno v našem předchozím tutoriálu. V tomto tutoriálu se dozvíme o častém růstu vzorů - růst FP je metoda těžby častých položek.

html5 otázky a odpovědi na pohovor pdf

Jak všichni víme, Apriori je algoritmus pro častou těžbu vzorů, který se zaměřuje na generování množin položek a objevování nejčastější položky. Výrazně snižuje velikost sady položek v databázi, ale Apriori má také své vlastní nedostatky.

Přečtěte si naše Celá řada školení pro těžbu dat pro úplnou znalost konceptu.

Co se naučíte:

Nedostatky aprioriho algoritmu
Algoritmus růstu častých vzorů
FP strom
Kroky častého algoritmu vzoru
Příklad FP-růstového algoritmu
Výhody algoritmu růstu FP
Nevýhody FP-růstového algoritmu
FP Growth vs Apriori
LESK
Závěr
Doporučené čtení

Nedostatky aprioriho algoritmu

Používání Apriori vyžaduje generaci kandidátských položek. Počet těchto položek může být velký, pokud je sada položek v databázi obrovská.
Apriori potřebuje několik skenů databáze, aby zkontrolovalo podporu každé vygenerované sady položek, což vede k vysokým nákladům.

Tyto nedostatky lze překonat pomocí algoritmu růstu FP.

Algoritmus růstu častých vzorů

Tento algoritmus je vylepšením metody Apriori. Generuje se častý vzor bez nutnosti generování kandidátů. Algoritmus růstu FP představuje databázi ve formě stromu, který se nazývá strom častých vzorů nebo strom FP.

Tato stromová struktura bude udržovat přidružení mezi sadami položek. Databáze je fragmentována pomocí jedné časté položky. Tato fragmentovaná část se nazývá „fragment fragmentu“. Analyzují se položky těchto fragmentovaných vzorů. Díky této metodě je tedy hledání častých položek omezeno.

FP strom

Frequent Pattern Tree je stromová struktura, která je vytvořena s počátečními sadami položek databáze. Účelem stromu FP je vytěžit nejčastější vzor. Každý uzel stromu FP představuje položku sady položek.

Kořenový uzel představuje null, zatímco spodní uzly představují sady položek. Při vytváření stromu je zachováno přidružení uzlů k dolním uzlům, kterými jsou sady položek, k ostatním sadám položek.

Kroky častého algoritmu vzoru

Metoda častého růstu vzorů nám umožňuje najít častý vzor bez generování kandidátů.

Podívejme se na kroky, které následovaly při těžbě častého vzoru pomocí algoritmu častého růstu vzoru:

# 1) Prvním krokem je skenování databáze a nalezení výskytů sad položek v databázi. Tento krok je stejný jako první krok Apriori. Počet sad 1 položek v databázi se nazývá počet podpory nebo frekvence sady 1 položek.

#dva) Druhým krokem je konstrukce FP stromu. Za tímto účelem vytvořte kořen stromu. Kořen je reprezentován null.

# 3) Dalším krokem je opětovné prohledání databáze a prozkoumání transakcí. Prozkoumejte první transakci a vyhledejte v ní sadu položek. Sada položek s maximálním počtem se odebírá nahoře, další sada položek s nižším počtem atd. To znamená, že větev stromu je konstruována s transakčními položkami v sestupném pořadí podle počtu.

# 4) Je zkoumána další transakce v databázi. Sady položek jsou seřazeny v sestupném pořadí podle počtu. Pokud je některá položka této transakce již přítomna v jiné větvi (například v první transakci), pak by tato transakční větev sdílela společnou předponu kořene.

To znamená, že společná sada položek je propojena s novým uzlem jiné sady položek v této transakci.

# 5) Počet položek sady se také zvýší, jak se vyskytuje v transakcích. Počet společných uzlů i nových uzlů se zvyšuje o 1, protože jsou vytvářeny a propojovány podle transakcí.

# 6) Dalším krokem je těžba vytvořeného stromu FP. Za tímto účelem se nejprve prozkoumá nejnižší uzel spolu s odkazy nejnižších uzlů. Nejnižší uzel představuje délku kmitočtového vzoru 1. Z toho projeďte cestu ve stromu FP. Tato cesta nebo cesty se nazývají podmíněná základna vzoru.

Podmíněný vzorový základ je sub-databáze skládající se z cest předpon ve stromu FP vyskytujících se s nejnižším uzlem (příponou).

# 7) Vytvořte podmíněný strom FP, který je tvořen počtem sad položek v cestě. Sady položek, které splňují podporu prahové hodnoty, jsou považovány ve stromu podmíněného FP.

# 8) Časté vzory jsou generovány z podmíněného stromu FP.

Příklad FP-růstového algoritmu

Prahová hodnota podpory = 50%, spolehlivost = 60%

stůl 1

co je klíč bezdrátové sítě

Transakce	Seznam položek
Využití paměti
T1	I1, I2, I3
T2	I2, I3, I4
T3	I4, I5
T4	I1, I2, I4
T5	I1, I2, I3, I5
T6	I1, I2, I3, I4

Řešení:

Prahová hodnota podpory = 50% => 0,5 * 6 = 3 => min_sup = 3

1. Počet jednotlivých položek

Tabulka 2

Položka	Počet
I1	4
I2	5
I3	4
I4	4
I5	dva

2. Seřaďte sadu položek v sestupném pořadí.

Tabulka 3

Položka	Počet
I2	5
I1	4
I3	4
I4	4

3. Vytvořte strom FP

Vzhledem k nulovému kořenovému uzlu.
První sken Transakce T1: I1, I2, I3 obsahuje tři položky {I1: 1}, {I2: 1}, {I3: 1}, kde I2 je propojen jako dítě s rootem, I1 je propojen s I2 a I3 je spojen s I1.
T2: I2, I3, I4 obsahuje I2, I3 a I4, kde I2 je spojen s rootem, I3 je spojen s I2 a I4 je spojen s I3. Ale tato větev by sdílela I2 uzel tak běžný, jak se již používá v T1.
Zvýší počet I2 o 1 a I3 je jako dítě spojeno s I2, I4 je jako dítě spojeno s I3. Počet je {I2: 2}, {I3: 1}, {I4: 1}.
T3: I4, I5. Podobně je nová větev s I5 propojena s I4, když je vytvořeno dítě.
T4: I1, I2, I4. Sekvence bude I2, I1 a I4. I2 je již propojen s kořenovým uzlem, proto se zvýší o 1. Podobně se I1 zvýší o 1, protože je již propojen s I2 v T1, tedy {I2: 3}, {I1: 2}, {I4: 1}.
T5: I1, I2, I3, I5. Sekvence bude I2, I1, I3 a I5. Tedy {I2: 4}, {I1: 3}, {I3: 2}, {I5: 1}.
T6: I1, I2, I3, I4. Sekvence bude I2, I1, I3 a I4. Tedy {I2: 5}, {I1: 4}, {I3: 3}, {I4 1}.

FP strom

4. Těžba FP-stromu je shrnuta níže:

Nejnižší položka uzlu I5 není brána v úvahu, protože nemá minimální počet podpor, a proto je odstraněna.
Další dolní uzel je I4. I4 se vyskytuje ve 2 větvích, {I2, I1, I3:, I41}, {I2, I3, I4: 1}. Proto vzhledem k tomu, že I4 jako přípona budou cesty předpon, budou {I2, I1, I3: 1}, {I2, I3: 1}. To tvoří podmíněný vzorový základ.
Podmíněný vzorový základ je považován za databázi transakcí, je vytvořen strom FP. To bude obsahovat {I2: 2, I3: 2}, I1 není považován, protože nesplňuje minimální počet podpor.
Tato cesta vygeneruje všechny kombinace častých vzorů: {I2, I4: 2}, {I3, I4: 2}, {I2, I3, I4: 2}
Pro I3 by cesta předpony byla: {I2, I1: 3}, {I2: 1}, vygeneruje se 2 uzlový FP strom: {I2: 4, I1: 3} a generují se časté vzory: {I2 , I3: 4}, {I1: I3: 3}, {I2, I1, I3: 3}.
Pro I1 by cesta předpony byla: {I2: 4} vygeneruje FP strom s jedním uzlem: {I2: 4} a generují se časté vzory: {I2, I1: 4}.

Položka	Podmíněná základna vzoru	Podmíněný strom FP	Generované časté vzory
I4	{I2, I1, I3: 1}, {I2, I3: 1}	{I2: 2, I3: 2}	{I2, I4: 2}, {I3, I4: 2}, {I2, I3, I4: 2}
I3	{I2, I1: 3}, {I2: 1}	{I2: 4, I1: 3}	{I2, I3: 4}, {I1: I3: 3}, {I2, I1, I3: 3}
I1	{I2: 4}	{I2: 4}	{I2, I1: 4}

Níže uvedený diagram znázorňuje podmíněný strom FP spojený s podmíněným uzlem I3.

podmíněný strom FP spojený s podmíněným uzlem I3

Výhody algoritmu růstu FP

Tento algoritmus potřebuje skenovat databázi pouze dvakrát ve srovnání s Apriori, který skenuje transakce pro každou iteraci.
Párování položek se v tomto algoritmu neprovádí, a proto je rychlejší.
Databáze je uložena v kompaktní verzi v paměti.
Je efektivní a škálovatelný pro těžbu jak dlouhých, tak krátkých častých vzorů.

Nevýhody FP-růstového algoritmu

FP Tree je těžkopádnější a těžší stavět než Apriori.
Může to být drahé.
Když je databáze velká, nemusí se algoritmus ve sdílené paměti vešly.

FP Growth vs Apriori

Růst FP	A priori
Generování vzorů
Růst FP generuje vzor konstrukcí stromu FP	Apriori generuje vzor spárováním položek do singletonů, párů a tripletů.
Generace kandidátů
Neexistuje žádná generace kandidátů	Apriori používá generování kandidátů
Proces
Tento proces je ve srovnání s Apriori rychlejší. Doba běhu procesu se lineárně zvyšuje s nárůstem počtu sad položek.	Proces je poměrně pomalejší než růst FP, doba běhu se exponenciálně zvyšuje s nárůstem počtu sad položek
Uloží se kompaktní verze databáze	Kombinace kandidátů jsou uloženy v paměti

LESK

Výše uvedená metoda, Apriori a FP growth, těží časté sady položek pomocí horizontálního datového formátu. ECLAT je metoda těžby častých položek pomocí vertikálního datového formátu. Transformuje data ve vodorovném datovém formátu do vertikálního formátu.

Například,Apriori a FP růst použití:

Transakce	Seznam položek
T1	I1, I2, I3
T2	I2, I3, I4
T3	I4, I5
T4	I1, I2, I4
T5	I1, I2, I3, I5
T6	I1, I2, I3, I4

ECLAT bude mít formát tabulky jako:

Položka	Sada transakcí
I1	{T1, T4, T5, T6}
I2	{T1, T2, T4, T5, T6}
I3	{T1, T2, T5, T6}
I4	{T2, T3, T4, T5}
I5	{T3, T5}

Tato metoda vytvoří ve vertikálním datovém formátu 2-položky, 3 položky, k položky. Tento proces s k se zvyšuje o 1, dokud nebudou nalezeny žádné sady položek kandidáta. Spolu s Apriori se používají některé optimalizační techniky, jako například diffset.

Tato metoda má oproti Apriori výhodu, protože nevyžaduje skenování databáze, aby se našla podpora k + 1 položek. Důvodem je, že sada transakcí bude nést počet výskytů každé položky v transakci (podpora). Úzké místo nastává, když existuje mnoho transakcí, které vyžadují velkou paměť a výpočetní čas pro protnutí sad.

Závěr

Algoritmus Apriori se používá pro dolování asociačních pravidel. Funguje na principu, „musí být časté i neprázdné podmnožiny častých položek“. Vytváří kandidáty k-itemet z (k-1) itemets a skenuje databázi, aby našel časté sady itemů.

jaké jsou dobré anime webové stránky

Frequent Pattern Growth Algorithm je metoda hledání častých vzorů bez generování kandidátů. Konstruuje strom FP spíše než pomocí strategie generování a testování Apriori. Algoritmus FP Growth se zaměřuje na fragmentaci cest položek a těžbu častých vzorů.

Doufáme, že tyto výukové programy v seriálu Data Mining Series obohatily vaše znalosti o dolování dat !!

Výukový program PREV | PRVNÍ výuka

Algoritmus růstu frekvence (FP) při dolování dat

Nedostatky aprioriho algoritmu

Algoritmus růstu častých vzorů

FP strom

Kroky častého algoritmu vzoru

Příklad FP-růstového algoritmu

Výhody algoritmu růstu FP

Nevýhody FP-růstového algoritmu

FP Growth vs Apriori

LESK

Závěr

Doporučené čtení

Zajímavé Články

Redakce Choice

Kde najít Tajemný portál ve Fae Farm

Zde je bližší pohled na některé z Pokémonů, kteří se objevují v DLC Scarlet & Violet

Taito Milestones přináší zítra na Switch 10 (velmi) oldschoolových klasik

Damnview chce, abyste našli „malé radosti“ ve svém utiskujícím světě

Miyamoto při vytváření ztracených úrovní depresi, navrhuje výkonný ředitel Nintendo

Zpráva o portu PC: Sonic & All-Stars Racing Transformed

Recenze: Hearthstone: Blackrock Mountain

Správa testování TestRail pro Jira - komplexní průvodce

Na jakých platformách je Prince of Persia: The Lost Crown?

Sea of Thieves získává novou kosmetiku před první velkou aktualizací obsahu

Trailer Halo sezóny 2 láká ještě více soubojů do konce

Abathor evokuje arkádové hry s mečem a sandálem z dávných dob