what is etl extract
Tento podrobný návod k procesu ETL vysvětluje tok procesu a kroky zapojené do procesu ETL (extrakce, transformace a načítání) v datovém skladu:
Tento výukový program v sérii vysvětluje: Co je proces ETL? Extrakce dat, transformace, načítání, ploché soubory, co je fáze? Cyklus ETL atd.
Začněme!!
=> Podívejte se na průvodce výcvikem Perfektní datové sklady zde.
Co se naučíte:
- ETL (Extract, Transform, Load) Process Fundamentals
- Závěr
ETL (Extract, Transform, Load) Process Fundamentals
Cílová skupina
- Vývojáři a testeři datového skladu / ETL.
- Databázoví profesionálové se základními znalostmi databázových konceptů.
- Správci databází / odborníci na velká data, kteří chtějí porozumět oblastem datového skladu / ETL.
- Absolventi / osvěžovači vysokých škol, kteří hledají práci v datovém skladu
Co je proces ETL v datovém skladu?
Všichni víme, že datový sklad je sbírka obrovských objemů dat, která poskytuje informace podnikovým uživatelům pomocí nástrojů Business Intelligence.
K tomu slouží DW v pravidelných intervalech. Data do systému jsou shromažďována z jednoho nebo více operačních systémů, plochých souborů atd. Proces, který přenáší data do DW, je známý jako ETL proces . Extrakce, transformace a načítání jsou úkoly ETL.
# 1) Extrakce: Všechna preferovaná data z různých zdrojových systémů, jako jsou databáze, aplikace a ploché soubory, jsou identifikována a extrahována. Extrakci dat lze dokončit spuštěním úloh v době mimo pracovní dobu.
# 2) Transformace: Většinu extrahovaných dat nelze přímo načíst do cílového systému. Na základě obchodních pravidel lze provést některé transformace před načtením dat.
Například, data cílového sloupce mohou očekávat, že dva zdrojové sloupce spojí data jako vstup. Podobně může existovat složitá logika pro transformaci dat, která vyžaduje odborné znalosti. Některá data, která nepotřebují žádné transformace, lze přímo přesunout do cílového systému.
Proces transformace také opraví data, odstraní všechna nesprávná data a opraví všechny chyby v datech před jejich načtením.
# 3) Načítání: Všechny shromážděné informace se načtou do cílových tabulek Data Warehouse.
Extrakce dat
Extrakce dat hraje hlavní roli při navrhování úspěšného systému DW. Různé zdrojové systémy mohou mít různé charakteristiky dat a proces ETL bude tyto rozdíly efektivně spravovat při extrakci dat.
' Mapa logických dat „Je základní dokument pro extrakci dat. To ukazuje, která zdrojová data by měla jít do které cílové tabulky a jak jsou zdrojová pole mapována na příslušná pole cílové tabulky v procesu ETL.
Níže jsou kroky, které je třeba provést během návrhu mapy logických dat:
- Architekt datového skladu navrhne dokument mapy logických dat.
- Odkázáním na tento dokument vývojář ETL vytvoří úlohy ETL a testeři ETL vytvoří testovací případy.
- V tomto dokumentu budou zmíněny všechny konkrétní zdroje dat a příslušné datové prvky, které podporují obchodní rozhodnutí. Tyto datové prvky budou během procesu extrakce fungovat jako vstupy.
- Data ze všech zdrojových systémů jsou analyzována a jsou zdokumentovány všechny druhy anomálií dat, což pomáhá při navrhování správných obchodních pravidel k zastavení extrakce nesprávných dat do DW. Tyto údaje jsou zde samy odmítnuty.
- Jakmile konečný zdrojový a cílový datový model navrhnou architekti ETL a obchodní analytici, mohou provést procházku vývojáři ETL a testery. Tímto způsobem získají jasné pochopení toho, jak by se měla obchodní pravidla provádět v každé fázi těžby, transformace a načítání.
- Procházením pravidel mapování z tohoto dokumentu by architekti, vývojáři a testeři ETL měli dobře rozumět tomu, jak z každé tabulky plynou data jako dimenze, fakta a jakékoli další tabulky.
- Je zde také uveden jakýkoli druh pravidel nebo vzorců pro manipulaci s daty, aby se zabránilo extrakci nesprávných dat. Například, extrahovat pouze posledních 40 dní dat atd.
- Je odpovědností týmu ETL podrobně analyzovat data podle obchodních požadavků a vynést všechna užitečná zdrojová data, tabulky a sloupce, které se mají načíst do DW.
Dokument mapy logických dat je obecně tabulka, která zobrazuje následující komponenty:
(tabulka „“ nebyla nalezena /)Vývojový diagram extrakce:
Stav o časovém okně pro spuštění úloh pro každý zdrojový systém předem, aby během extrakčního cyklu nezmeškala žádná zdrojová data.
Pomocí výše uvedených kroků extrakce dosahuje cíle převodu dat z různých formátů z různých zdrojů do jediného formátu DW, což přináší výhody celému procesu ETL. Takto logicky umístěná data jsou užitečnější pro lepší analýzu.
Metody extrakce v datovém skladu
V závislosti na zdrojovém a cílovém datovém prostředí a obchodních potřebách můžete vybrat metodu extrakce vhodnou pro váš DW.
# 1) Logické metody extrakce
Extrakce dat v systému datového skladu může být jednorázové úplné načtení, které se provede na počátku (nebo), může to být přírůstkové načtení, ke kterému dochází pokaždé s neustálými aktualizacemi.
jak psát testovací případy pro webovou aplikaci
- Plná extrakce: Jak název sám napovídá, data zdrojového systému jsou zcela extrahována do cílové tabulky. Pokaždé, když tento druh extrakce načte všechna aktuální data zdrojového systému bez ohledu na poslední extrahovaná časová razítka. Přednostně můžete použít úplnou extrakci pro počáteční načtení nebo tabulky s menším počtem dat.
- Přírůstková extrakce: Data, která jsou přidána / upravena od určitého data, budou považována za přírůstkovou extrakci. Toto datum je specifické pro podnikání jako datum posledního extrahování (nebo) datum poslední objednávky atd. Můžeme odkazovat na sloupec časového razítka ze samotné zdrojové tabulky (nebo) lze vytvořit samostatnou tabulku pro sledování pouze podrobností data extrakce. Odkaz na časové razítko je významnou metodou během přírůstkové extrakce. Logika bez časového razítka může selhat, pokud má tabulka DW velká data.
# 2) Metody fyzické extrakce
V závislosti na schopnostech zdrojových systémů a omezeních dat mohou zdrojové systémy poskytnout data fyzicky pro extrakci jako online extrakce a offline extrakce. To podporuje jakýkoli z typů logické extrakce.
- Online extrakce :: Můžeme se přímo připojit k libovolným databázím zdrojového systému pomocí připojovacích řetězců a extrahovat data přímo z tabulek zdrojového systému.
- Offline extrakce :: Nebudeme se zde přímo připojovat k databázi zdrojového systému, místo toho zdrojový systém poskytuje data explicitně v předem definované struktuře. Zdrojové systémy mohou poskytovat data ve formě plochých souborů, výpisových souborů, archivů a tabulkových prostorů.
Nástroje ETL jsou nejvhodnější pro provádění jakýchkoli složitých extrakcí dat, kolikrát jsou pro DW, i když jsou drahé.
Extrahování změněných dat
Jakmile je počáteční načítání dokončeno, je důležité zvážit, jak extrahovat data, která se změnila ze zdrojového systému dále. Tým procesu ETL by měl na začátku samotného projektu navrhnout plán, jak implementovat extrakci počátečních zátěží a přírůstkových zátěží.
Většinou můžete zvážit strategii „Auditové sloupce“ pro přírůstkové zatížení k zachycení změn dat. Obecně mohou zdrojové systémové tabulky obsahovat kontrolní sloupce, které ukládají časové razítko pro každou úpravu vložení (nebo).
Časové razítko se může naplnit spouštěči databáze (nebo) ze samotné aplikace. Musíte zajistit přesnost dat auditovacích sloupců, i když se jakýmkoli způsobem načítají, abyste nezmeškali změněná data pro přírůstková zatížení.
Během přírůstkového načtení můžete vzít v úvahu maximální datum a čas, kdy došlo k poslednímu načtení, a extrahovat všechna data ze zdrojového systému s časovým razítkem větším než poslední časové razítko.
Při získávání dat:
- Optimálně použijte dotazy k načtení pouze dat, která potřebujete.
- Nepoužívejte příliš odlišnou klauzuli, protože to zpomaluje výkon dotazů.
- Pečlivě používejte operátory SET, jako je Union, Minus, Intersect, protože to zhoršuje výkon.
- V klauzuli where používejte spíše klíčová slova jako like, between atd. Místo funkcí jako substr (), to_char () atd.
Transformace dat
Transformace je proces, při kterém se na extrahovaná data aplikuje sada pravidel před přímým načtením dat zdrojového systému do cílového systému. Extrahovaná data se považují za nezpracovaná data.
Proces transformace se sadou standardů přináší všechna nepodobná data z různých zdrojových systémů do použitelných dat v systému DW. Cílem transformace dat je kvalita dat. Pro všechna pravidla logické transformace můžete odkazovat na dokument mapování dat.
Na základě pravidel transformace, pokud některá zdrojová data nesplňují pokyny, jsou taková zdrojová data před načtením do cílového systému DW odmítnuta a umístěna do souboru odmítnutí nebo tabulky odmítnutí.
Pravidla transformace nejsou specifikována pro data sloupců přímého načtení (nepotřebuje žádnou změnu) ze zdroje na cíl. Proto lze transformace dat klasifikovat jako jednoduché a složité. Transformace dat mohou zahrnovat převody sloupců, přeformátování datové struktury atd.
Níže jsou uvedeny některé úkoly, které je třeba provést během transformace dat:
# 1) Výběr: Ze zdrojových systémů můžete vybrat buď celá data tabulky, nebo konkrétní sadu dat sloupců. Výběr dat je obvykle dokončen při samotné extrakci.
Mohou nastat případy, kdy zdrojový systém neumožňuje vybrat konkrétní sadu dat sloupců během fáze extrakce, poté extrahovat celá data a provést výběr ve fázi transformace.
# 2) Rozdělení / připojení: S vybranými daty můžete manipulovat jejich rozdělením nebo spojením. Během transformace budete požádáni, abyste vybraná zdrojová data ještě více rozdělili.
Například, pokud je celá adresa uložena v jediném velkém textovém poli ve zdrojovém systému, může systém DW požádat o rozdělení adresy do samostatných polí jako město, stát, PSČ atd. To je snadné pro indexování a analýzu na základě každého komponenta jednotlivě.
Zatímco spojování / slučování dvou nebo více sloupců je během transformační fáze v systému DW široce používáno. To neznamená sloučení dvou polí do jednoho pole.
Například, pokud informace o konkrétní entitě pocházejí z více zdrojů dat, lze shromáždění informací jako jednu entitu nazvat jako spojení / sloučení dat.
# 3) Konverze: Data extrahovaných zdrojových systémů mohou být pro každý datový typ v různých formátech, a proto by měla být během fáze transformace všechna extrahovaná data převedena do standardizovaného formátu. Stejný druh formátu je snadno srozumitelný a snadno použitelný pro obchodní rozhodnutí.
# 4) Shrnutí: V některých situacích bude DW hledat spíše souhrnná data než podrobná data nízké úrovně ze zdrojových systémů. Protože data na nízké úrovni nejsou nejvhodnější pro analýzu a dotazování podnikovými uživateli.
Například, údaje o prodeji pro každou pokladnu nemusí systém DW vyžadovat, denní prodej vedlejšího produktu (nebo) denní prodej v obchodě je užitečný. Shrnutí údajů lze tedy provést během fáze transformace podle obchodních požadavků.
# 5) Obohacení: Když je sloupec DW vytvořen kombinací jednoho nebo více sloupců z více záznamů, pak obohacení dat znovu uspořádá pole pro lepší zobrazení dat v systému DW.
# 6) Revize formátu: K revizím formátu dochází nejčastěji během fáze transformace. Datový typ a jeho délka jsou revidovány pro každý sloupec.
Například, sloupec v jednom zdrojovém systému může být číselný a stejný sloupec v jiném zdrojovém systému může být text. Abychom to standardizovali, během fáze transformace se datový typ pro tento sloupec změní na text.
# 7) Dekódování polí: Když extrahujete data z více zdrojových systémů, mohou být data v různých systémech dekódována odlišně.
Například, jeden zdrojový systém může představovat stav zákazníka jako AC, IN a SU. Jiný systém může představovat stejný stav jako 1, 0 a -1.
Během fáze transformace dat musíte tyto kódy dekódovat na správné hodnoty, které jsou srozumitelné podnikovým uživatelům. Výše uvedené kódy lze proto změnit na Aktivní, Neaktivní a Pozastavené.
# 8) Vypočítané a odvozené hodnoty: Když vezmeme v úvahu data zdrojového systému, může DW ukládat další data sloupců pro výpočty. Před uložením do DW musíte provést výpočty založené na obchodní logice.
# 9) Převod data / času: Toto je jeden z klíčových typů dat, na které se můžete soustředit. Ve více zdrojových systémech se může formát data a času lišit.
Například, jeden zdroj může uložit datum jako 10. listopadu 1997. Jiný zdroj může uložit stejné datum ve formátu 11/10/1997. Během transformace dat by proto měly být všechny hodnoty data a času převedeny do standardního formátu.
# 10) De-duplikace: V případě, že zdrojový systém obsahuje duplicitní záznamy, zajistěte, aby byl do systému DW načten pouze jeden záznam.
Vývojový diagram transformace:
Jak implementovat transformaci?
V závislosti na složitosti transformací dat můžete použít manuální metody, transformační nástroje (nebo) kombinace obou, podle toho, co je efektivní.
# 1) Ruční techniky
Ruční techniky jsou vhodné pro malé systémy DW. Analytici a vývojáři dat vytvoří programy a skripty pro ruční transformaci dat. Tato metoda vyžaduje podrobné testování pro každou část kódu.
Náklady na údržbu mohou být vysoké kvůli změnám, ke kterým dochází v obchodních pravidlech (nebo) kvůli šancím na získání chyb s nárůstem objemů dat. Měli byste se postarat o metadata zpočátku a také s každou změnou, která nastane v pravidlech transformace.
# 2) Transformační nástroje
Pokud chcete automatizovat většinu transformačního procesu, můžete převzít transformační nástroje v závislosti na rozpočtu a časovém rámci dostupném pro projekt. Při automatizaci byste měli věnovat kvalitní čas výběru nástrojů, jejich konfiguraci, instalaci a integraci se systémem DW.
Prakticky úplná transformace pomocí nástrojů samotných není možná bez manuálního zásahu. Ale data transformovaná nástroji jsou určitě efektivní a přesná.
Abychom toho dosáhli, měli bychom do transformačního nástroje jako vstup zadat správné parametry, definice dat a pravidla. Ze zadaných vstupů nástroj sám zaznamená metadata a tato metadata se přidají k celkovým metadatům DW.
Pokud dojde k nějakým změnám v obchodních pravidlech, pak stačí tyto změny do nástroje zadat, o zbytek transformačních úprav se postará samotný nástroj. Proto je efektivní použít kombinaci obou metod.
Načítání dat
Extrahovaná a transformovaná data se načtou do cílových DW tabulek během fáze načítání procesu ETL. O tom, jak by měl proces načítání probíhat u každé tabulky, rozhoduje obchod.
K procesu načítání může dojít následujícími způsoby:
- Počáteční zatížení: Načítání dat k prvnímu naplnění příslušných tabulek DW.
- Přírůstkové zatížení: Jakmile se načtou tabulky DW, zbytek probíhajících změn se použije pravidelně.
- Úplné obnovení: Pokud některé tabulky, které se používají, potřebují aktualizaci, pak jsou aktuální data z této tabulky zcela odebrána a poté znovu načtena. Opětovné načtení je podobné počátečnímu načtení.
Podívejte se na níže uvedený příklad, abyste lépe porozuměli procesu načítání v ETL:
ID produktu | jméno výrobku | Datum prodeje |
---|---|---|
1 | Učebnice gramatiky | 3. června 2007 |
dva | Popisovač | 3. června 2007 |
3 | Zadní taška | 4. června 2007 |
4 | Víčko | 4. června 2007 |
5 | Obuv | 5. června 2007 |
# 1) Během počátečního načtení jsou data, která se prodávají na 3rdČerven 2007 se načte do cílové tabulky DW, protože se jedná o počáteční data z výše uvedené tabulky.
#dva) Během přírůstkového načítání musíme načíst data, která se prodávají po 3rdČerven 2007. Měli bychom považovat všechny záznamy s prodaným datem za větší než (>) předchozí datum následujícího dne. Proto dne 4.thČerven 2007, načtěte všechny záznamy s datem prodeje> 3rdČervna 2007 pomocí dotazů a načíst pouze tyto dva záznamy z výše uvedené tabulky.
5. dnethČerven 2007, načtěte všechny záznamy s datem prodeje> 4thČervna 2007 a načíst pouze jeden záznam z výše uvedené tabulky.
# 3) Během úplného obnovení se všechna výše uvedená data tabulky načtou do DW tabulek najednou bez ohledu na datum prodeje.
Načtená data jsou uložena v příslušných tabulkách dimenzí (nebo) faktů. Data lze načíst, připojit nebo sloučit do tabulek DW následujícím způsobem:
# 4) Načíst: Data jsou načtena do cílové tabulky, pokud je prázdná. Pokud tabulka obsahuje nějaká data, budou stávající data odstraněna a poté načtena s novými daty.
Například,
Existující data tabulky
jméno zaměstnance | Role |
---|---|
John | Manažer |
Revanth | Vést |
Bob | Asistent manažera |
Ronald | Vývojář |
Změněné údaje
jméno zaměstnance | Role |
---|---|
John | Manažer |
Rohan | ředitel |
Chetan | AVP |
The | VP |
Data po načtení
jméno zaměstnance | Role |
---|---|
John | Manažer |
Rohan | ředitel |
Chetan | AVP |
The | VP |
# 5) Přidat: Append je rozšíření výše uvedeného zatížení, protože funguje na již existujících tabulkách. V cílových tabulkách přidá Append více dat k existujícím datům. Pokud je nalezen duplicitní záznam se vstupními údaji, může být připojen jako duplikát (nebo) a může být odmítnut.
Například,
Existující data tabulky
jméno zaměstnance | Role |
---|---|
John | Manažer |
Revanth | Vést |
Změněné údaje
jméno zaměstnance | Role |
---|---|
John | Manažer |
Rohan | ředitel |
Chetan | AVP |
The | VP |
Data po připojení
jméno zaměstnance | Role |
---|---|
John | Manažer |
Revanth | Vést |
Rohan | ředitel |
Chetan | AVP |
The | VP |
# 6) Destruktivní sloučení: Zde se příchozí data porovnávají s existujícími cílovými daty na základě primárního klíče. Pokud existuje shoda, aktualizuje se stávající cílový záznam. Pokud není nalezena žádná shoda, pak se do cílové tabulky vloží nový záznam.
Například,
Existující data tabulky
jméno zaměstnance | Role |
---|---|
John | Manažer |
Revanth | Vést |
Změněné údaje
jméno zaměstnance | Role |
---|---|
John | Manažer |
Revanth | ředitel |
Chetan | AVP |
The | VP |
Data po konstruktivním sloučení
jméno zaměstnance | Role |
---|---|
John | Manažer |
Revanth | ředitel |
Chetan | AVP |
The | VP |
# 7) Konstruktivní jde: Na rozdíl od destruktivního sloučení, pokud existuje shoda s existujícím záznamem, ponechá stávající záznam tak, jak je, a vloží příchozí záznam a označí jej jako nejnovější data (časové razítko) s ohledem na tento primární klíč.
Například,
Existující data tabulky
jméno zaměstnance | Role |
---|---|
John | Manažer |
Revanth | Vést |
Změněné údaje
jméno zaměstnance | Role |
---|---|
John | Manažer |
Revanth | ředitel |
Chetan | AVP |
The | VP |
Data po konstruktivním sloučení
jméno zaměstnance | Role |
---|---|
John | Manažer |
Revanth | Ředitel*** |
Revanth | Vést |
Chetan | AVP |
The | VP |
Technicky je obnovení jednodušší než aktualizace dat. Aktualizace vyžaduje speciální strategii, aby bylo možné extrahovat pouze konkrétní změny a použít je v systému DW, zatímco aktualizace pouze nahradí data. Obnovení dat ale trvá déle, v závislosti na objemu dat.
Pokud máte takové úlohy obnovy, které se mají spouštět každý den, možná budete muset spustit systém DW a načíst data. Místo toho, abyste snížili celý systém DW a zakaždým načítali data, můžete data rozdělit a načíst ve formě několika souborů.
Během testování si poznamenejte dobu chodu pro každé načtení. Pokud se nějaká data nemohou načíst do systému DW kvůli jakýmkoli nesouladům klíčů atd., Pak jim dejte způsoby, jak s takovými daty zacházet. Zajistěte důkladné otestování načtených dat.
Načítání vývojového diagramu:
Ploché pilníky
Ploché soubory se široce používají k výměně dat mezi heterogenními systémy, z různých zdrojových operačních systémů a z různých zdrojových databázových systémů do aplikací datového skladu. Ploché soubory jsou nejúčinnější a snadno spravovatelné i pro homogenní systémy.
Ploché soubory se primárně používají pro následující účely:
# 1) Dodání zdrojových dat: Může existovat několik zdrojových systémů, které z bezpečnostních důvodů neumožní uživatelům DW přístup do jejich databází. V takových případech jsou data doručována prostřednictvím plochých souborů.
Podobně jsou data získávána od externích dodavatelů nebo systémů sálových počítačů v zásadě ve formě plochých souborů, které budou FTP'd uživateli ETL.
# 2) Pracovní / pracovní tabulky: Proces ETL vytváří pracovní tabulky pro své interní účely. Asociace pracovních tabulek s plochými soubory je mnohem snazší než DBMS, protože čtení a zápis do systému souborů jsou rychlejší než vkládání a dotazování databáze.
# 3) Příprava na hromadné naložení: Po dokončení procesů extrakce a transformace, pokud hromadné načtení in-stream není nástrojem ETL podporováno (nebo) Pokud chcete data archivovat, můžete vytvořit plochý soubor. Tato data plochého souboru načte procesor a načte data do systému DW.
Ploché soubory lze vytvořit dvěma způsoby jako „ploché soubory s pevnou délkou“ a „ploché soubory s oddělovači“. Ploché soubory mohou vytvářet programátoři, kteří pracují pro zdrojový systém.
Podívejme se, jak zpracováváme tyto ploché soubory:
Zpracování plochých souborů s pevnou délkou
Obecně platí, že ploché soubory mají sloupce s pevnou délkou, a proto se také nazývají poziční ploché soubory. Níže je rozložení plochého souboru, který zobrazuje přesná pole a jejich pozice v souboru.
Název pole | Délka | Start | Konec | Typ | Komentáře |
---|---|---|---|---|---|
Jméno | 10 | 1 | 10 | Text | Křestní jméno zákazníka |
Prostřední jméno | 5 | jedenáct | patnáct | Text | Prostřední jméno zákazníka |
Příjmení | 10 | 16 | 25 | Text | Příjmení zákazníka |
Rozložení obsahuje název pole, délka, počáteční pozice na kterém začíná znak pole, koncová pozice, na které znak pole končí, datový typ jako text, numerický atd. a komentáře, pokud existují.
V závislosti na pozicích dat testovací tým ETL ověří přesnost dat v plochém souboru pevné délky.
Zpracování plochých souborů s oddělovači
V souborech s oddělenými plochami je každé datové pole odděleno oddělovači. Tento oddělovač označuje počáteční a koncovou pozici každého pole. Obecně se čárka používá jako oddělovač, ale můžete použít jakýkoli jiný symbol nebo sadu symbolů.
Soubory s oddělovači mohou mít příponu .CSV (nebo) .TXT (nebo) bez přípony. Vývojáři, kteří vytvářejí soubory ETL, označí symbol skutečného oddělovače pro zpracování tohoto souboru. V rozloženém souboru může první řádek představovat názvy sloupců.
Stejně jako poziční ploché soubory, tým testování ETL výslovně ověří přesnost dat plochého souboru s oddělovači.
Účel pracovní oblasti
Hlavním účelem pracovní oblasti je dočasné uložení dat pro proces ETL. Pracovní oblast se označuje jako zákulisí systému DW. Architekt ETL rozhoduje, zda ukládat data do pracovní oblasti nebo ne.
Staging pomůže získat data ze zdrojových systémů velmi rychle. Zároveň v případě, že systém DW selže, nemusíte proces znovu spouštět shromažďováním dat ze zdrojových systémů, pokud pracovní data již existují.
Po procesu extrakce dat jsou zde důvody pro fázování dat v systému DW:
# 1) Obnovitelnost: Vyplněné pracovní tabulky budou uloženy v samotné databázi DW (nebo), mohou být přesunuty do souborových systémů a mohou být uloženy samostatně. V určitém okamžiku mohou pracovní data fungovat jako data pro obnovení, pokud některý krok transformace nebo načtení selže.
Může existovat šance, že zdrojový systém přepsal data použitá pro ETL, takže udržování extrahovaných dat ve stagingu nám pomáhá při jakémkoli odkazu.
# 2) Záloha: Je těžké získat zpět obrovské objemy databázových tabulek DW. Ale zálohy jsou nutností pro jakékoli zotavení po katastrofě. Proto pokud máte pracovní data, která jsou extrahovaná data, můžete spustit úlohy pro transformaci a načíst, čímž lze havarovaná data znovu načíst.
Chcete-li zálohovat pracovní data, můžete pracovní data často přesunout do souborových systémů, takže je snadné je komprimovat a uložit do vaší sítě. Kdykoli je to nutné, jednoduše dekomprimujte soubory, načtěte je do pracovních tabulek a spusťte úlohy a znovu načtěte tabulky DW.
# 3) Auditování: Někdy se v systému ETL může provést audit, aby se zkontrolovalo datové propojení mezi zdrojovým systémem a cílovým systémem. Auditoři mohou ověřit původní vstupní data podle výstupních dat na základě pravidel transformace.
Pracovní data a jejich zálohování jsou zde velmi užitečné, i když zdrojový systém má data k dispozici nebo ne. Protože k auditu může dojít kdykoli a v jakémkoli období současných (nebo) minulých údajů. Architektura pracovní oblasti by měla být dobře naplánována.
Navrhování pracovní oblasti
V datovém skladu lze data pracovní oblasti navrhnout takto:
S každým novým načtením dat do pracovních tabulek lze stávající data odstranit (nebo) udržovat jako historická data pro referenci. Pokud jsou data odstraněna, nazývá se to „Přechodná pracovní oblast“.
Pokud jsou data udržována jako historie, pak se jim říká „Trvalá pracovní oblast“. Můžete také navrhnout pracovní plochu kombinací výše uvedených dvou typů, která je „hybridní“.
Při navrhování pracovní oblasti je třeba znát základní pravidla:
- Pouze tým ETL by měl mít přístup k pracovní oblasti dat. Dotaz na pracovní data je omezen na ostatní uživatele.
- Tabulky v pracovní oblasti mohou být přidány, upraveny nebo zrušeny datovým architektem ETL bez zapojení dalších uživatelů. Jelikož pracovní oblast není prezentační oblastí pro generování zpráv, funguje pouze jako pracovní stůl.
- Architekt ETL by měl odhadnout míru ukládání dat pracovní oblasti, aby poskytl podrobnosti správcům DBA a OS. Správci přidělí prostor pro pracovní databáze, souborové systémy, adresáře atd.
nejlepší místo pro sledování dabovaných anime zdarma
Pokud pracovní oblast a databáze DW používají stejný server, můžete data snadno přesunout do systému DW. Pokud jsou servery odlišné, použijte odkazy na databázi FTP (nebo).
Tok procesu ETL
Standardní cyklus ETL projde níže uvedenými kroky procesu:
- Kick off the ETL cycle to run jobs in sequence.
- Ujistěte se, že jsou všechna metadata připravena.
- Cyklus ETL pomáhá extrahovat data z různých zdrojů.
- Ověřte extrahovaná data.
- Pokud se používají pracovní tabulky, cyklus ETL načte data do pracovní.
- ETL provádí transformace pomocí obchodních pravidel, vytvářením agregátů atd
- Pokud dojde k nějakému selhání, pak to cyklus ETL přivede k upozornění ve formě zpráv.
- Poté cyklus ETL načte data do cílových tabulek.
- Starší data, která je třeba uložit pro historické použití, jsou archivována.
- Zbývající data, která nemusí být uložena, jsou vyčištěna.
Vývojový diagram procesu ETL:
Závěr
V tomto kurzu jsme se dozvěděli o hlavních konceptech procesu ETL v Data Warehouse. Nyní byste měli být schopni pochopit, co je extrakce dat, transformace dat, načítání dat a tok procesu ETL.
Přečtěte si nadcházející výukový program a dozvíte se více o testování Data Warehouse !!
=> Navštivte zde exkluzivní řadu datových skladů.
Doporučené čtení
- Výukový program pro testování datových skladů s příklady | Průvodce testováním ETL
- 10 nejlepších nástrojů pro mapování dat užitečných v procesu ETL (SEZNAM 2021)
- Výukový program pro testování datového skladu ETL (kompletní průvodce)
- Těžba dat: Proces, techniky a hlavní problémy v analýze dat
- Proces dolování dat: Zapojené modely, procesní kroky a výzvy
- ETL Testing Interview Otázky a odpovědi
- Top 10 ETL Testing Tools in 2021
- Top 10 populárních nástrojů datového skladu a testovacích technologií