metadata data warehouse explained with examples
Tento výukový program vysvětluje roli metadat v ETL, příklady a typy metadat, úložiště metadat a výzvy ve správě metadat:
Data Mart v ETL bylo podrobně vysvětleno v našem předchozím tutoriálu.
Koncept metadat je v ETL velmi důležitý a tento tutoriál vysvětlí vše o metadatech.
Pokrývá roli metadat, příklady metadat a také jejich typy, úložiště metadat, způsob správy metadat datového skladu, výzvy pro správu metadat.
Také se dozvíte, co je metadata řízený ETL a rozdíl mezi daty a metadaty.
=> Přečtěte si zde sérii školení pro bezplatný datový sklad.
Cílová skupina
- Vývojáři a testeři datového skladu / ETL.
- Databázoví profesionálové se základní znalostí databázových konceptů.
- Správci databází / odborníci na velká data, kteří chtějí porozumět oblastem datového skladu / ETL.
- Absolventi / osvojitelé vysokých škol, kteří hledají práci v datovém skladu.
Co se naučíte:
java vs c ++ což je lepší
Metadata v ETL
Uživatelé týmu datového skladu (nebo) mohou používat metadata v různých situacích k vybudování, údržbě a správě systému. Základní definice metadat v datovém skladu je, „Jsou to data o datech“ .
Metadata mohou obsahovat všechny druhy informací o datech DW, jako například:
- Zdroj pro všechna extrahovaná data.
- Použití těchto dat DW.
- Jakýkoli druh dat a jejich hodnoty.
- Vlastnosti dat.
- Logika transformace pro extrahovaná data.
- DW tabulky a jejich atributy.
- DW objekty
- Časová razítka
Metadata fungují jako obsah dat v systému DW, který ukazuje techniku s dalšími podrobnostmi o těchto datech. Jednoduše řečeno, můžete si v jakékoli knize představit rejstřík, který funguje jako metadata za obsah této knihy.
Podobně Metadata fungují jako index obsahu DW. Všechna taková metadata jsou uložena v úložišti. Procházením metadat se koncoví uživatelé dozvědí, odkud mohou začít analyzovat systém DW. Jinak je pro koncové uživatele těžké vědět, odkud mají zahájit analýzu dat v tak obrovském systému DW.
Role metadat v datovém skladu
V dřívějších dobách byla metadata vytvářena a udržována jako dokumenty. V dnešním digitálním světě však různé nástroje tuto práci usnadnily zaznamenáváním metadat na každé úrovni procesu DW.
Metadata vytvořená jedním nástrojem mohou být standardizována (tj. Data mohou být přenesena do jednoho jedinečného formátu) a mohou být znovu použita v ostatních nástrojích kdekoli v systému DW.
Jelikož víme, že operační systémy udržují aktuální data, systémy DW udržují historická a aktuální data.
Metadata musí sledovat všechny změny, ke kterým dochází ve zdrojových systémech, metodách extrakce / transformace dat a ve struktuře (nebo) obsahu dat, které v tomto procesu nastanou. Metadata budou udržovat různé verze, aby sledovaly všechny tyto změny po několik let.
Dostatečná metadata poskytnutá v úložišti pomohou každému uživateli při efektivnější a nezávislé analýze systému. Pochopením metadat můžete pro dosažení nejlepších výsledků spustit jakýkoli druh dotazů na data DW.
Obrázkové znázornění role metadat:
Jednoduché příklady metadat
Níže jsou uvedeny některé příklady metadat.
- Metadata pro webovou stránku mohou obsahovat jazyk, ve kterém je kódována, nástroje použité k jejímu vytvoření, podpůrné prohlížeče atd.
- Metadata pro digitální obrázek mohou obsahovat velikost obrázku, rozlišení, intenzitu barev, datum vytvoření obrázku atd.
- Metadata dokumentu mohou obsahovat datum vytvoření dokumentu, datum poslední změny, jeho velikost, autora, popis atd.
Porovnání mezi daty a metadaty
S.No | Data | Metadata |
---|---|---|
1 | Data jsou soubor informací. | Metadata jsou informace o datech. |
dva | Údaje mohou (nebo) nemusí být zpracovány. | Metadata jsou vždy zpracovaná data. |
Druhy metadat
Klasifikace metadat do různých typů nám pomůže lépe je pochopit. Tato klasifikace může být založena na jejím použití (nebo) uživateli atd.
Prozkoumejme níže různé typy metadat:
# 1) Metadata zákulisí: Usměrňuje správce databází (nebo) koncové uživatele na procesy extrakce, čištění a načítání.
# 2) Metadata přední místnosti: Nasměruje koncové uživatele na práci s nástroji a sestavami BI.
# 3) Zpracovat metadata: To ukládá metadata procesu ETL, jako je počet načtených, odmítnutých, zpracovaných řádků a čas potřebný k načtení do systému DW atd. Tyto informace mohou být také přístupné koncovým uživatelům.
Statistika fázovacích tabulek je zároveň důležitá i pro tým ETL. Tato metadata budou ukládat procesní data pracovní tabulky, jako je počet načtených, odmítnutých, zpracovaných řádků a čas potřebný k načtení do každé pracovní tabulky.
# 4) Datová linie: Tím se uloží logická transformace pro každý prvek zdrojového systému na cílový prvek DW.
# 5) Obchodní definice: Kontext pro tabulky DW byl odvozen z obchodních definic. Každý atribut v tabulce je spojen s obchodní definicí. Proto by měly být uloženy jako metadata (nebo) jakýkoli jiný dokument pro budoucí použití. Na těchto obchodních definicích závisí jak koncoví uživatelé, tak tým ETL.
co je to propojený seznam c ++
# 6) Technické definice: Technické definice se používají výlučně v oblasti fázování dat více než obchodní definice. Hlavním účelem je snížit nejednoznačnost při vytváření fázovacích tabulek a znovu použít všechny existující tabulky. Technické definice budou ukládat podrobnosti o každé pracovní tabulce, jako je její umístění a struktura.
Každá pracovní tabulka je zde technicky zdokumentována, pokud není dokumentována, znamená to, že pracovní tabulka neexistuje. Tím se zabrání opakování stejné pracovní tabulky.
# 7) Obchodní metadata: Data budou uložena v obchodních podmínkách ve prospěch koncových uživatelů / analytiků / manažerů / jakýchkoli uživatelů. Obchodní metadata jsou proxy pro data zdrojového systému, tj. Nebudou s nimi prováděny žádné manipulace s daty. Lze jej odvodit z jakýchkoli obchodních dokumentů a obchodních pravidel.
# 8) Technická metadata: Tím se uloží technická data, jako jsou atributy tabulek, jejich datové typy, velikost, atributy primárního klíče, atributy cizího klíče a jakékoli indexy. To je ve srovnání s obchodními metadaty strukturovanější.
Technická metadata jsou určena hlavně týmům DW, jako jsou vývojáři / testeři / analytici / DBA, aby systém vybudovali (nebo) udržovali. Toto také významně využívají správci k monitorování zatížení databáze a záloh dat atd.
# 9) Provozní metadata: Jak víme, data do systému DW pocházejí z mnoha operačních systémů s různými datovými typy a poli. DW extrakty transformují taková data na jedinečný typ a všechna tato data načtou do systému.
Zároveň musí být schopen propojit zpět data se svými zdrojovými systémovými daty. Metadata, která ukládají všechny tyto informace o provozních zdrojích dat, se označují jako provozní metadata.
# 10) Informace o zdrojovém systému:
Následující metadata můžete sbírat z různých zdrojových systémů:
- Souborový systém databáze (nebo): Tím se uloží názvy souborů (nebo) databází zdrojového systému.
- Specifikace tabulky: Tím se uloží všechny podrobnosti o tabulkách, jako je název tabulky, její účel, velikost, atributy, primární klíče a cizí klíče.
- Pravidla zpracování výjimek: Tím se uloží různé metody obnovení systému v případě selhání systému.
- Obchodní definice: Tím se uloží obchodní definice pro stručné pochopení dat.
- Obchodní pravidla: To uloží sadu pravidel pro každou tabulku, aby pochopila její data a vyhnula se nekonzistenci.
Metadata zdrojového systému šetří týmu DW spoustu času při analýze dat.
# 11) ETL metadata úlohy: Metadata úloh ETL jsou velmi důležitá, protože ukládají podrobnosti všech úloh, které mají být zpracovány v plánu, aby se načetl systém ETL.
Tato metadata ukládají následující informace:
jaký je nejlepší software pro vzdálený přístup
- Název povolání: Název úlohy ETL.
- Účel práce: Účel spuštění úlohy.
- Zdrojové tabulky / soubory: Poskytuje názvy a umístění všech tabulek a souborů, ze kterých jsou data získávána touto úlohou ETL. To může mít více než jeden název souboru tabulky (nebo).
- Cílové tabulky / soubory: Poskytuje názvy a umístění všech tabulek a souborů, na které se tato úloha ETL transformuje. To může mít více než jeden název souboru tabulky (nebo).
- Odmítnutá data: Poskytuje názvy a umístění všech tabulek a souborů, ze kterých nebyla do cíle načtena zamýšlená zdrojová data.
- Předběžné procesy: Poskytuje názvy skriptů úloh (nebo), na kterých je aktuální úloha závislá. To znamená, že ty musí být úspěšně provedeny před spuštěním aktuální úlohy.
- Post procesy: Poskytuje názvy skriptů úloh (nebo), které by měly být spuštěny bezprostředně po aktuální úloze k dokončení procesu.
- Frekvence: Poskytuje informace o tom, jak často by měla být úloha prováděna, tj. Denně, týdně (nebo) měsíčně.
# 12) Metadata transformace: Metadata transformace ukládají všechny konstrukční informace související s procesem ETL. Každá jednotlivá manipulace s daty v procesu ETL je známá jako transformace dat.
Jakoukoli sadu funkcí, uložené procedury, kurzory, proměnné a smyčky v procesu ETL lze považovat za transformace. Ale takové transformace nelze dokumentovat samostatně jako metadata.
Celý proces ETL je sestaven s datovými transformacemi. Několik transformací v ETL lze předdefinovat a použít v celém systému DW. Vývojáři ETL tráví čas budováním (nebo) přepracováním všech transformací dat. Opětovné použití předdefinovaných transformací během vývoje procesu ETL urychlí práci.
Přečtěte si níže uvedené transformace dat, které najdete v ETL:
- Extrakce zdrojových dat: To zahrnuje transformace dat ke čtení ze zdrojových systémových dat, jako je například dotaz SQL Select (nebo) FTP (nebo) čtení dat XML / sálového počítače.
- Náhradní generátory klíčů: Nové pořadové číslo, které by mělo být vygenerováno pro každý řádek databázové tabulky, je uloženo jako metadata.
- Vyhledávání: Vyhledávání lze vytvořit pomocí všech příkazů IN, vnitřních spojení a vnějších spojení. Používají se hlavně k zadržení náhradních klíčů ze všech příslušných dimenzionálních tabulek při načítání faktu.
- Filtry: Filtry se doporučují k seřazení dat, která by měla být extrahována, načtena a odmítnuta v procesu ETL. Dobrá praxe je filtrování dat v raných fázích systému ETL. Filtry se používají v závislosti na omezeních obchodních pravidel (nebo).
- Agregáty: V závislosti na úrovni podrobnosti dat lze použít metadata související s agregačními funkcemi, jako je součet, počet, průměr atd.
- Aktualizovat strategie: Toto jsou pravidla použitá pro záznam při aktualizaci dat. Pokud dojde ke změně stávajících dat, bude to indikovat, zda má být záznam přidán, odstraněn (nebo) aktualizován.
- Target Loader: Cílový zavaděč uloží podrobnosti o databázi, názvy tabulek a názvy sloupců, do kterých by měla být data načtena prostřednictvím procesu ETL. Kromě toho se také uloží podrobnosti o nástroji pro hromadné načtení, pokud existuje, který se provádí při načítání dat do systému ETL.
Každá transformace může být pojmenována odlišně s krátkou poznámkou o jejím účelu.
Některé příklady konvencí pojmenování jsou zde uvedeny pro výše uvedený seznam transformací.
SRC_ SEQ_ LKP_ FIL_ AGG_ UPD__ TRG_
Repozitář metadat v ETL
Úložiště metadat je místo, kde je jakýkoli typ metadat uložen buď v místní databázi (nebo) ve virtuální databázi. Každý typ metadat, jako jsou obchodní metadata (nebo) technická metadata, lze logicky oddělit v úložišti.
Kromě výše uvedených dvou typů má úložiště také jednu další komponentu nazvanou Informační navigátor.
Informační navigátor lze použít k provedení následujících úkolů:
- Rozhraní z Dotazovacího nástroje: To poskytuje rozhraní k dotazovacím nástrojům pro přístup k metadatům DW.
- Další podrobnosti: To umožňuje uživateli rozbalit metadata pro získání podrobnějších informací. Jako příklad může uživatel na první úrovni získat definici datové tabulky. Po hloubkové analýze může získat atributy tabulky na další úrovni. Dalším podrobným získáním údajů může získat podrobnosti o každém atributu atd.
- Zkontrolovat předdefinované dotazy a zprávy: To umožňuje uživateli kontrolovat předdefinované dotazy a zprávy. Toto funguje jako odkaz na rámcové dotazy sám s vhodnými parametry atd.
Obrázkové znázornění úložiště metadat:
Jak lze spravovat metadata datových skladů?
Klíčovými zdroji pro správu metadat jsou lidé, procesy a nástroje.
- Lidé by měli rozumět metadatům pro vhodné použití.
- Tento proces začlení metadata do úložiště nástrojů (nebo) s průběhem životního cyklu DW pro budoucí použití.
- Poté lze metadata spravovat pomocí nástrojů.
Výzvy pro správu metadat
Jakmile jsou metadata vytvořena, můžete při integraci a správě metadat v systému čelit níže uvedeným výzvám.
- Přenesení různých formátů metadat do standardního formátu může vyžadovat více úsilí, pokud se v systému DW používají různé nástroje, protože metadata lze ukládat mezi tabulkami, aplikacemi (nebo) databázemi.
- Formáty metadat nemají zavedené celoodvětvové standardy. S tímto nedostatkem standardizovaného procesu je těžké předávat metadata různými úrovněmi systému a nástrojů DW.
- Důsledné udržování různých verzí historických metadat je složitý úkol.
Co je ETL řízený metadaty?
Metadata řízená ETL vytváří vrstvu pro zjednodušení procesu načítání dat do systému DW. V závislosti na metadatech se můžete rozhodnout, zda data zpracovat do systému (nebo). Proto jej můžete nazvat jako ETL řízený metadaty.
Závěr
Významná role metadat při určování úspěchu (nebo) selhání systému DW byla podrobně vysvětlena v tomto kurzu.
Rovněž jsme podrobně prozkoumali význam, roli, příklady, typy, výzvy metadat spolu s příslušnou obrazovou reprezentací.
Doufáme, že tyto informativní výukové programy z této série Data Warehouse obohatily vaše znalosti o datových skladech a souvisejících konceptech !!!
Šťastné čtení!!
=> Chcete-li se dozvědět více o skladování dat od začátku, navštivte toto místo.
Doporučené čtení
- Výukový program pro testování datových skladů s příklady | Průvodce testováním ETL
- Výukový program pro testování datového skladu ETL (kompletní průvodce)
- Dimenzionální datový model v datovém skladu - výuka s příklady
- Výukový program Data Mart - Typy, příklady a implementace Data Mart
- Co je proces ETL (extrakce, transformace, načtení) v datovém skladu?
- 10 nejlepších nástrojů pro mapování dat užitečných v procesu ETL (SEZNAM 2021)
- Příklady dolování dat: Nejběžnější aplikace dolování dat 2021
- ETL Testing Interview Otázky a odpovědi