data warehouse testing tutorial with examples etl testing guide
Tento výukový program podrobně popisuje cíle a význam testování datových skladů, odpovědnosti za testování ETL, chyby v nasazení DW a ETL:
V tomhle Série školení pro hloubkový datový sklad , podívali jsme se na Co je ET L Proces v datovém skladu v podrobně v našem předchozím tutoriálu.
Tento kurz vám poskytne představu o tom, jak lze v organizaci provádět testování datového skladu. Dozvíte se také podrobně o cílech testování DW, o tom, jak a jaký druh testování lze provádět na backendu, kdo je do tohoto procesu zapojen, chyby DW a nasazení ETL.
=> Zkontrolujte VŠECHNY výukové programy pro datové sklady zde.
Cílová skupina
- Vývojáři a testeři Data Warehouse / ETL.
- Databázoví profesionálové se základní znalostí databázových konceptů.
- Správci databází / odborníci na velká data, kteří chtějí porozumět konceptům Data Warehouse / ETL.
- Absolventi / osvěžovači vysokých škol, kteří hledají práci v Data Warehouse.
Co se naučíte:
Testování datového skladu (ETL)
Jaký je význam testování systémů Data Warehouse a Business Intelligence?
Testování hraje klíčovou roli v úspěchu kteréhokoli z výše uvedených dvou systémů tím, že zajišťuje správnost dat, která buduje víru koncových uživatelů.
Obecně platí, že vada nalezená v pozdějších fázích životního cyklu vývoje softwaru stojí za opravu této vady více. Tuto situaci v DW lze zhoršit, protože nesprávná data nalezená v pozdějších fázích mohla být do té doby použita při důležitých obchodních rozhodnutích.
Oprava v DW je tedy dražší, pokud jde o změny procesů, lidí a technologií. Testování DW můžete začít hned od fáze shromažďování požadavků.
Je připravena a přezkoumána matice sledovatelnosti požadavků, která mapuje hlavně funkce DW s jejich příslušnými obchodními požadavky. Matice sledovatelnosti funguje jako vstup do plánu zkoušek DW, který připravují testeři. Plán zkoušek popisuje zkoušky, které je třeba provést k ověření systému DW.
Také popisuje typy testů, které budou v systému provedeny. Jakmile bude plán testů připraven, budou připraveny všechny podrobné testovací případy pro různé scénáře DW. Poté budou provedeny všechny testovací případy a zaznamenány defekty.
V operačním světě existuje standard, který udržuje různá prostředí pro vývoj, testování a produkci. Ve světě DW se vývojáři i testeři ujistí, že vývojová a testovací prostředí jsou k dispozici s replikou produkčních dat před zahájením práce.
To se zkopíruje pro seznam tabulek s omezenými nebo úplnými daty v závislosti na potřebách projektu, protože produkční data jsou opravdu velká. Vývojáři vyvíjejí svůj kód v prostředí vývojáře a dodávají jej testerům.
Testeri otestují kód dodaný v testovacích prostředích, aby se ujistili, že všechny systémy fungují. Poté bude kód uveden do provozu v produkčním prostředí. DW kód je také udržován v různých verzích na základě defektů opravených v každém vydání. Údržba více prostředí a verzí kódu pomáhá budovat kvalitní systém.
fronta ukazatelů c ++
Cíle testování datového skladu (ETL)
Pojďme se podívat na cíle testování datového skladu.
# 1) Úplnost údajů: Zajistěte, aby byla do datového skladu načtena všechna data z různých zdrojů. Testovací tým ověřuje, zda jsou načteny všechny záznamy DW, proti zdrojové databázi a plochým souborům, a to podle níže uvedených ukázkových strategií.
- Celkový počet záznamů nahraných ze zdrojového systému by měl odpovídat celkovému počtu záznamů načtených do DW. Pokud existuje rozdíl, můžete přemýšlet o zamítnutých záznamech.
- Porovnejte data načtená do každého pole DW s datovými poli zdrojového systému. To způsobí případné chyby v datech.
# 2) Transformace dat: Při nahrávání zdrojových dat do datového skladu lze několik polí přímo načíst se zdrojovými daty, ale několik polí se načte s daty, která se transformují podle obchodní logiky. Toto je složitá část testování DW (ETL).
Níže jsou ukázkové strategie k testování:
- Můžete otestovat vytvořením a porovnáním dat v tabulkách. Načtěte zdrojová transformovaná data a data DW do tabulek a proveďte srovnání. Nemělo by dojít k žádnému nesouladu.
- Testeři by měli psát dotazy podle logiky transformace, aby porovnali data DW se zdrojovými daty. Spuštění dotazu zaručí, že nechybí ověření dat pro žádné z polí.
# 3) Kvalita dat: Systém datového skladu (ETL) musí zajistit kvalitu dat načtených do něj odmítnutím (nebo) opravou dat.
DW může odmítnout několik údajů o zdrojovém systému založených na logice obchodních požadavků. Například, odmítnout záznam, pokud určité pole obsahuje nečíselná data. Všechny odmítnuté záznamy jsou načteny do tabulky odmítnutí pro referenci.
Odmítnutá data se hlásí klientům, protože o těchto zmeškaných datech není šance se dozvědět, protože nebudou načtena do systému DW. DW může opravit data načtením nuly místo nulových hodnot atd.
# 4) Škálovatelnost a výkon: Datový sklad musí zajistit rozšiřitelnost systému s rostoucím zatížením. Díky tomu by nemělo docházet k žádnému zhoršení výkonu při provádění dotazů s očekávanými výsledky v konkrétních časových rámcích. Testování výkonu tak odhalí jakékoli problémy a opraví je před výrobou.
Níže uvádíme ukázkové strategie pro testování výkonu a škálovatelnosti:
- Proveďte testování výkonu načtením produkčních objemů dat a zajistěte, aby nebyly zmeškány časové rámce.
- Ověřte výkon každého dotazu hromadnými daty. Otestujte výkon pomocí jednoduchých spojení a více spojení.
- Načtěte dvojnásobné (nebo trojnásobné) objemy dat, u nichž se předpokládá, že přibližně vypočítáte kapacitu systému.
- Otestujte spuštěním úloh pro všechny uvedené sestavy současně.
# 5) Testování integrace: Datový sklad by měl provádět testování integrace s dalšími upstream a downstream aplikacemi. Pokud je to možné, je lepší zkopírovat produkční data do testovacího prostředí pro Integration Testing.
Do této fáze by měly být zapojeny všechny týmy systémů, aby překlenly mezery a zároveň porozuměly a testovaly všechny systémy společně.
# 6) Testování jednotek: To provádějí jednotliví vývojáři na svých produktech. Vývojáři připraví scénáře jednotkových testů na základě jejich porozumění požadavkům, provedou jednotkové testy a zdokumentují výsledky. To pomáhá vývojářům opravit jakékoli chyby, pokud budou nalezeny, před dodáním kódu testovacímu týmu.
# 7) Regresní testování: Ověřuje, že systém DW nefunguje správně po opravě jakýchkoli závad. To se provádí mnohokrát s každou novou změnou kódu.
# 8) Testování přijetí uživatelem: Toto testování provádějí obchodní uživatelé, aby ověřili funkčnost systému. Prostředí UAT se liší od prostředí QA. Odhlášení z UAT znamená, že jsme připraveni přesunout kód do výroby.
jak odstranit něco z pole java
Z pohledu systému Data Warehouse a Business Intelligence mohou obchodní uživatelé ověřovat různé sestavy prostřednictvím uživatelského rozhraní (UI). Mohou ověřit specifikace zprávy podle požadavků, mohou ověřit správnost údajů ve zprávách, mohou ověřit, jak rychle systém vrací výsledky atd.
Vývojový diagram testování DW:
Odpovědnosti za testování datového skladu
Níže jsou uvedeny různé týmy zapojené do poskytování úspěšného systému DW:
- Obchodní analytici: Shromážděte všechny obchodní požadavky na systém a zdokumentujte je podle svých preferencí.
- Tým infrastruktury: Nastavte různá prostředí podle potřeby jak pro vývojáře, tak pro testery.
- Vývojáři: Vyvíjejte kód ETL podle požadavků a provádějte testy jednotek.
- QA (Quality Assurance) / Testeři: Vypracovat testovací plán, testovací případy atd. Identifikuje vady systému provedením testovacích případů. Proveďte různé úrovně testování.
- DBA: DBA se starají o převod logických scénářů databáze ETL na fyzické scénáře databáze ETL a také se podílejí na testování výkonu.
- Firemní uživatelé: Zapojte se do testování přijatelnosti uživatelů, spusťte dotazy a zprávy o tabulkách DW.
Chyby v datovém skladu
Když extrahujete, transformujete a načítáte (ETL) data z více zdrojů, je pravděpodobné, že získáte špatná data, která mohou přerušit dlouhotrvající úlohy.
Níže jsou uvedeny hlavní příčiny selhání systému DW:
# 1) Porušení obchodních pravidel (logické chyby): Logicky nesprávná data porušují obchodní pravidla. S takovými daty lze manipulovat většinou během fází transformace nebo načítání.
# 2) Porušení pravidel dat (chyby dat): K chybám dat dochází v databázovém systému DW, jako jsou neshody datových typů, selhání datových omezení atd.
Nasazení ETL
Toto je fáze, kdy všechno vaše úsilí bude fungovat. Měly by být připraveny všechny dokumenty podpory výroby.
Dokumentace sdělí ostatním sekvenci úloh, které se mají spustit, scénáře obnovy po selhání, tréninkové materiály pro týmy podpory DW, aby monitorovaly systém po nasazení, a týmu podpory pro správu, aby provedly zprávy.
Závěr
Podrobně jsme se v tomto kurzu dozvěděli o cílech testování datových skladů, odpovědnosti za testování ETL, chybách v DW a nasazení ETL.
Doufáme, že máte představu o tom, jak lze provést podrobné testování v systému Data Warehouse (ETL).
=> Chcete-li se dozvědět více o skladování dat od začátku, navštivte toto místo.
Doporučené čtení
- Výukový program pro testování datového skladu ETL (kompletní průvodce)
- Výukový program pro testování hlasitosti: Příklady a nástroje pro testování hlasitosti
- ETL Testing Interview Otázky a odpovědi
- Nejlepší nástroje pro testování softwaru 2021 (QA Test Automation Tools)
- Funkční testování vs. nefunkční testování
- Výukový program pro testování párů nebo testování všech párů s nástroji a příklady
- Nejlepší 10 testovacích nástrojů ETL v roce 2021
- Jak provádět testování řízené daty v SoapUI Pro - SoapUI Tutorial # 14