etl vs db testing closer look etl testing need
Testování softwaru má řadu oblastí, které je třeba soustředit. Hlavní odrůdy jsou funkční a nefunkční testování. Funkční testování je procedurální způsob, jak zajistit, aby vyvinuté funkce fungovaly podle očekávání. Nefunkční testování je přístup, kterým lze zajistit nefunkční aspekty, jako je vylepšený nebo výkon na přijatelné úrovni.
Existuje další příchuť testování Testování DB . Data jsou v databázi uspořádána ve formě tabulek. Pro podnikání mohou existovat toky kde data z více tabulek lze sloučit nebo zpracovat do jedné tabulky a naopak.
Testování ETL je další typ testování, který je preferován v obchodním případě, kdy klienti požadují určitý druh hlášení. Hledání zpráv je hledáno za účelem analýzy požadavků, potřeb a nabídky, aby klienti, podniky a koncoví uživatelé byli velmi dobře obsluhováni a měli prospěch.
Co se naučíte v tomto tutoriálu?
V tomto kurzu se naučíte, co je Testování databáze, co je Testování ETL, rozdíl mezi Testováním DB a Testováním ETL a další podrobnosti o potřebě, zpracování a plánování ETL, s reálnými příklady.
Testování ETL jsme se také podrobněji zabývali na níže uvedené stránce. Podívejte se také na to.
=> Tipy a techniky pro testování ETL / testování datových skladů
Co se naučíte:
Testování DB vs. testování ETL
Většina z nás je trochu zmatená vzhledem k tomu, že jak testování databáze, tak testování ETL jsou podobné a stejné. Faktem je, že jsou podobné, ale ne stejné.
Testování DB:
Testování databáze se obvykle značně používá v obchodních tocích, kde v aplikaci dochází k více datovým tokům z více zdrojů dat do jedné tabulky. Zdrojem dat může být tabulka, plochý soubor, aplikace nebo cokoli jiného, co může přinést některá výstupní data.
Získaná výstupní data lze zase použít jako vstup pro sekvenční obchodní tok. Proto když provádíme testování DB, nejdůležitější věcí, kterou je třeba zachytit, je způsob, jakým se data mohou transformovat ze zdroje, spolu s tím, jak se ukládají v cílovém umístění.
Synchronizace je jednou z hlavních a podstatných věcí, které je třeba vzít v úvahu při provádění testování DB. Z důvodu umístění aplikace v architektonickém toku může dojít k několika problémům se synchronizací dat nebo DB. Při provádění testování je tedy třeba se o to postarat, protože to může překonat potenciál neplatné vady nebo chyby.
Příklad č. 1:
Projekt „A“ má integrovanou architekturu, kde konkrétní aplikace využívá data z několika dalších heterogenních zdrojů dat. Proto je třeba provést integritu těchto dat s cílovým umístěním spolu s validacemi pro následující:
- Ověření primárního cizího klíče
- Integrita hodnot sloupce
- Nulové hodnoty pro všechny sloupce
Co je testování ETL?
ETL Testing je speciální typ testování, které si klient přeje nechat provést pro své předpovědi a analýzu svého podnikání. To se většinou používá pro účely hlášení. Například pokud klienti potřebují mít hlášení o zákaznících, kteří používají nebo jdou po svém produktu na základě dne nákupu, musí využít zprávy ETL.
Pošta analýza a hlášení , tato data jsou data skladována do datového skladu, kam je třeba přesunout staré historické obchodní údaje.
moje otázky a odpovědi na sql rozhovor
Toto je testování na více úrovních, protože data ze zdroje jsou transformována do více prostředí, než dosáhnou konečného cílového umístění.
Příklad č. 2:
Budeme uvažovat o skupině „A“ podnikající v maloobchodě se zákazníky prostřednictvím nákupního trhu, kde si zákazník může zakoupit jakékoli předměty pro domácnost potřebné pro jejich každodenní přežití. Zde mají všichni navštěvující zákazníci jedinečné ID členství, pomocí kterého mohou získat body pokaždé, když přijdou za nákupem věcí z nákupního trhu.
Předpisy poskytnuté skupinou říkají, že získané body vyprší každý rok. A v závislosti na jejich použití může být členství buď upgradováno na člena vyššího stupně, nebo sníženo na člena nižšího stupně srovnatelně s aktuálním stupněm.
Po 5 letech založení nákupního trhu nyní vedení hledá rozšíření svého podnikání spolu s příjmy.
Proto potřebovali několik obchodních zpráv, aby mohli propagovat své zákazníky.
Při testování databáze provádíme následující:
# 1) Ověření na cílových tabulkách, které jsou vytvořeny pomocí sloupců s logickými výpočty, jak je popsáno v listu logického mapování a dokumentu pro směrování dat.
#dva) Manipulace, jako je vkládání, aktualizace a mazání údajů o zákaznících, lze provádět v jakékoli POS aplikaci koncového uživatele v integrovaném systému spolu s back-end databází, aby se stejné změny projevily i v koncovém systému.
# 3) Testování DB musí zajistit, aby neexistovala žádná zákaznická data, která by byla nesprávně interpretována nebo dokonce zkrácena. To může vést k vážným problémům, jako je nesprávné mapování údajů o zákaznících s jejich věrností
World of Warcraft klasický soukromý server
Při testování ETL kontrolujeme následující:
# 1) Za předpokladu, že ve zdroji je 100 zákazníků, zkontrolujete, zda byli všichni tito zákazníci spolu s jejich daty ze 100 řádků přesunuty ze zdrojového systému do cíle. Toto se nazývá ověření Kontrola úplnosti údajů.
#dva) Kontrola, zda byla se zákaznickými daty správně manipulována a předvedena ve 100 řádcích. Toto se jednoduše nazývá ověření Kontrola přesnosti dat .
# 3) Zprávy pro zákazníky, kteří v určitém období získali více než x bodů.
Srovnávací studie testování ETL a DB
Testování ETL a DB má několik aspektů, které se v sobě liší, což je podstatnější, než je pochopit před jejich provedením. To nám pomáhá pochopit hodnoty a význam testování a způsob, jakým pomáhá podnikání.
Následuje tabulkový formulář, který popisuje základní chování obou testovacích formátů.
Testování DB | Testování ETL | |
---|---|---|
Datová povaha | Zde se používají normalizovaná data | Zde se používají denormalizovaná data |
Primární cíl | Integrace dat | Hlášení BI |
Příslušné místo | Ve funkčním systému, kde dochází k obchodnímu toku | Externě prostředí obchodního toku. vstupem jsou historické obchodní údaje |
Automatizační nástroj | QTP, selen | Informatica, QuerySurge, COGNOS |
Dopad na podnikání | Mohou vést závažné dopady, protože jde o integrovanou architekturu obchodních toků | Potenciální dopady jako v době, kdy si klienti přejí provést prognózy a analýzy |
Použité modelování | Vztah mezi entitami | Dimenzionální |
Systém | Zpracování online transakcí | Online analytické zpracování |
Proč by mělo podnikání jít na ETL?
Pro zvážení testování ETL je k dispozici spousta obchodních potřeb. Každý podnik musí mít své jedinečné poslání a předmět podnikání. Všechny podniky mají svůj životní cyklus produktu, který má obecnou formu:
Je zcela jasné, že jakýkoli nový produkt vstupuje na trh s obrovským růstem tržeb a do fáze zvané zralost a poté poklesne v tržbách. Tato postupná změna je svědkem definitivního poklesu obchodního růstu. Proto je důležitější analyzovat potřeby zákazníků pro růst podnikání a další faktory potřebné k tomu, aby byla organizace ziskovější.
Ve skutečnosti tedy klienti chtějí analyzovat historická data a strategicky přijít s některými zprávami.
Plánování testování ETL
Jedním z hlavních kroků v testování ETL je plánování testu, který se má provést. Bude to podobné jako u Testovací plán pro testování systému to se obvykle provádí s výjimkou několika atributů, jako jsou požadavky a testovací případy.
Zde požadavky nejsou nic jiného než a mapovací list který bude mít druh mapování mezi daty v různých databázích. Jelikož si uvědomujeme, že testování ETL probíhá na více úrovních, je k ověření potřeba různých mapování.
Většinu času data zachycená ze zdrojových databází nejsou přímo. Všechna zdrojová data budou mít pohled na tabulky, ze kterých lze data použít.
Příklad: Následuje příklad toho, jak lze poskytnout mapování. Dva sloupce VIEW_NAME a TABLE_NAME lze použít k reprezentaci pohledů pro čtení dat ze zdroje a tabulky v prostředí ETL.
Je vhodné zachovat konvenci pojmenování, která nám může pomoci při plánování automatizace. Obecná notace, kterou lze použít, je pouze předpona názvu prostředí.
Nejvýznamnější věcí v ETL je identifikace základních dat a tabulek ze zdroje. Dalším zásadním krokem je mapování tabulek ze zdroje do prostředí ETL.
Následuje příklad toho, jak může být mapování mezi tabulkami z různých prostředí spojeno s účelem ETL.
Výše uvedené mapování předpokládá data ze zdrojové tabulky do pracovní tabulky. A od té doby ke stolům v EDW a poté k OLAP což je prostředí pro finální podávání zpráv. Proto je kdykoli v čase synchronizace dat pro ETL velmi důležitá.
Kritické potřeby ETL
Jak víme, ETL je potřeba předpovídat, reportovat a analyzovat podnikání, aby bylo možné postupně zachytit potřeby zákazníků. To umožní podnikání mít vyšší požadavky než v minulosti.
Tady je několik kritických potřeb, bez kterých nelze dosáhnout testování ETL:
- Identifikace dat a tabulek : To je důležité, protože může existovat mnoho dalších irelevantních a zbytečných dat, která mohou mít při předpovídání a analýze potřeb zákazníků nejméně důležitý význam. Proto je třeba před spuštěním prací ETL vybrat příslušná data a tabulky.
- Mapovací list : Toto je jedna z kritických potřeb při práci s ETL. Mapování správné tabulky ze zdroje do cíle je povinné a jakékoli problémy nebo nesprávná data v tomto listu mohou mít vliv na celý výstup ETL.
- Designy a data tabulky, typ sloupce : Toto je další důležitý krok při zvažování mapování zdrojových tabulek do cílových tabulek. Typ sloupce musí odpovídat tabulkám na obou místech atd.
- Přístup k databázi : Hlavní věc je přístup do databáze, kde pokračuje ETL. Jakákoli omezení přístupu budou mít stejný dopad.
Hlášení a testování ETL
Podávání zpráv v ETL je důležitější, protože vysvětluje a směruje klienty, které zákazník potřebuje. Tímto způsobem mohou předvídat a analyzovat přesné potřeby zákazníků
Příklad č. 3:
Společnost, která vyrábí hedvábné tkaniny, chtěla analyzovat jejich roční tržby. Při kontrole jejich ročních tržeb zjistili, že během měsíce srpna a září došlo k obrovskému poklesu tržeb s využitím zprávy, kterou vygenerovali.
World of Warcraft klasický soukromý server
Proto se rozhodli zavést propagační nabídku, jako je burza, slevy atd., Která zvýšila jejich prodej.
Základní problémy při testování ETL
Při provádění testování ETL může dojít k řadě problémů, jako je následující:
- Přístup ke zdrojovým tabulkám nebo pohledům nebude platný.
- Název sloupce a datový typ ze zdroje do další vrstvy se nemusí shodovat.
- Počet záznamů ze zdrojové tabulky do určeného předloženého nemusí odpovídat.
A může jich být mnohem víc.
Následuje ukázka mapovacího listu, kde jsou sloupce jako VIEW_NAME, COLUMN_NAME, DATA_TYPE, TABLE_NAME, COLUMN_NAME, DATA_TYPE a TRANSFORMATION LOGIC.
První 3 sloupce představují podrobnosti zdrojové databáze a další 3 jsou podrobnosti bezprostředně předcházející databáze. Poslední sloupec je velmi důležitý. Logika transformace je způsob, jakým jsou data ze zdroje čtena a ukládána do určené databáze. To záleží na obchodních a ETL potřebách.
Body, které si musíte pamatovat při plánování a provádění testů ETL
Nejdůležitější věcí v testování ETL je načítání dat na základě kritérií extrakce ze zdrojové databáze. Když je toto kritérium neplatné nebo zastaralé, nebudou v tabulce žádná data k provedení testování ETL, která by skutečně přinesla další problémy.
Následuje několik bodů, na které je třeba dávat pozor při plánování a provádění testů ETL:
# 1) Data jsou extrahována z heterogenních zdrojů dat
#dva) Zpracování procesu ETL v integrovaném prostředí, které se liší:
- DBMS
- VY
- Hardware
- Komunikační protokoly
# 3) Nutnost mít list mapování logických dat, než bude možné transformovat fyzická data
# 4) Porozumění a zkoumání zdrojů dat
# 5) Počáteční a přírůstkové zatížení
# 6) Sloupce auditu
# 7) Načítání faktů a rozměrů
Nástroje ETL a jejich významné využití
Nástroje ETL se v zásadě používají k sestavení a převodu logika transformace převzetím dat ze zdroje do jiného pomocí transformační logiky. Můžete také mapovat schémata ze zdroje do cíle, ke kterému dochází jedinečnými způsoby, transformovat a vyčistit data před tím, než bude možné je přesunout do cíle, spolu s načítáním v cíli efektivním způsobem.
To může výrazně snížit manuální úsilí, protože lze provést mapování, které se používá téměř pro všechny ověřování a ověřování ETL.
- Informatika - PowerCenter - je jedním z populárních nástrojů ETL, který zavádí společnost Informatica Corporation. To má velmi dobrou zákaznickou základnu pokrývající široké oblasti. Hlavní součásti nástroje jsou jeho nástroje pro klienty a nástroje úložiště a servery. Chcete-li se o nástroji dozvědět více, klikněte prosím tady
- IBM - Informační server Infosphere - IBM, která je lídrem na trhu v oblasti počítačových technologií, vyvinula v roce 2008 informační server Infosphere, který se používá pro integraci a správu informací. Chcete-li se dozvědět více o tomto nástroji, klikněte tady
- Oracle - integrátor dat - Společnost Oracle Corporation vyvinula svůj nástroj ETL pod názvem Oracle - Data Integrator. Jejich rostoucí zákaznická podpora je přiměla aktualizovat své nástroje ETL v různých verzích. Chcete-li se o nástroji dozvědět více, klikněte prosím tady
Další příklady použití testování ETL:
Vezmeme-li v úvahu některé letecké společnosti, které chtějí zavést propagační akce a nabídky, aby přilákaly zákazníky strategicky. Nejprve se pokusí porozumět požadavkům a potřebám specifikací zákazníka. K dosažení tohoto cíle budou vyžadovat historická data, nejlépe data z předchozích 2 let. S využitím údajů analyzují a připravují některé zprávy, které pomohou pochopit potřeby zákazníků.
Zprávy mohou být následujícího druhu:
- Zákazníci z regionu A, kteří cestují do regionu B v určitá data
- Zákazníci se specifickým věkovým kritériem cestují do města XX
A může existovat mnoho dalších zpráv.
Analýza těchto zpráv pomůže klientům identifikovat druh propagačních akcí a nabídek, které budou přínosem pro zákazníky a zároveň budou přínosem pro podniky, kde se to může stát situací typu win-win. Toho lze snadno dosáhnout testováním a zprávami ETL.
Souběžně se segment IT potýká s vážným problémem s databází, který si všiml a který zastavil více služeb, a naopak má potenciál způsobit dopady na podnikání. Při vyšetřování bylo zjištěno, že některá neplatná data poškodila několik databází, které bylo třeba opravit ručně.
V prvním případě budou vyžadovány zprávy a testování ETL.
Zatímco druhý případ je tam, kde je třeba správně provést testování DB, aby se překonaly problémy s neplatnými daty.
Závěr
Doufám, že výše uvedený výukový program poskytl jednoduchý a jasný přehled o tom, co je testování ETL a proč je třeba provést společně s dopady na podnikání nebo výhodami, které přinášejí. Tím to nekončí, ale může to vést až k předvídání růstu v podnikání.
O autorovi: Tento výukový program napsal Nagarajan. Je testovacím vedoucím s více než 6 lety zkušeností s testováním softwaru v různých funkčních oblastech, jako je bankovnictví, letecké společnosti a telekomunikace, a to jak v oblasti manuální, tak automatizace.
Sdělte nám své myšlenky / dotazy v komentářích níže.
Doporučené čtení
- ETL Testing Interview Otázky a odpovědi
- Výukový program pro testování datového skladu ETL (kompletní průvodce)
- Nejlepší 10 testovacích nástrojů ETL v roce 2021
- Jak provádět testování ETL pomocí nástroje Informatica PowerCenter
- 31 Nejlepší databáze Testovací otázky a odpovědi na pohovor
- 40+ nejlepších nástrojů pro testování databáze - oblíbená řešení pro testování dat
- Kompletní průvodce pro testování databází (proč, co a jak testovat data)
- Testování databáze selenu (pomocí WebDriver a JDBC API)