top 32 best datastage interview questions
Seznam nejčastěji kladených otázek ohledně datastage a odpovědí, které vám pomohou připravit se na nadcházející rozhovor:
DataStage je velmi populární nástroj ETL, který byl k dispozici na současném trhu.
V tomto článku sdílím sadu velmi užitečných otázek a odpovědí určených pro rozhovory s IBM Datastage. Projděte si níže otázky týkající se datastage rozhovoru, které vám usnadní rozhovor.
Pokryli jsme podrobné odpovědi na otázky týkající se rozhovorů s datastage, které budou užitečné pro nováčky a zkušené profesionály.
Doporučené čtení => Otázky k rozhovoru s ETL
Nejběžnější otázky a odpovědi týkající se datových dat
Začněme!
Otázka 1) Co je Datastage?
Odpovědi: Datastage je Nástroj ETL dána IBM který využívá GUI k navrhování řešení integrace dat. Jednalo se o první nástroj ETL, který dal koncept paralelismu.
Je k dispozici v následujících 3 různých vydáních
- Serverová edice
- Enterprise Edition
- Vydání MVS
Otázka 2) Zvýrazněte hlavní rysy Datastage?
Odpovědi: Níže jsou zvýrazněny hlavní rysy Datastage:
- Jedná se o součást integrace dat informačního serveru IBM Infosphere.
- Jedná se o nástroj založený na grafickém uživatelském rozhraní. Musíme pouze přetáhnout objekty Datastage a můžeme je převést na kód Datastage.
- Používá se k provádění operací ETL (Extract, Transform, Load)
- Poskytuje připojení k více zdrojům a více cílům současně
- Poskytuje techniky dělení a paralelního zpracování, které umožňují úlohám Datastage zpracovat obrovský objem dat poměrně rychleji.
- Má připojení na podnikové úrovni.
Otázka č. 3) Jaká jsou primární použití nástroje Datastage?
Odpovědi: Datastage je nástroj ETL, který se primárně používá pro extrakci dat ze zdrojových systémů, jejich transformaci a konečné načtení do cílových systémů.
Otázka č. 4) Jaké jsou hlavní rozdíly, které jste pozorovali mezi verzí DataStage 7.x a 8.x?
Odpovědi: Tady jsou hlavní rozdíly mezi oběma verzemi
7.x | 8.x |
---|---|
Verze 7.x byla závislá na platformě | Tato verze je nezávislá na platformě |
Má dvouvrstvou architekturu, kde je datové úložiště postaveno na serveru Unix | Má třívrstvou architekturu, kde máme v dolní části databázi serverů UNIX, pak databázi XMETA, která funguje jako úložiště a nahoře máme datové úložiště. |
Sada parametrů neexistuje | Máme sady parametrů, které lze použít kdekoli v projektu. |
Měli jsme designéra a manažera jako dva samostatné klienty | V této verzi byl klient správce sloučen do klienta návrháře |
Pracoviště v této verzi jsme museli hledat ručně | Zde máme možnost rychlého hledání v úložišti, kde můžeme snadno hledat úlohy. |
Otázka č. 5) Můžete zdůraznit hlavní funkce informačního serveru IBM Infosphere?
Odpovědi: Hlavní funkce sady informačních serverů IBM Infosphere jsou:
co dělat se soubory .torrent
- Poskytuje jednotnou platformu pro integraci dat. Má schopnost připojit se k více zdrojovým systémům i zapisovat do více cílových systémů.
- Je založen na centralizovaných vrstvách. Všechny komponenty sady mohou sdílet základní architekturu sady.
- Má vrstvy pro jednotné úložiště, pro integrované služby metadat a společný paralelní stroj.
- Poskytuje nástroje pro analýzu, čištění, monitorování, transformaci a doručování dat.
- Má masivně paralelní možnosti zpracování. Ukázalo se, že zpracování je velmi rychlé.
Otázka č. 6) Jaké jsou různé vrstvy v architektuře informačního serveru?
Odpovědi: Níže jsou uvedeny různé vrstvy architektury informačního serveru
- Jednotné uživatelské rozhraní
- Společné služby
- Sjednocené paralelní zpracování
- Sjednocená metadata
- Společné připojení
Otázka č. 7) Co může být systém zdroje dat?
Odpovědi: Může to být databázová tabulka, plochý soubor nebo dokonce externí aplikace, jako jsou lidé soft.
Otázka č. 8) Na kterém rozhraní budete pracovat jako vývojář?
Odpovědi: Jako vývojář Datastage pracujeme na klientském rozhraní Datastage, které je známé jako návrhář Datastage, který je třeba nainstalovat do místního systému. V back-endu je připojen k serveru Datastage.
Otázka č. 9) Jaké jsou různé běžné služby v Datastage?
Odpovědi: Níže je uveden seznam běžných služeb v Datastage:
- Služby metadat
- Unified service deployment
- Bezpečnostní služby
- Smyčkové a reportovací služby.
Otázka č. 10) Jak začnete vyvíjet projekt Datastage?
Odpovědi: Prvním krokem je vytvoření úlohy Datastage na serveru Datastage. Všechny objekty Datastage, které vytváříme, jsou uloženy v projektu Datastage. Projekt Datastage je samostatné prostředí na serveru pro úlohy, tabulky, definice a rutiny.
Projekt Datastage je samostatné prostředí na serveru pro úlohy, tabulky, definice a rutiny.
Otázka č. 11) Co je úloha DataStage?
Odpovědi: Úloha Datastage je jednoduše kód DataStage, který vytváříme jako vývojář. Obsahuje různé fáze propojené k definování dat a toku procesu.
Fáze nejsou nic jiného než funkce, které se implementují.
Například: Předpokládejme, že chci udělat součet částky prodeje. Může se jednat o operaci „seskupit podle“, která bude provedena v jedné fázi.
Nyní chci výsledek zapsat do cílového souboru. Tuto operaci tedy provede další fáze. Jakmile jsem definoval obě fáze, potřebuji definovat tok dat z fáze „seskupit podle“ do fáze cílového souboru. Tento datový tok je definován odkazy DataStage.
Jakmile jsem definoval obě fáze, potřebuji definovat tok dat z fáze „seskupit podle“ do fáze cílového souboru. Tento datový tok je definován odkazy DataStage.
Otázka č. 12) Co jsou sekvence DataStage?
Odpovědi: Sekvence datového připojení spojuje úlohy DataStage v logickém toku.
Otázka č. 13) Pokud chcete použít stejnou část kódu v různých úlohách, jak toho dosáhnete?
Odpovědi: To lze provést pomocí sdílených kontejnerů. Máme sdílené kontejnery pro opětovné použití. Sdílený kontejner je opakovaně použitelný prvek úlohy skládající se z fází a odkazů. Můžeme volat sdílený kontejner v různých úlohách Datastage.
Otázka č. 14) Kde se ukládají úlohy Datastage?
Odpovědi: Úlohy Datastage se ukládají do úložiště. Máme různé složky, do kterých můžeme ukládat úlohy Datastage.
Otázka č. 15) Kde vidíte různé fáze v návrháři?
jak spustit torrentovaný soubor
Odpovědi: Všechny fáze jsou k dispozici v okně s názvem '' Paleta '' . Má různé kategorie v závislosti na druhu funkce, kterou scéna poskytuje.
Různé kategorie fází v paletě jsou - Obecné, Kvalita dat, Databáze, Vývoj, Soubor, Zpracování atd.
Otázka č. 16) Jaké jsou fáze zpracování?
Odpovědi: Fáze zpracování nám umožňují použít vlastní transformaci dat.
Například , The '' Fáze agregátoru v kategorii Zpracování nám umožňuje použít všechny operace „seskupit podle“. Podobně máme ve zpracování další fáze, jako je fáze „Připojit se“, která nám umožňuje spojit data pocházející ze dvou různých vstupních proudů.
Otázka č. 17) Jaké jsou kroky potřebné k vytvoření jednoduché základní úlohy Datastage?
Odpovědi: Klikněte na Soubor -> Klikněte na Nový -> Vyberte paralelní úlohu a stiskněte OK. Otevře se paralelní okno úlohy. V této paralelní úloze můžeme dát dohromady různé fáze a definovat datový tok mezi nimi. Nejjednodušší úlohou DataStage je úloha ETL.
V tomto musíme nejprve extrahovat data ze zdrojového systému, pro který můžeme použít buď souborovou fázi, nebo databázovou fázi, protože mým zdrojovým systémem může být buď databázová tabulka, nebo soubor.
Předpokládejme, že čteme data z textového souboru. V tomto případě přetáhneme fázi „Sekvenční soubor“ do okna paralelní úlohy. K těmto datům nyní musíme provést nějakou transformaci. Použijeme fázi „Transformátor“, která je k dispozici v kategorii Zpracování. Můžeme napsat jakoukoli logiku pod fází Transformátoru.
Nakonec musíme načíst zpracovaná data do nějaké cílové tabulky. Řekněme, že moje cílová databáze je DB2. Z tohoto důvodu vybereme fázi konektoru produktu DB2. Pak budeme tyto datové stavy spojovat pomocí sekvenčních odkazů.
Po tomto , musíme nakonfigurovat fáze tak, aby ukazovaly na správný souborový systém nebo databázi.
Například, Pro fázi Sekvenční soubor musíme definovat povinné parametry, jako je název souboru, umístění souboru, metadata sloupce.
Pak musíme sestavit úlohu Datastage. Kompilace úlohy zkontroluje syntaxi úlohy a vytvoří spustitelný soubor pro úlohu Datastage, který lze spustit za běhu.
Otázka č. 18) Pojmenujte různé metody řazení v Datastage.
Odpovědi: K dispozici jsou dvě metody:
- Řazení odkazů
- Integrované třídění dat
Otázka č. 19) Pokud v dávce selže úloha mezi vámi a chcete restartovat dávku z dané konkrétní úlohy, a ne od nuly, co uděláte?
Odpovědi: V Datastage existuje možnost v pořadí úloh - „Přidejte kontrolní body, aby byla sekvence při selhání restartována“ . Pokud je tato možnost zaškrtnutá, můžeme znovu spustit sekvenci úloh od bodu, kde selhala.
Otázka č. 20) Jak importujete a exportujete úlohy Datastage?
Odpovědi: F nebo toto, níže funkce příkazového řádku
- Import: dsimport.exe
- Vývozní: dsexport.exe
Otázka č. 21) Jaké jsou rutiny v Datastage? Získejte různé typy rutin.
Odpovědi: Rutina je sada funkcí definovaných správcem DS. Je provozován přes transformátorový stupeň.
Existují 3 druhy rutin:
- Paralelní rutiny
- Mainframe rutiny
- Rutiny serveru
Otázka č. 22) Jak odstraníte duplicitní hodnoty v DataStage?
Odpovědi: Existují dva způsoby, jak zacházet s duplicitními hodnotami
- K odstranění duplikátů můžeme použít fázi odebrání duplikátu.
- Můžeme použít fázi třídění k odstranění duplikátů. Fáze třídění má vlastnost nazvanou „povolit duplikáty“. Při nastavování této vlastnosti na hodnotu false nebudeme ve výstupu sort zobrazovat duplicitní hodnoty.
Otázka č. 23) Jaké jsou různé druhy zobrazení dostupné v řediteli Datastage?
Odpovědi: V řediteli Datastage jsou k dispozici 3 druhy zobrazení. Oni jsou:
- Zobrazení protokolu
- Zobrazení stavu
- Pohled na práci
Otázka č. 24) Rozlišujte mezi Informatica a Datastage. Který byste si vybrali a proč?
Odpovědi: Informatica i DataStage jsou výkonné nástroje ETL.
Získané body rozlišují mezi oběma nástroji:
Výpočetní | Datová část | |
---|---|---|
Paralelní zpracování | Informatica nepodporuje paralelní zpracování. | Na rozdíl od toho poskytuje datastage mechanismus pro paralelní zpracování. |
Provádění SCD | Implementace SCD (Pomalu se měnící rozměry) v Informatice je poměrně jednoduchá. | Je však složité implementovat SCD do datového úložiště. Datastage podporuje SCD pouze prostřednictvím vlastních skriptů. |
Řízení verzí | Informatica podporuje řízení verzí prostřednictvím odbavení a odhlášení objektů. | Tuto funkci však v datovém úložišti nemáme k dispozici. |
Dostupné transformace | K dispozici jsou menší transformace. | Datastage nabízí více různých transformací než Informatica. |
Síla vyhledávání | Informatica poskytuje velmi výkonné dynamické vyhledávání mezipaměti | V datovém záznamu nemáme nic podobného. |
Podle mého osobního názoru bych šel s Informatica přes Datastage. Důvodem je, že jsem našel Informatica systematičtější a uživatelsky přívětivější než DataStage.
Dalším silným důvodem je, že ladění a zpracování chyb je v Informatice mnohem lepší ve srovnání s Datastage. Oprava problémů se tak v Informatice stává jednodušší. Datastage neposkytuje úplnou podporu při zpracování chyb.
=> Chcete se dozvědět více o Informatice? Máme podrobné vysvětlení zde.
Otázka č. 25) Poskytněte představu o systémových proměnných.
Odpovědi: Systémové proměnné jsou proměnné jen pro čtení začínající na „@“ které lze číst buď transformátorovým stolem nebo rutinou. Používají se k získání informací o systému.
Otázka č. 26) Jaký je rozdíl mezi pasivním a aktivním stupněm?
Odpovědi: Pasivní stupně se používají pro extrakci a načítání, zatímco aktivní stupně se používají pro transformaci.
Otázka č. 27) Jaké jsou různé druhy kontejnerů dostupné v Datastage?
Odpovědi: V Datastage máme méně než 2 kontejnery:
- Místní kontejner
- Sdílený kontejner
Otázka č. 28) Je hodnota pracovní proměnné uložena dočasně nebo trvale?
Odpovědi: Dočasně. Je to dočasná proměnná.
Otázka č. 29) Jaké jsou různé typy úloh v Datastage?
Odpovědi: V Datastage máme dva typy pracovních míst:
- Úlohy na serveru (běží postupně)
- Paralelní úlohy (provádějí se paralelně)
Otázka č. 30) Jaké je použití ředitele Datastage?
nejlepší bezplatný čistič pc pro Windows 10
Odpovědi: Prostřednictvím ředitele Datastage můžeme naplánovat úlohu, ověřit úlohu, provést úlohu a sledovat ji.
Otázka č. 31) Jaké jsou různé druhy hash souboru?
Odpovědi: Máme 2 typy hash souborů:
- Statický hash soubor
- Dynamický hash soubor
Otázka č. 32) Co je to fáze kvality?
Odpovědi: Fáze kvality (nazývaná také jako fáze integrity) je fáze, která pomáhá při kombinování dat pocházejících z různých zdrojů.
Závěr
Měli byste nést praktické znalosti o architektuře Datastage, jejích hlavních funkcích a měli byste být schopni vysvětlit, jak se liší od některých jiných populárních nástrojů ETL.
dodatečně , měli byste mít férovou představu o různých fázích a jejich použití, end-to-end způsob vytvoření úlohy Datastage a její spuštění.
Doporučené čtení => Co je testování ETL?
Vše nejlepší!
Doporučené čtení
- ETL Testing Interview Otázky a odpovědi
- 10 nejlepších nástrojů pro mapování dat užitečných v procesu ETL (SEZNAM 2021)
- 15 nejlepších nástrojů ETL v roce 2021 (úplný aktualizovaný seznam)
- Výukový program pro testování datových skladů s příklady | Průvodce testováním ETL
- Výukový program pro testování datového skladu ETL (kompletní průvodce)
- Testování ETL vs. DB - bližší pohled na potřeby testování ETL, plánování a nástroje ETL
- Jak provádět testování ETL pomocí nástroje Informatica PowerCenter
- Metadata v datovém skladu (ETL) vysvětlena příklady
- Tisková zpráva - iCEDQ Soft Nová verze platformy ETL pro testování a testování migrace dat
- Nejlepší 10 testovacích nástrojů ETL v roce 2021
- Co je proces ETL (extrakce, transformace, načtení) v datovém skladu?