what is data lake data warehouse vs data lake
Tento výukový program vysvětluje vše o Data Lake včetně jeho potřeby, definice, architektury, výhod a rozdílů mezi Data Lake a Data Warehouse:
Pojem „Data Lake“ se v dnešním IT světě používá poměrně často. Přemýšleli jste někdy o tom, co to je a odkud tento pojem přesně pochází?
V době informační technologie, kdy data zesilují den a noc v mnoha formách, se koncept datového jezera stává jistě důležitým a užitečným.
Podívejme se podrobně na to, co je to datové jezero a jaké jsou jeho výhody, použití atd.
Co se naučíte:
Co je datové jezero a jak funguje?
Datové jezero je systém nebo centralizované úložiště dat, které vám umožní ukládat všechna vaše strukturovaná, polostrukturovaná, nestrukturovaná a binární data v přirozeném / nativním / surovém formátu.
Strukturovaná data mohou zahrnovat tabulky z RDBMS; semstrukturovaná data zahrnují soubory CSV, soubory XML, protokoly, JSON atd .; nestrukturovaná data mohou zahrnovat PDF, textové dokumenty, textové soubory, e-maily atd .; a binární data mohou zahrnovat zvukové, obrazové a obrazové soubory.
Vyplývá z ploché architektury pro ukládání dat. Obecně jsou data uložena ve formě objektů BLOB nebo souborů.
(obraz zdroj )
S datovým jezerem můžete uložit celý svůj podnik na jednom místě, aniž byste museli data nejprve strukturovat. Můžete na něm přímo provádět různé typy analytiky, včetně strojového učení, analýzy v reálném čase, místního pohybu dat, pohybu dat v reálném čase, řídicích panelů a vizualizací.
Zachovává všechna data v původní podobě a předpokládá, že k analýze dojde později na vyžádání.
Analogie datového jezera
(obraz zdroj )
Termín Data Lake vytvořil James Dixon, tehdejší CTO v Pentaho. Definuje datový trh (podmnožinu datového skladu) jako obdobu lahve s vodou naplněnou vyčištěnou, destilovanou vodou, zabalenou a strukturovanou pro přímé a snadné použití.
Na druhou stranu je analogický vodnímu útvaru v jeho přirozené formě. Toky dat z proudů (různé obchodní funkce / zdrojové systémy) do jezera. Spotřebitelé datového jezera, tj. Uživatelé mají přístup k jezeru, aby mohli analyzovat, zkoumat, shromažďovat vzorky a ponořit se.
Stejně jako voda v jezeře uspokojuje různé potřeby lidí, jako je rybaření, plavba lodí, zásobování pitnou vodou atd., Podobná architektura datového jezera slouží mnoha účelům.
jak bys otestoval pero
Datový vědec jej může použít k prozkoumání dat a vytvoření hypotézy. Analytikům dat nabízí příležitost analyzovat data a objevovat vzorce. Poskytuje podnikovým uživatelům a zúčastněným stranám režim prozkoumávání dat.
Analytikům reportů také nabízí příležitost navrhovat reporty a prezentovat je podnikání. Naopak, datový sklad má zabalená data pro přesně definované účely, stejně jako láhev bisleri, kterou lze použít pouze pro pitnou vodu.
Data Lake Market - růst, trendy a předpovědi
Trh datových jezer je rozdělen na základě produktu (řešení nebo služby), nasazení (na prem nebo cloud), průmyslového odvětví klientů (maloobchod, bankovnictví, veřejné služby, pojišťovnictví, IT, zdravotnictví, telekomunikace, vydavatelství, výroba) a geografické oblasti regionech.
Podle zprávy vydané Mordor Intelligence, níže je snímek trhu s datovým jezerem:
(obraz zdroj )
# 1) Souhrn trhu
Trh datových jezer byl v roce 2019 ohodnocen na 3,74 miliardy USD a očekává se, že se do roku 2025 dotkne 17,60 miliardy USD, při CAGR (složená roční míra růstu) 29,9% v projekčním období 2020-2025.
Tyto datové zásobníky se stále častěji stávají ekonomickou volbou pro mnoho organizací využívajících datové sklady. Na rozdíl od datových jezer vyžaduje datové skladování další zpracování dat před příchodem do skladu.
Náklady na správu datového jezera jsou menší ve srovnání s datovým skladem, protože je zapotřebí velké množství zpracování a je zapotřebí prostor pro vytvoření databáze pro sklady.
# 2) Hlavní hráči
Předpokládá se, že trh Data Lake bude konsolidovaným trhem, kterému bude dominovat pět klíčových hráčů, jak je vidět na obrázku níže.
# 3) Klíčové trendy
- Očekává se, že jeho využití v bankovním sektoru značně poroste. Banky přijímají datová jezera, aby poskytovaly analytiku na cestách. Pomáhá také rozpouštět mnoho sil v bankovním sektoru.
- Jelikož na celém světě dochází k obrovskému nárůstu digitálních plateb / využívání mobilních peněženek, zvyšuje se prostor pro analýzu velkých dat a tím i příležitosti pro ně.
- Předpokládá se, že Severní Amerika bude mít pro datová jezera vysoké přijetí. Studie provedená společností Capgemini říká, že více než 60% finančních organizací v USA si myslí, že analýza velkých dat funguje jako odlišení podniku a poskytuje jim konkurenční výhodu. Více než 90% organizací má pocit, že investice do velkých datových projektů zvyšuje šance na budoucí úspěch.
- Jsou vyžadovány pro použití aplikací inteligentních měřičů a v USA se očekává, že v roce 2021 bude nainstalováno přibližně 90 milionů inteligentních měřičů. Proto je po nich předpokládána vysoká poptávka.
Proč je Data Lake vyžadován?
Účelem datového jezera je poskytnout nezpracovaný pohled na data (data v nejčistší formě).
Příklady
V dnešní době nabízí nabídky datových jezer mnoho velkých společností, včetně Google, Amazon, Cloudera, Oracle, Microsoft a dalších.
Mnoho organizací používá služby cloudového úložiště, jako je Azure Data Lake nebo Amazon S3. Společnosti také používají distribuovaný souborový systém, jako je Apache Hadoop. Vyvinul se také koncept jezera osobních údajů, který vám umožňuje spravovat a sdílet vaše vlastní velká data.
Mluvíme-li o průmyslovém využití, pak je to velmi vhodné řešení pro oblast zdravotní péče. Z důvodu nestrukturovaného formátu velkého množství údajů ve zdravotnictví ( Například, Poznámky lékaře, klinická data, historie onemocnění pacienta atd.) A požadavek na přehledy v reálném čase, datové jezero je skvělou volbou oproti datovému skladu.
Nabízí flexibilní řešení ve vzdělávacím sektoru, kde jsou data velmi rozsáhlá a velmi hrubá.
V odvětví dopravy pomáhá zejména při řízení dodavatelského řetězce nebo logistice při vytváření předpovědí a realizaci výhod snižování nákladů.
Letecká a elektrická energetická odvětví také využívají datová jezera.
Příkladem jeho implementace je GE Predix (vyvinutý společností General Electric), což je platforma průmyslového datového jezera nabízející silné kompetence v oblasti správy dat k vytváření, nasazování a správě průmyslových aplikací, které odkazují na průmyslová aktiva, shromažďují a analyzují data a poskytují v reálném čase postřehy pro zlepšení průmyslové infrastruktury a procesů.
Rozdíl mezi Data Warehouse a Data Lake
Lidé často obtížně chápou, jak se jezero liší od datového skladu. Tvrdí také, že je to stejné jako v datovém skladu. Ale to není realita.
Jedinou shodou mezi datovým jezerem a datovým skladem je, že oba jsou úložišti dat. Odpočívej, jsou jiné. Mají různé případy použití a účely.
Rozdíly jsou objasněny níže:
Datové jezero | Datový sklad | |
---|---|---|
Analytics | Datové jezero lze použít pro strojové učení, profilování dat zjišťování dat a prediktivní analýzu. | Datový sklad lze použít pro Business Intelligence, vizualizace a dávkové reporty. |
Data | Data Lake v něm udrží všechna nezpracovaná data. Může být strukturovaný, nestrukturovaný nebo polostrukturovaný. Je možné, že některá data v datovém jezeře nebudou nikdy použita. | Datový sklad obsahuje pouze ta data, která jsou zpracovávána a vylepšována, tj. Strukturovaná data, která jsou vyžadována pro hlášení a řešení konkrétních obchodních problémů. |
Uživatelé | Uživatelé datového jezera jsou obecně datoví vědci a vývojáři dat. | Uživatelé datového skladu jsou obecně obchodní profesionálové, provozní uživatelé a obchodní analytici. |
Přístupnost | Datové jezero je vysoce dostupné a snadno a rychle se aktualizuje, protože nemá žádnou strukturu. | V datovém skladu je aktualizace dat komplikovanější a nákladnější operací, protože datové sklady jsou strukturovány podle návrhu. |
Schéma | Schéma při zápisu. Navrženo před implementací DW. | Schéma na čtení. Napsáno v době analýzy. |
Architektura | Plochá architektura | Hierarchická architektura |
Účel | Účel nezpracovaných dat uložených v datových jezerech není stanoven nebo je neurčen. Data mohou někdy proudit do datového jezera s ohledem na některé konkrétní budoucí použití, nebo jen proto, aby byla data po ruce. Datové jezero má méně organizovaná a méně filtrovaná data. | Zpracovaná data uložená v datovém skladu mají konkrétní a jednoznačný účel. DW zorganizoval a filtroval data. Vyžaduje tedy méně úložného prostoru než datové jezero. |
Úložný prostor | Navrženo pro levné skladování. Hardware datového jezera se velmi liší od hardwaru datového skladu. Využívá běžné servery v kombinaci s levným úložištěm. Díky tomu je datové jezero poměrně ekonomické a vysoce škálovatelné na terabajty a petabajty. To je děláno, aby se všechna data uchovávala v datovém jezeře, abyste se mohli kdykoli vrátit k času provést analýzu. | Drahé pro velké objemy dat. Datový sklad má drahé diskové úložiště, aby byl vysoce výkonný. Z důvodu úspory prostoru je proto datový model zjednodušen a v datovém skladu jsou uchovávána pouze data, která jsou skutečně nutná pro obchodní rozhodnutí. |
Podpora datových typů | Data Lake velmi dobře podporuje netradiční datové typy, jako jsou protokoly serverů, data senzorů, aktivita na sociálních sítích, text, obrázky, multimédia atd. Všechna data jsou uchována bez ohledu na zdroj a strukturu. | Datový sklad se obecně skládá z dat získaných z transakčních systémů. Nepodporuje velmi dobře netradiční datové typy. Ukládání a konzumace netradičních dat může být s datovým skladem nákladné a obtížné. |
Bezpečnostní | Zabezpečení datových jezer je ve fázi „zrání“, protože se jedná o relativně nový koncept než datový sklad. | Zabezpečení datových skladů je ve fázi „vyspělosti“. |
hbitost | Vysoce agilní; podle potřeby nakonfigurujte a překonfigurujte. | Méně agilní; pevná konfigurace. |
Architektura Data Lake
Architektonický diagram
Nahoře je koncepční diagram architektury datového jezera. V levé části můžete vidět, že máme zdroje dat, které mohou být strukturované, polostrukturované nebo nestrukturované.
Tyto zdroje dat jsou kombinovány do úložiště nezpracovaných dat, které využívá data v nezpracované podobě, tj. Data bez jakékoli transformace. Jedná se o levné, trvalé a škálovatelné úložiště.
Dále máme analytické karantény, které lze použít pro zjišťování dat, průzkumnou analýzu dat a prediktivní modelování. V zásadě to používají datoví vědci k prozkoumání dat, vytváření nové hypotézy a definování případů použití.
web, který převádí videa z youtube na mp3
Pak existuje stroj pro dávkové zpracování, který zpracovává nezpracovaná data do spotřebitelem použitelné formy, tj. Ve strukturovaném formátu, který lze použít pro hlášení koncovým uživatelům.
Pak máme stroj pro zpracování v reálném čase, který je využíván při streamování dat a transformuje je.
Klíčové vlastnosti Data Lake
Chcete-li být klasifikován jako Data Lake, úložiště velkých dat by mělo mít následující tři atributy:
# 1) Jediné společné úložiště dat, které je obvykle uloženo v distribuovaném systému souborů (DFS).
Hadoop data lakes udržují data v původní podobě a zachycují změny dat a relativní sémantiku během životního cyklu dat. Tento přístup je obzvláště výhodný pro kontroly souladu a interní audity.
Jedná se o vylepšení nad konvenční Enterprise Data Warehouse, ve kterém když data procházejí transformacemi, agregacemi a úpravami, je obtížné dát data jako celek, když je to nutné, a společnosti se snaží zjistit zdroj / původ dat.
# 2) Zahrnuje možnosti plánování a plánování úloh (například prostřednictvím jakéhokoli plánovacího nástroje, jako je YARN atd.).
Provádění pracovního vytížení je pro podnik zásadní potřeba Hadoop a YARN nabízí správu zdrojů a centrální platformu pro zajištění stálých procesů, bezpečnostní a nástroje pro správu dat v klastrech Hadoop, které zajišťují, že analytické pracovní toky mají požadovanou úroveň přístupu k datům a výpočetního výkonu.
# 3) Zahrnuje sadu nástrojů a funkcí potřebných ke spotřebě, zpracování nebo práci s daty.
Snadná a rychlá přístupnost pro uživatele je jednou z klíčových vlastností datového jezera, protože organizace ukládají data v původní nebo čisté podobě.
V jakékoli formě jsou data, tj. Strukturovaná, nestrukturovaná nebo polostrukturovaná, vkládají se tak, jak jsou v datovém jezeře. Umožňuje vlastníkům dat kombinovat údaje o zákaznících, dodavatelích a operacích odstraněním jakýchkoli technických nebo politických překážek pro sdílení dat.
Výhody
(obraz zdroj )
- Univerzální : Dostatečně kompetentní pro ukládání všech druhů strukturovaných / nestrukturovaných dat, od dat CRM po aktivity na sociálních sítích.
- Více flexibility schématu : Nepotřebuje plánování ani předchozí znalosti analýzy dat. Ukládá všechna data v původní podobě a předpokládá, že k analýze dojde později na vyžádání. To je pro OLAP velmi užitečné. Například, datové jezero Hadoop vám umožňuje být bez schémat, kde můžete oddělit schéma od dat.
- Analýza rozhodnutí v reálném čase : Užívají si výhody obrovského množství konzistentních dat a algoritmů hlubokého učení k dosažení analýzy rozhodování v reálném čase. Schopen získat hodnotu z neomezeného množství datových typů.
- Škálovatelné: Jsou mnohem škálovatelnější než tradiční datové sklady a jsou také méně nákladné.
- Advanced Analytics / Compatibility with SQL and Other Languages: U datových jezer existuje řada způsobů dotazování na data. Na rozdíl od tradičních datových skladů, které podporují pouze SQL pro jednoduchou analytiku, vám poskytují spoustu dalších možností a jazykovou podporu pro analýzu dat. Jsou také kompatibilní s nástroji pro strojové učení, jako je Spark MLlib.
- Demokratizovat údaje: Demokratizovaný přístup k datům prostřednictvím jediného integrovaného pohledu na data v celé organizaci při využití efektivní platformy pro správu dat. Tím je zajištěna všestranná dostupnost dat.
- Lepší kvalita dat: Celkově získáte lepší kvalitu dat pomocí datových jezer prostřednictvím technologických výhod, jako je ukládání dat v nativním formátu, škálovatelnost, univerzálnost, flexibilita schémat, podpora SQL a dalších jazyků a pokročilá analýza.
Výzvy a rizika
Datová jezera nabízejí mnoho výhod. Ale ano, je s nimi spojeno také několik výzev a rizik, kterým se organizace musí pečlivě věnovat.
Oni jsou:
- Pokud nejsou správně navrženy, mohou se proměnit v datové bažiny. Někdy organizace prostě skončí v ukládání neomezených dat v těchto jezerech bez jakékoli strategie a účelu na mysli.
- Analytici, kteří chtějí data použít, občas nemají znalosti o tom, jak to udělat, protože těžba v datových jezerech je docela náročná. Po nějaké době tak ztrácejí na důležitosti a hybnosti. Organizace musí pracovat na odstranění této bariéry pro analytiky.
- Jelikož v datových jezerech máme spoustu neuspořádaných dat, není aktuální a aktuální, aby bylo možné je použít ve výrobě. Data v těchto jezerech proto zůstávají v pilotním režimu a nikdy nejsou uvedena do provozu.
- Nestrukturovaná data mohou vést k nepoužitelným datům.
- Někdy se organizace setkávají s tím, že z hlediska provedených investic významně neovlivňuje podnikání. To vyžaduje změnu myšlení. Aby k dopadům mohlo dojít, musí společnosti povzbuzovat manažery a vedoucí pracovníky, aby se rozhodovali na základě analytiky odvozené z těchto datových rezerv.
- Zabezpečení a kontrola přístupu jsou také jedním z rizik, když s nimi pracujete. Některá data, která mohou vyžadovat ochranu soukromí a předpisy, se bez dozoru umisťují do datových jezer.
Implementace
V podniku je docela rozumné provádět implementaci datového jezera agilním způsobem.
To znamená, že nejprve implementuje Data Lake MVP, aby ho uživatelé testovali s ohledem na kvalitu, snadný přístup, úložiště a analytické schopnosti, přijímali zpětné vazby a poté přidali komplexní požadavky a funkce, aby přidali hodnotu Lake.
Organizace obecně prochází níže uvedenými čtyřmi základními fázemi implementace:
(obraz zdroj )
Fáze 1:
Základní datové jezero: V této fázi se tým usadí u základní architektury, technologie (cloudové nebo starší) a bezpečnostní a řídící postupy pro datové jezero. Je schopen ukládat všechna nezpracovaná data pocházející z různých podnikových zdrojů a kombinovat interní a externí data a poskytovat tak obohacené informace.
Fáze 2:
Sandbox: Vylepšení analytických schopností: V této fázi datoví vědci přistupují k datovému zásobníku, aby provedli předběžné experimenty s využitím surových dat a navrhli analytické modely pro splnění obchodních potřeb.
Fáze 3:
převést char na int v c ++
Datové sklady a Data Lake Collaboration: V této fázi začne organizace používat datové jezero v synergii se stávajícími datovými sklady. Data s nízkou prioritou se jim zasílají, aby nedošlo k překročení limitu úložiště datových skladů.
Představuje vyhlídku na získání poznatků ze studených dat nebo na jejich dotazování za účelem zjištění informací, které nejsou indexovány konvenčními databázemi.
Fáze 4:
End to End adopce Data Lake: Toto je poslední fáze získávání a zralosti, ve které se promění v klíčový prvek datové architektury organizace a efektivně přímé vyhledávací operace. Do této doby by datové jezero nahradilo EDW a stalo by se jediným zdrojem všech podnikových dat.
Prostřednictvím datového jezera může organizace provádět následující:
- Vytvářejte komplexní řešení pro modelování a analýzu dat pro různé obchodní potřeby.
- Navrhujte interaktivní řídicí panely, které konsolidují porozumění z datového jezera plus různé aplikace a zdroje dat.
- Implementujte pokročilé analytické nebo robotické programy, protože zpracovává výpočetní operace.
V tomto bodě má také silná bezpečnostní a řídící opatření.
Prodejci Data Lake
V tomto odvětví existují různí prodejci poskytující nástroje Data Lake.
(obraz zdroj )
Podíváme-li se na velké společnosti:
- Výpočetní poskytuje inteligentní nástroj Data Lake. BDM (Big Data Management) 10.2.2 je nejnovější dostupná verze.
- Volal se prodejce hledač který také poskytuje nástroj.
- Společnost Talend který je populární pro jejich nástroje ETL, poskytuje také nástroj Data Lake.
- Pak máme open-source nástroj s názvem Kylo z Teradata společnost. Tým nazvaný „Think Big“ ve společnosti Teradata vyvinul tento nástroj.
- Společnost Data sudu Inc také poskytuje tyto služby.
- Z Microsoft , můžeš najít Azure data lake dostupné v oboru.
- Hvr software také poskytuje řešení konsolidace datových jezer.
- Údaje o pódiu, společnost Qlik poskytuje nástrojové produkty, jako jsou potrubí datových jezer, vícezónová datová jezera.
- Sněhová vločka také má produkt Data Lake.
- Zaloni je společnost Data Lake, která zpracovává obrovská data pomocí Big Data.
Jedná se tedy o oblíbené poskytovatele služeb i prodejce těchto nástrojů.
Pokud hledáte procvičování a budování svých znalostí o datových jezerech, můžete jít na Informatica nebo Kylo. Pokud hledáte cloudovou službu, můžete se rozhodnout pro Looker, Informatica a Talend. Tito tři prodejci poskytují cloudová datová jezera AWS. Můžete také získat 1měsíční bezplatnou zkušební verzi od společnosti Kylo.
Závěr
V tomto kurzu jsme podrobně probrali koncept datového jezera. Prošli jsme základní myšlenkou za datovým jezerem, jeho architekturou, klíčovými charakteristikami, výhodami, spolu s jeho příklady, případy použití atd.
Také jsme viděli, jak se datové jezero liší od datového skladu. Pokryli jsme také přední dodavatele poskytující související služby.
Šťastné čtení!!
Doporučené čtení
- Výukový program pro testování datových skladů s příklady | Průvodce testováním ETL
- Top 10 nástrojů pro testování a ověřování strukturovaných dat pro SEO
- Těžba dat: Proces, techniky a hlavní problémy v analýze dat
- Výukový program Data Mart - Typy, příklady a implementace Data Mart
- Top 10 populárních nástrojů datového skladu a testovacích technologií
- Dimenzionální datový model v datovém skladu - výuka s příklady
- 10+ nejlepších nástrojů pro sběr dat se strategiemi sběru dat
- Funkce datového fondu v produktu IBM Rational Quality Manager pro správu testovacích dat