big data tutorial beginners what is big data
Tento výukový program vysvětluje vše o základech Big Data. Výukový program obsahuje výhody, výzvy, technologie a nástroje spolu s aplikacemi Big Data:
V tomto digitálním světě s technologickým pokrokem si denně vyměňujeme velké množství dat jako v Terabajty nebo petabajt .
Pokud si toto množství dat denně vyměňujeme, musíme je také udržovat a někde je ukládat. Řešení pro zpracování velkých objemů dat s vysokou rychlostí a různou rozmanitostí je Velká data.
Dokáže zpracovat složitá data pocházející z více zdrojů, jako jsou různé databáze, webové stránky, widgety atd. Může také spojovat a porovnávat data pocházející z různých zdrojů. Opravdu umožňuje rychlejší přístup k datům ( Například, sociální média).
Seznam výukových programů v této sérii velkých dat
Výukový program č. 1: Co jsou to velká data? (Tento návod)
Výukový program č. 2: Co je Hadoop? Výukový program Apache Hadoop pro začátečníky
Výukový program č. 3: Hadoop HDFS - distribuovaný systém souborů Hadoop
Výukový program č. 4: Průvodce příkazy architektury Hadoop a HDFS
Výukový program č. 5: Výukový program Hadoop MapReduce s příklady | Co je MapReduce?
Výukový program č. 6: Výukový program pro příze Apache Hadoop pro začátečníky Co je YARN?
Výukový program č. 7: Komplexní výukový program pro testování Hadoop | Průvodce testováním velkých dat
Co se naučíte:
Co jsou to velká data?
Slovo Obrovský nestačí k vysvětlení BigData, určité vlastnosti klasifikují data do BigData.
Máme tři hlavní charakteristiky BigData, a pokud některá data tyto vlastnosti splňují, bude s nimi zacházeno jako s BigData. Já t je kombinace tří V uvedených níže:
- Hlasitost
- Rychlost
- Odrůda
Hlasitost : Data by měla být obrovského objemu. Big Data má řešení pro udržení velkého množství dat, která jsou v terabajtech nebo petabajtech. Na BigData můžeme snadno a efektivně provádět operace CRUD (vytváření, čtení, aktualizace a mazání).
Rychlost : Je zodpovědný za rychlejší přístup k datům. Například, sociální média dnes potřebují rychlou výměnu dat za zlomek času a BigData je tím nejlepším řešením. Rychlost je tedy další charakteristikou a je to rychlost zpracování dat.
Odrůda : V sociálních médiích máme co do činění s nestrukturovanými daty, jako jsou zvukové nebo obrazové záznamy, obrázky atd. Strukturovaná a polostrukturovaná data potřebují také různá odvětví, jako je bankovní doména. BigData je řešení pro udržování obou typů dat na jednom místě.
Odrůda znamená různé typy dat, jako jsou strukturovaná / nestrukturovaná data pocházející z více zdrojů.
Strukturovaná data : Data, která mají správnou strukturu, nebo data, která lze snadno uložit v tabulkové formě v jakýchkoli relačních databázích, jako je Oracle, SQL Server nebo MySQL, se nazývají strukturovaná data. Můžeme to snadno a efektivně zpracovat nebo analyzovat.
Příkladem strukturovaných dat jsou data uložená v relační databázi, kterou lze spravovat pomocí jazyka SQL (Structured Query Language). Například, Údaje o zaměstnancích (jméno, ID, označení a plat) lze uložit v tabulkovém formátu.
V tradiční databázi můžeme provádět operace nebo zpracovávat nestrukturovaná nebo polostrukturovaná data až po naformátování nebo vložení do relační databáze. Příklady strukturovaných dat jsou ERP, CRM atd.
Polostrukturovaná data: Polostrukturovaná data jsou data, která nejsou plně naformátována. Není uložen v datových tabulkách ani v žádné databázi. Ale přesto to můžeme snadno připravit a zpracovat, protože tato data obsahují tagy nebo hodnoty oddělené čárkami atd. Příklad polostrukturovaných dat jsou soubory XML, soubory CSV atd.
Nestrukturovaná data: Nestrukturovaná data jsou data, která nemají žádnou strukturu. Může být v jakékoli formě, neexistuje žádný předdefinovaný datový model. Nemůžeme to uložit do tradičních databází. Hledání a zpracování je složité.
Objem nestrukturovaných dat je také velmi vysoký. Příklad nestrukturovaných dat je tělo e-mailu, zvuk, video, obrázky, dosažené dokumenty atd.
Výzvy tradičních databází
- Tradiční databáze nepodporuje různé údaje, tj. Není schopna zpracovávat nestrukturovaná a polostrukturovaná data.
- Tradiční databáze je při zpracování velkého množství dat pomalá.
- V tradičních databázích je zpracování nebo analýza velkého množství dat velmi obtížné.
- Tradiční databáze je schopna ukládat data v terabajtech nebo petabajtech.
- Tradiční databáze nedokáže zpracovat historická data a zprávy.
- Po určité době je nutné vyčistit data databáze.
- Náklady na údržbu velkého množství dat jsou u tradiční databáze velmi vysoké.
- Přesnost dat je v tradiční databázi nižší, protože v ní nejsou zachována úplná historická data.
Velká dataVýhody oproti tradiční databázi
- Big Data je zodpovědná za zpracování, správu a zpracování různých typů dat, jako jsou strukturovaná, polostrukturovaná a nestrukturovaná.
- Je to nákladově efektivní z hlediska údržby velkého množství dat. Funguje na distribuovaném databázovém systému.
- Můžeme ukládat velké množství dat po dlouhou dobu pomocí technik BigData. Je tedy snadné zpracovávat historická data a generovat přesné zprávy.
- Rychlost zpracování dat je velmi rychlá, a proto sociální média používají techniky Big Data.
- Přesnost dat je velkou výhodou Big Data.
- Umožňuje uživatelům přijímat efektivní rozhodnutí pro jejich podnikání na základě aktuálních a historických dat.
- Zpracování chyb, řízení verzí a zkušenosti zákazníků jsou v BigData velmi účinné.
Doporučené čtení => Big Data vs Big Data Analytics vs Data Science
Výzvy a rizika v BigData
Výzvy:
- Jednou z hlavních výzev v Big Data je správa velkého množství dat. V dnešní době přicházejí data do systému z různých zdrojů s rozmanitostí. Pro společnosti je tedy velkou výzvou, aby to správně řídily. Například, ke generování zprávy, která obsahuje posledních 20 let dat, je nutné ukládat a udržovat posledních 20 let dat systému. Pro zajištění přesné zprávy je nutné do systému vložit pouze relevantní data. Neměl by obsahovat irelevantní nebo zbytečné údaje, jinak by zachování tohoto množství dat bylo pro společnosti velkou výzvou.
- Další výzvou této technologie je synchronizace různých typů dat. Jak všichni víme, Big Data podporuje strukturovaná, nestrukturovaná a polostrukturovaná data pocházející z různých zdrojů, synchronizovat je a získat konzistenci dat je velmi obtížné.
- Další výzvou, které společnosti čelí, je propast odborníků, kteří mohou pomoci a implementovat problémy, jimž v systému čelí. V této oblasti je velká mezera v talentu.
- Řešení aspektu dodržování předpisů je drahé.
- Sběr, agregace, ukládání, analýza a hlášení dat BigData má obrovské náklady. Organizace by měla být schopna spravovat všechny tyto náklady.
Rizika:
- Dokáže zpracovat řadu dat, ale pokud společnosti nemohou správně porozumět požadavkům a řídit zdroj dat, poskytne chybné výsledky. Ve výsledku bude zapotřebí hodně času a peněz na prošetření a opravu výsledků.
- Zabezpečení dat je dalším rizikem BigData. Při velkém objemu dat existuje větší šance, že je někdo ukradne. Datoví hackeři mohou ukrást a prodat důležité informace (včetně historických dat) o společnosti.
- Dalším rizikem pro BigData je také ochrana osobních údajů. Pokud chceme zabezpečit osobní a citlivé údaje před hackery, měly by být chráněny a musí projít všemi zásadami ochrany osobních údajů.
Technologie velkých dat
Níže jsou uvedeny technologie, které lze použít ke správě velkých dat:
- Apache Hadoop
- Microsoft HDInsight
- Žádné SQL
- Úl
- Sqoop
- BigData v aplikaci Excel
Podrobný popis těchto technologií pojednáme v našich nadcházejících cvičeních.
Nástroje k používání konceptů velkých dat
Níže jsou uvedeny nástroje open-source, které mohou pomoci používat koncepty Big Data:
# 1) Apache Hadoop
# 2) Lumify
# 3) Apache Storm
# 4) Apache Samoa
# 5) Elasticsearch
# 6) MongoDB
# 7) Systém HPCC BigData
levé spojení vs levé vnější spojení
Aplikace velkých dat
Následují domény, kde se používá:
- Bankovní
- Média a zábava
- Poskytovatelé zdravotní péče
- Pojištění
- Vzdělání
- Maloobchodní
- Výrobní
- Vláda
BigData a datový sklad
Data Warehouse je základní koncept, kterému musíme porozumět, než budeme diskutovat o testování Hadoop nebo BigData.
Pojďme pochopit Data Warehouse z příkladu v reálném čase. Například , existuje společnost, která založila své pobočky ve třech různých zemích, předpokládejme pobočku v Indii, Austrálii a Japonsku.
V každé pobočce jsou všechna data zákazníka uložena v místní databázi. Tyto lokální databáze mohou být běžné klasické RDBMS jako Oracle nebo MySQL nebo SQL Server atd. A všechna data o zákaznících budou v nich denně ukládána.
Nyní chce organizace každé čtvrtletně, pololetně nebo ročně analyzovat tato data pro rozvoj podnikání. Aby organizace učinila totéž, shromáždí všechna tato data z více zdrojů a poté je shromáždí na jednom místě a toto místo se nazývá 'Datový sklad'.
Data Warehouse je druh databáze, která obsahuje všechna data získaná z více zdrojů nebo z více typů databází prostřednictvím „ETL“ (který je JE extrakt, T ransform a L oad) proces. Jakmile jsou data v datovém skladu připravena, můžeme je použít pro analytické účely.
Pro analýzu tedy můžeme generovat zprávy z dat dostupných v datovém skladu. Pomocí Business Intelligence Tools lze generovat více grafů a sestav.
Data Warehouse požadujeme pro analytické účely, abychom mohli rozvíjet podnikání a přijímat příslušná rozhodnutí pro organizace.
V tomto procesu se dějí tři věci, první je, že jsme vytáhli data z více zdrojů a umístili je na jedno místo, které je Data Warehouse.
Zde používáme proces „ETL“, takže při načítání dat z více zdrojů na jedno místo je použijeme v kořenech Transformace a pak zde můžeme použít různé druhy nástrojů ETL.
Jakmile jsou data připravena do Data Warehouse, můžeme generovat různé sestavy pro analýzu obchodních dat pomocí nástrojů Business Intelligence (BI) nebo jim také říkáme Reporting Tools. Nástroje jako Tableau nebo Cognos lze použít pro generování sestav a DashBoards pro analýzu dat pro podnikání.
OLTP a OLAP
Pojďme pochopit, co je OLTP a co je OLAP?
Volají se databáze, které se udržují lokálně a používají se pro transakční účely OLTP, tj. Online zpracování transakcí. Budou zde uloženy každodenní transakce, které budou okamžitě aktualizovány, a proto jsme jim říkali systém OLTP.
Zde používáme tradiční databáze, máme více tabulek a existují vztahy, takže je vše systematicky plánováno podle databáze. Nepoužíváme tato data pro analytické účely. Zde můžeme použít klasické databáze RDMBS jako Oracle, MySQL, SQL Server atd.
Když přijdeme k části Data Warehouse, použijeme Teradata nebo Hadoop Systems, které jsou také druhem databáze, ale data v DataWarehouse se obvykle používají pro analytické účely a nazývají se OLAP nebo Online analytické zpracování.
Zde lze údaje aktualizovat čtvrtletně, pololetně nebo ročně. Někdy jsou data aktualizována také „Offerly“, kde Offerly znamená, že data jsou aktualizována a načtena pro analýzu podle požadavků zákazníka.
Data pro analýzu se také neaktualizují každý den, protože data získáme z více zdrojů podle plánu a můžeme provést tento úkol ETL. Takto funguje online analytický systém zpracování.
I zde mohou nástroje BI nebo nástroje pro vytváření sestav generovat zprávy i řídicí panely a na základě toho budou obchodníci činit rozhodnutí o zlepšení svého podnikání.
Odkud BigData přichází do obrazu?
BigData jsou data, která přesahují úložnou a zpracovatelskou kapacitu konvenčních databází a jsou ve strukturovaném a nestrukturovaném formátu, takže je nelze zpracovat místními systémy RDBMS.
Tento druh dat bude generován v TeraBytes (TB) nebo PetaBytes (PB) nebo dále a v dnešní době se rychle zvyšuje. Existuje několik zdrojů pro získání tohoto druhu dat, jako je Facebook, WhatsApp (které souvisejí se sociálními sítěmi); Amazon, Flipkart související s elektronickým obchodem; Gmail, Yahoo, Rediff související s e-maily a Google a dalšími vyhledávači. Bigdata také získáváme z mobilních telefonů, jako jsou data SMS, nahrávání hovorů, protokoly hovorů atd.
Závěr
Big data je řešení pro efektivní a bezpečné zacházení s velkým množstvím dat. Je odpovědné také udržovat historická data. Existuje mnoho výhod této technologie, a proto chce každá společnost přejít na Big data
Autor: Vaishali Tarey, technický vedoucí @ Syntel
Doporučené čtení
- Výukový program Data Mart - Typy, příklady a implementace Data Mart
- Top 10 databázových návrhových nástrojů pro vytváření komplexních datových modelů
- 20+ výuka MongoDB pro začátečníky: bezplatný kurz MongoDB
- Co je datové jezero | Data Warehouse vs Data Lake
- Top 10 nástrojů pro testování a ověřování strukturovaných dat pro SEO
- Dimenzionální datový model v datovém skladu - výuka s příklady
- Těžba dat: Proces, techniky a hlavní problémy v analýze dat
- Jak provádět testování řízené daty v SoapUI Pro - SoapUI Tutorial # 14