what is hadoop apache hadoop tutorial
Tento výukový program Apache Hadoop pro začátečníky podrobně vysvětluje vše o Big Data Hadoop, jeho funkcích, rámci a architektuře:
jak provést útok ddos na webu
V předchozím tutoriálu jsme podrobně diskutovali o Big Data. Otázkou nyní je, jak můžeme zpracovat a zpracovat tak velký objem dat se spolehlivými a přesnými výsledky.
Ve skutečnosti existuje skvělé řešení poskytované Apache a poháněné Java, tj. Hadoop Framework .
=> Přečtěte si sérii tréninků Easy BigData.
Co se naučíte:
Co je Hadoop?
Apache Hadoop je open-source framework pro správu všech typů dat (strukturovaný, nestrukturovaný a polostrukturovaný).
Jak všichni víme, pokud chceme zpracovávat, ukládat a spravovat naše data, pak je RDBMS tím nejlepším řešením. Data by však měla být ve strukturovaném formátu, aby je bylo možné zpracovat pomocí RDBMS. Pokud se velikost dat zvýší, pak RDBMS není schopen je zpracovat a musíme pravidelně provádět čištění databáze.
To může způsobit ztrátu historických dat a nemůže generovat přesné a spolehlivé výsledky v některých průmyslových odvětvích, jako je předpověď počasí, bankovnictví, pojišťovnictví, prodej atd. Další problém s RDBMS je, že pokud hlavní server selže, můžeme ztratit naše důležité data a hodně trpí.
V tomto kurzu uvidíme, jak můžeme překonat tyto problémy s Apache Hadoop.
Hadoop je distribuovaný souborový systém a může ukládat velké objemy dat (data v petabajtech a terabajtech). Rychlost zpracování dat je také velmi rychlá a poskytuje spolehlivé výsledky, protože má velmi vysoký systém odolnosti proti chybám.
Hadoop je open-source programovací rámec založený na prostředí Java, který podporuje ukládání a zpracování velkých datových sad v prostředí distribuovaných výpočtů.
Hadoop je založen na konceptu clusteru využívajícího komoditní hardware. Nevyžaduje žádnou složitou konfiguraci a můžeme vytvořit prostředí Hadoop s levnějším, jednoduchým a lehkým konfiguračním hardwarem.
Koncept klastru v jednoduchých slovech je Data, která jsou uložena ve formátu replikace na více počítačích, takže když dojde k problému nebo katastrofě na jednom z míst, kde se data nacházejí, musí existovat duplikát těchto dat bezpečně k dispozici na jiném místě .
Hadoop Vs RDMBS
Níže jsou uvedeny některé body, které popisují výhody Hadoop oproti RDBMS.
Funkce | Hadoop | RDBMS |
---|---|---|
Úložný prostor | Velmi vysoká kapacita úložiště. | Bigdata nelze uložit. |
Architektura | Hadoop je založen na HDFS, MapReduce a YARN. | RDBMS je založen na vlastnostech ACID. |
Hlasitost | Zvládne velký objem dat. | RDBMS nedokáže zpracovat velký objem dat. |
Rozmanitost / typy dat | Dokáže zpracovat strukturovaná, polostrukturovaná a nestrukturovaná data, jako jsou videa, obrázky, soubory CSV, XML atd. | Zpracovávejte pouze strukturovaná data. |
Rychlost | Rychlé zpracování velkého množství dat. | Velmi pomalé při zpracování velkého množství dat. |
Propustnost | Vysoká propustnost. | Nízká propustnost. |
Odolnost proti chybám | Velmi dobře | Není schopen obnovit ztracená data, pokud dojde k výpadku hlavního serveru. |
Spolehlivý | Velmi spolehlivé a generují přesné historické a aktuální zprávy. | Není spolehlivé z hlediska Bigdata. |
Funkce Hadoop
Nyní známe přesnou definici Hadoop. Pojďme o krok vpřed a seznámíme se s terminologiemi, které používáme v Hadoopu, naučíme se jeho architekturu a uvidíme, jak přesně to funguje na Bigdata.
Rámec Hadoop je založen na následujících konceptech nebo modulech:
- Hadoop YARN
- Hadoop Common
- Hadoop HDFS ( H čumák D přiděleno F s S ystem)
- Mapa Hadoop Zmenšit
# 1) Hadoop PŘÍZE: YARN znamená „ Y a NA další R zdroj N egotiator “, který se používá ke správě klastrové technologie cloudu. Používá se pro plánování úloh.
# 2) Hadoop Common: Toto jsou podrobné knihovny nebo nástroje používané ke komunikaci s dalšími funkcemi Hadoop, jako jsou YARN, MapReduce a HDFS.
# 3) Hadoop HDFS: Systém distribuovaných souborů se v Hadoopu používá k ukládání a zpracování velkého množství dat. Také se používá pro přístup k datům z klastru.
# 4) Hadoop MapReduce: MapReduce je hlavní funkce Hadoop, která je zodpovědná za zpracování dat v klastru. Používá se pro plánování úloh a sledování zpracování dat.
Zde jsme právě zahrnuli definici těchto funkcí, ale v našich nadcházejících cvičeních uvidíme podrobný popis všech těchto funkcí.
Architektura Hadoop
Naučme se architekturu rámce a podívejme se, jaké komponenty se v něm používají. Tento rámec sleduje architekturu master-slave v klastru.
Následují komponenty Hadoop:
- HDFS
- MapReduce
- PŘÍZE
Jedná se o tři důležité součásti architektury Hadoop. Měli bychom také porozumět některým terminologiím nebo konceptům architektury a zjistit, jak fungují.
- Jméno Uzel
- Datový uzel
- Uzel sekundárního jména
- Bloky
# 1) Název Uzel
Name Node je hlavní uzel v HDFS. Obsahuje metadata HDFS, jako jsou informace o souborech, adresářová struktura, informace o blocích a všechny informace o datovém uzlu atd. Název uzlu odpovídá pouze za přístup k datům nebo souborům od klienta. Sleduje všechny transakce nebo změny provedené v souborech.
Funguje to hlavně na dva soubory, tj. FsImage a UpravitLogy . Název uzlu má JobTracker, který obsahuje všechny podrobnosti datového uzlu, například který datový uzel má jaký úkol, kolik bloků je s každým datovým uzlem, tlukot každého datového uzlu, podrobnosti plánování úloh v klastru atd.
Stručně řečeno, můžeme říci, že JobTracker obsahuje TaskTracker každého datového uzlu.
# 2) Datový uzel
Datový uzel je uzel Slave v HDFS. Datový uzel odpovídá za skutečné ukládání a zpracování dat. Jeho hlavním úkolem je rozdělit úlohu na tři bloky a uložit ji do různých datových uzlů. Poté začne zpracovávat data.
Také má TaskTracker, který má úplné informace o každém bloku a který blok je zodpovědný za který úkol, které bloky dokončily úkol atd. A po zpracování dat odešle informace do Name Node. Pokaždé, když se datový uzel spustí, odešle všechny informace znovu do uzlu jména.
# 3) Sekundární uzel jména
Sekundární uzel jména se používá v případě tolerance chyb. Existují dva scénáře, kdy je uzel názvu nefunkční a úplná struktura Hadoop selže, protože uzel jména je jediným bodem selhání.
(i) Pokud se uzel názvu restartuje kvůli jakémukoli problému, než bylo potřeba znovu přijít, protože má obrovské množství dat, pak obnovení trvá nějakou dobu.
(ii) V případě havárie Name Node dojde ke ztrátě všech dat HDFS a nebude je možné znovu obnovit, protože Name Node je jediným bodem selhání. K překonání těchto problémů je tedy sekundární uzel názvu. Obsahuje také obrázek oboru názvů a protokoly úprav stejné jako uzel názvu.
Po určité době zkopíruje obrázek oboru názvů a aktualizuje protokoly úprav z uzlu názvu. V případě selhání uzlu jména tedy sekundární uzel jména přijde na obrázek a chová se jako primární uzel jména. Díky tomuto procesu zabraňuje úplnému selhání.
# 4) Bloky
Bloky jsou nejmenší jednotkou v HDFS. Hadoop dokáže zpracovat obrovské množství souborů, které rozděluje na malé bloky. Můžeme říci, že bloky nejsou nic jiného než data obrovského souboru. Velikost každého bloku je 128 MB. Tyto bloky se ukládají v datových uzlech a zpracovávají data.
Pojďme se nyní naučit architekturu Hadoopu, abychom porozuměli jeho fungování.
Distribuovaný systém souborů Hadoop (HDFS) je systém souborů, který se používá v clusteru Hadoop. K ukládání dat Hadoop v klastru se používá hlavně HDFS. HDFS obecně pracuje na sekvenčním zpracování dat. Jak již víme, je založen na architektuře Master-Slave.
Všechna metadata klastru jsou uložena na uzlu názvu v JobTrackeru a skutečná data jsou uložena v datovém uzlu HDFS v TaskTrackeru.
MapReduce odpovídá za zpracování údajů. Kdykoli do clusteru přijde jakýkoli soubor ke zpracování, první datový uzel jej rozdělí na bloky a každý blok obsahuje 64 MB dat a může uložit 128 MB. Pak se každý blok dvakrát replikuje a uloží do různých datových uzlů kdekoli v klastru.
Všechny tyto informace budou odeslány do uzlu jména a uzel jména bude tyto informace ukládat ve formě metadat. Poté skutečné zpracování dat zahájí datový uzel a každé tři sekundy odešle prezenční signál do uzlu jména, aby uzel jména měl informace, na kterých tento datový uzel pracuje.
Pokud kdokoli z datového uzlu selže při odesílání prezenčního signálu, pak uzel jména znovu vytvoří repliku tohoto bloku na jiném datovém uzlu a zahájí zpracování.
Všechny tyto informace nebo snímky budou uloženy ve FsImage a pokud dojde k jakékoli transakci, upravte protokol, sloučte nové informace a vždy si ponechejte novou kopii protokolů.
Bude proveden blok, který jako první dokončí úkol, a datový uzel odešle informace do uzlu jména a uzel jména provede příslušnou akci.
V celém tomto procesu bude YARN podporovat a poskytovat systému požadované zdroje, aby to neovlivnilo zpracování dat a rychlost. Po zpracování dat budou výsledky uloženy v HDFS pro další analýzu.
Závěr
V tomto kurzu jsme zjistili, co je Hadoop, rozdíly mezi RDBMS vs Hadoop, výhody, komponenty a architektura Hadoop.
Tento rámec je zodpovědný za zpracování velkých dat a jejich analýzu. Viděli jsme, že MapReduce, YARN a HDFS pracují v klastru.
Poznámka: Níže jsou uvedeny podrobnosti konfigurace uzlu názvu a datového uzlu. Sekundární uzel jména bude mít stejnou konfiguraci jako uzel jména.
Konfigurace uzlu názvu:
Procesory: 2 čtyřjádrové procesory s frekvencí 2 GHz
RAM: 128 GB
Disk: 6 x 1 TB SATA
Síť: 10 Gigabit Ethernet
Konfigurace datového uzlu:
Procesory: 2 čtyřjádrové procesory s frekvencí 2 GHz
RAM: 64 GB
Disk: 12-24 x 1 TB SATA
Síť: 10 Gigabit Ethernet
=> Prohlédněte si průvodce Big Data Beginners Guide zde.
Doporučené čtení
- Výukový program pro velká data pro začátečníky Co jsou to velká data?
- 20+ výuka MongoDB pro začátečníky: bezplatný kurz MongoDB
- Jak nastavit rámec testování Node.js: Výukový program Node.js
- Výukový program Data Mart - Typy, příklady a implementace Data Mart
- Výukové programy pro zatmění do hloubky pro začátečníky
- Výukový program pro Python pro začátečníky (praktické školení v Pythonu ZDARMA)
- Rámec řízený daty v selenu WebDriver pomocí POI Apache
- Výukový program LoadRunner pro začátečníky (bezplatný 8denní hloubkový kurz)