Co je Hadoop? Výukový program Apache Hadoop pro začátečníky

what is hadoop apache hadoop tutorial

Vyzkoušejte Náš Nástroj Pro Odstranění Problémů

Vyberte Operační Systém Vyberte Program Projekce (Volitelně)

Popište Svůj Problém

Tento výukový program Apache Hadoop pro začátečníky podrobně vysvětluje vše o Big Data Hadoop, jeho funkcích, rámci a architektuře:

jak provést útok ddos na webu

V předchozím tutoriálu jsme podrobně diskutovali o Big Data. Otázkou nyní je, jak můžeme zpracovat a zpracovat tak velký objem dat se spolehlivými a přesnými výsledky.

Ve skutečnosti existuje skvělé řešení poskytované Apache a poháněné Java, tj. Hadoop Framework .

=> Přečtěte si sérii tréninků Easy BigData.

Výukový program Apache Hadoop

Co se naučíte:

Co je Hadoop?
Závěr
- Doporučené čtení

Co je Hadoop?

Apache Hadoop je open-source framework pro správu všech typů dat (strukturovaný, nestrukturovaný a polostrukturovaný).

Jak všichni víme, pokud chceme zpracovávat, ukládat a spravovat naše data, pak je RDBMS tím nejlepším řešením. Data by však měla být ve strukturovaném formátu, aby je bylo možné zpracovat pomocí RDBMS. Pokud se velikost dat zvýší, pak RDBMS není schopen je zpracovat a musíme pravidelně provádět čištění databáze.

To může způsobit ztrátu historických dat a nemůže generovat přesné a spolehlivé výsledky v některých průmyslových odvětvích, jako je předpověď počasí, bankovnictví, pojišťovnictví, prodej atd. Další problém s RDBMS je, že pokud hlavní server selže, můžeme ztratit naše důležité data a hodně trpí.

V tomto kurzu uvidíme, jak můžeme překonat tyto problémy s Apache Hadoop.

Hadoop je distribuovaný souborový systém a může ukládat velké objemy dat (data v petabajtech a terabajtech). Rychlost zpracování dat je také velmi rychlá a poskytuje spolehlivé výsledky, protože má velmi vysoký systém odolnosti proti chybám.

Hadoop je open-source programovací rámec založený na prostředí Java, který podporuje ukládání a zpracování velkých datových sad v prostředí distribuovaných výpočtů.

Hadoop je založen na konceptu clusteru využívajícího komoditní hardware. Nevyžaduje žádnou složitou konfiguraci a můžeme vytvořit prostředí Hadoop s levnějším, jednoduchým a lehkým konfiguračním hardwarem.

Koncept klastru v jednoduchých slovech je Data, která jsou uložena ve formátu replikace na více počítačích, takže když dojde k problému nebo katastrofě na jednom z míst, kde se data nacházejí, musí existovat duplikát těchto dat bezpečně k dispozici na jiném místě .

Hadoop Vs RDMBS

Níže jsou uvedeny některé body, které popisují výhody Hadoop oproti RDBMS.

Funkce	Hadoop	RDBMS
Úložný prostor	Velmi vysoká kapacita úložiště.	Bigdata nelze uložit.
Architektura	Hadoop je založen na HDFS, MapReduce a YARN.	RDBMS je založen na vlastnostech ACID.
Hlasitost	Zvládne velký objem dat.	RDBMS nedokáže zpracovat velký objem dat.
Rozmanitost / typy dat	Dokáže zpracovat strukturovaná, polostrukturovaná a nestrukturovaná data, jako jsou videa, obrázky, soubory CSV, XML atd.	Zpracovávejte pouze strukturovaná data.
Rychlost	Rychlé zpracování velkého množství dat.	Velmi pomalé při zpracování velkého množství dat.
Propustnost	Vysoká propustnost.	Nízká propustnost.
Odolnost proti chybám	Velmi dobře	Není schopen obnovit ztracená data, pokud dojde k výpadku hlavního serveru.
Spolehlivý	Velmi spolehlivé a generují přesné historické a aktuální zprávy.	Není spolehlivé z hlediska Bigdata.

Funkce Hadoop

Nyní známe přesnou definici Hadoop. Pojďme o krok vpřed a seznámíme se s terminologiemi, které používáme v Hadoopu, naučíme se jeho architekturu a uvidíme, jak přesně to funguje na Bigdata.

Rámec Hadoop je založen na následujících konceptech nebo modulech:

Funkce

Hadoop YARN
Hadoop Common
Hadoop HDFS ( H čumák D přiděleno F s S ystem)
Mapa Hadoop Zmenšit

# 1) Hadoop PŘÍZE: YARN znamená „ Y a NA další R zdroj N egotiator “, který se používá ke správě klastrové technologie cloudu. Používá se pro plánování úloh.

# 2) Hadoop Common: Toto jsou podrobné knihovny nebo nástroje používané ke komunikaci s dalšími funkcemi Hadoop, jako jsou YARN, MapReduce a HDFS.

# 3) Hadoop HDFS: Systém distribuovaných souborů se v Hadoopu používá k ukládání a zpracování velkého množství dat. Také se používá pro přístup k datům z klastru.

# 4) Hadoop MapReduce: MapReduce je hlavní funkce Hadoop, která je zodpovědná za zpracování dat v klastru. Používá se pro plánování úloh a sledování zpracování dat.

Zde jsme právě zahrnuli definici těchto funkcí, ale v našich nadcházejících cvičeních uvidíme podrobný popis všech těchto funkcí.

Architektura Hadoop

Naučme se architekturu rámce a podívejme se, jaké komponenty se v něm používají. Tento rámec sleduje architekturu master-slave v klastru.

Následují komponenty Hadoop:

HDFS
MapReduce
PŘÍZE

Hadoop architektura

Jedná se o tři důležité součásti architektury Hadoop. Měli bychom také porozumět některým terminologiím nebo konceptům architektury a zjistit, jak fungují.

Jméno Uzel
Datový uzel
Uzel sekundárního jména
Bloky

# 1) Název Uzel

Name Node je hlavní uzel v HDFS. Obsahuje metadata HDFS, jako jsou informace o souborech, adresářová struktura, informace o blocích a všechny informace o datovém uzlu atd. Název uzlu odpovídá pouze za přístup k datům nebo souborům od klienta. Sleduje všechny transakce nebo změny provedené v souborech.

Funguje to hlavně na dva soubory, tj. FsImage a UpravitLogy . Název uzlu má JobTracker, který obsahuje všechny podrobnosti datového uzlu, například který datový uzel má jaký úkol, kolik bloků je s každým datovým uzlem, tlukot každého datového uzlu, podrobnosti plánování úloh v klastru atd.

Stručně řečeno, můžeme říci, že JobTracker obsahuje TaskTracker každého datového uzlu.

# 2) Datový uzel

Datový uzel je uzel Slave v HDFS. Datový uzel odpovídá za skutečné ukládání a zpracování dat. Jeho hlavním úkolem je rozdělit úlohu na tři bloky a uložit ji do různých datových uzlů. Poté začne zpracovávat data.

Také má TaskTracker, který má úplné informace o každém bloku a který blok je zodpovědný za který úkol, které bloky dokončily úkol atd. A po zpracování dat odešle informace do Name Node. Pokaždé, když se datový uzel spustí, odešle všechny informace znovu do uzlu jména.

# 3) Sekundární uzel jména

Sekundární uzel jména se používá v případě tolerance chyb. Existují dva scénáře, kdy je uzel názvu nefunkční a úplná struktura Hadoop selže, protože uzel jména je jediným bodem selhání.

(i) Pokud se uzel názvu restartuje kvůli jakémukoli problému, než bylo potřeba znovu přijít, protože má obrovské množství dat, pak obnovení trvá nějakou dobu.

(ii) V případě havárie Name Node dojde ke ztrátě všech dat HDFS a nebude je možné znovu obnovit, protože Name Node je jediným bodem selhání. K překonání těchto problémů je tedy sekundární uzel názvu. Obsahuje také obrázek oboru názvů a protokoly úprav stejné jako uzel názvu.

Po určité době zkopíruje obrázek oboru názvů a aktualizuje protokoly úprav z uzlu názvu. V případě selhání uzlu jména tedy sekundární uzel jména přijde na obrázek a chová se jako primární uzel jména. Díky tomuto procesu zabraňuje úplnému selhání.

# 4) Bloky

Bloky jsou nejmenší jednotkou v HDFS. Hadoop dokáže zpracovat obrovské množství souborů, které rozděluje na malé bloky. Můžeme říci, že bloky nejsou nic jiného než data obrovského souboru. Velikost každého bloku je 128 MB. Tyto bloky se ukládají v datových uzlech a zpracovávají data.

Komponenty používané v Hadoopu

Pojďme se nyní naučit architekturu Hadoopu, abychom porozuměli jeho fungování.

Distribuovaný systém souborů Hadoop (HDFS) je systém souborů, který se používá v clusteru Hadoop. K ukládání dat Hadoop v klastru se používá hlavně HDFS. HDFS obecně pracuje na sekvenčním zpracování dat. Jak již víme, je založen na architektuře Master-Slave.

Všechna metadata klastru jsou uložena na uzlu názvu v JobTrackeru a skutečná data jsou uložena v datovém uzlu HDFS v TaskTrackeru.

MapReduce odpovídá za zpracování údajů. Kdykoli do clusteru přijde jakýkoli soubor ke zpracování, první datový uzel jej rozdělí na bloky a každý blok obsahuje 64 MB dat a může uložit 128 MB. Pak se každý blok dvakrát replikuje a uloží do různých datových uzlů kdekoli v klastru.

Všechny tyto informace budou odeslány do uzlu jména a uzel jména bude tyto informace ukládat ve formě metadat. Poté skutečné zpracování dat zahájí datový uzel a každé tři sekundy odešle prezenční signál do uzlu jména, aby uzel jména měl informace, na kterých tento datový uzel pracuje.

Pokud kdokoli z datového uzlu selže při odesílání prezenčního signálu, pak uzel jména znovu vytvoří repliku tohoto bloku na jiném datovém uzlu a zahájí zpracování.

Všechny tyto informace nebo snímky budou uloženy ve FsImage a pokud dojde k jakékoli transakci, upravte protokol, sloučte nové informace a vždy si ponechejte novou kopii protokolů.

Bude proveden blok, který jako první dokončí úkol, a datový uzel odešle informace do uzlu jména a uzel jména provede příslušnou akci.

V celém tomto procesu bude YARN podporovat a poskytovat systému požadované zdroje, aby to neovlivnilo zpracování dat a rychlost. Po zpracování dat budou výsledky uloženy v HDFS pro další analýzu.

Závěr

V tomto kurzu jsme zjistili, co je Hadoop, rozdíly mezi RDBMS vs Hadoop, výhody, komponenty a architektura Hadoop.

Tento rámec je zodpovědný za zpracování velkých dat a jejich analýzu. Viděli jsme, že MapReduce, YARN a HDFS pracují v klastru.

Poznámka: Níže jsou uvedeny podrobnosti konfigurace uzlu názvu a datového uzlu. Sekundární uzel jména bude mít stejnou konfiguraci jako uzel jména.

Konfigurace uzlu názvu:

Procesory: 2 čtyřjádrové procesory s frekvencí 2 GHz
RAM: 128 GB
Disk: 6 x 1 TB SATA
Síť: 10 Gigabit Ethernet

Konfigurace datového uzlu:

Procesory: 2 čtyřjádrové procesory s frekvencí 2 GHz
RAM: 64 GB
Disk: 12-24 x 1 TB SATA
Síť: 10 Gigabit Ethernet

=> Prohlédněte si průvodce Big Data Beginners Guide zde.

Co je Hadoop? Výukový program Apache Hadoop pro začátečníky

Co je Hadoop?

Hadoop Vs RDMBS

Funkce Hadoop

Architektura Hadoop

# 1) Název Uzel

# 2) Datový uzel

# 3) Sekundární uzel jména

# 4) Bloky

Závěr

Doporučené čtení

Zajímavé Články

Redakce Choice

Fanoušci EverQuest nejsou s Landmark příliš nadšeni

Praktické testování softwaru - nová e-kniha ZDARMA (Stáhnout)

Jak zaškrtnout políčko na selenu s příklady

Downwell je skvělý na PlayStation, s jednou hlavní výzvou

World of Warcraft producent: 'Byli jsme docela spokojeni s tím, jak hráči reagovali na Demon Hunters'

Microsoft údajně umožní Sony umístit Call of Duty na PS Plus

Alan Wake 2 bude mít výkonový režim na PS5 a Xbox Series X

Kde najít a chytit Nymble v Pokémon Scarlet & Violet

Vývojáři z poslední epochy nabízejí dárek, protože servery jsou při spuštění zaplaveny hráči

Destruktoidní recenze: NHL 09

Sony říká, že PS5 vstupuje do „poslední poloviny“ svého životního cyklu

Marvel’s Avengers kompletně předělávají válečný stůl, ale je příliš pozdě?