apache hadoop yarn tutorial
Hadoop Components - MapReduce s Hadoop YARN:
V našem předchozím tutoriálu o komponentě Hadoop jsme se dozvěděli o Hadoop MapReduce a jeho mechanismu zpracování jako INPUT, SPLITTING, MAPPING, SHUFFLING, REDUCING a FINAL RESULT.
V tomto kurzu prozkoumáme:
- Jak funguje Map Reduce s YARN?
- Pracovní postup aplikace Hadoop YARN.
=> Prohlédněte si Průvodce pro začátečníky BigData zde.
Co se naučíte:
Snižte mapu pomocí Hadoop PŘÍZE
Pojďme pochopit, jak MapReduce používá YARN k provádění úloh přes Hadoop Cluster. Ale než budeme pokračovat, v mysli se nám objeví první otázka jaká je plná forma PŘÍZE? Nebo co znamená YARN?
PŘÍZE prostředek Ještě další vyjednavač zdrojů.
Je to ten, který přiděluje zdroje pro různé úlohy, které je třeba provést přes Hadoop Cluster. To bylo představeno v Hadoop 2.0.
Till Hadoop 1.0 MapReduce byl jediný framework nebo jediná zpracovatelská jednotka, kterou lze spustit přes Hadoop Cluster. V Hadoop 2.0 YARN byl představen a pomocí toho jsme schopni jít nad rámec MapReduce stejně.
Jak vidíte na diagramu, máme HDFS ve spodní části mezi tím, máme YARN a pomocí YARN je mnoho rámců schopných se připojit a využívat HDFS. Takže i MapReduce se používá k připojení pomocí YARN pro vyžádání prostředků a teprve poté může vykonat úlohu přes HDFS, tj. Hadoop Cluster.
Podobně; SPARK, STORM a další vyhledávače se mohou připojit k HDFS. HBase, což je žádná databáze SQL, ji také může připojit. Takže aplikace HDFS se staly obrovskými jen proto, že společnost YARN dokázala otevřít bránu pro další rámce a další analytické nástroje Bigdata.
Jaký je rozdíl mezi MapReduce verze 1 (MRv1) a MapReduce verze 2 (MRv2)?
MRv1 byl v podstatě součástí Hadoop framework 1 a s Hadoop 2 YARN přišel do obrazu a MapReduce byl upgradován na MRv2 s několika změnami ve třídách. Třídy byly aktualizovány, ale syntaxe psaní programu MapReduce zůstává stejná.
V tomto scénáři se MapReduce nyní připojuje k YARN k ose HDFS.
Spolu s YARN jsou Resource Manager a Node Manager novými démony, které byly zavedeny do klastru Hadoop.
Dříve to byl Job Tracker a Task Tracker. Byly však odstraněny z Hadoop 2.0 a Resource Manager & Node Manager byly zavedeny spolu s YARN do rámce Hadoop.
Démoni Hadoop 2.x
Pojďme se rychle podívat na nově představené démony v Hadoop 2.0, které spouštějí komponenty, tj. Úložiště a zpracování.
php rozhovor otázky a odpovědi na 2 roky zkušeností
V kurzu HDFS jsme podrobně porozuměli démonovi, tj. NameNode a DataNode. V tomto kurzu pochopíme, jak Resource Manager a Node Manager fungují v klastru Hadoop 2.x ke správě zpracování a úloh, které je třeba v klastru Hadoop provádět.
Co je to Správce zdrojů? Resource Manager je Master Daemons, který běží na Master Machine nebo na NameNode, což je špičkový Machine. Node Manager je na druhé straně démon, který běží na Slave Machines nebo DataNodes nebo spolu s DataNode Process.
Hadoop 2.x MapReduce YARN Components
Prozkoumejme níže další komponenty YARN.
- Klient: Jedná se o jednotku, která odesílá rozhraní CLI (Job-like Command Line Interface) a klientem může být JAVA aplikace.
- Správce zdrojů: Jedná se o hlavního démona, kterému jsou všechny úlohy odesílány od klienta, a je to ten, který přiděluje všechny zdroje na úrovni klastru pro provedení konkrétní úlohy. Běží na špičkovém stroji, který má kvalitní hardware a dobrou konfiguraci, protože je to hlavní stroj, který musí spravovat vše přes klastr.
- Správce uzlů : Je to Slave Daemon, který běží na Slave Machines nebo DataNode, takže každý Slave Machine má spuštěného Node Manager. Monitoruje prostředky konkrétního DataNode, Resource Manager spravuje prostředky clusteru a Node Manager spravuje zdroje DataNode.
- Server historie úloh: Je to jednotka, která sleduje všechny úlohy, které byly provedeny v rámci klastru nebo které byly do klastru odeslány. Sleduje také stav a také udržuje soubory protokolu o každém spuštění, ke kterému došlo v clusteru Hadoop.
- Hlavní aplikace : Jedná se o komponentu, která se spouští přes Node Machine, Slave Machine a je vytvořena Správcem zdrojů za účelem provedení a správy úlohy. Je to ten, který vyjedná prostředky ze Správce zdrojů a nakonec koordinuje se Správcem uzlů k provedení úkolu.
- Kontejner: Je vytvořen samotným správcem uzlů, který byl přidělen správcem zdrojů, a všechny úlohy jsou nakonec provedeny v kontejneru.
Průběh práce YARN
Jak je znázorněno ve výše uvedeném diagramu, existuje a Správce zdrojů kterému jsou podány všechny úlohy a existuje klastr, ve kterém jsou otrokářské stroje, a na každém otrokářském stroji je Správce uzlů běh.
Správce zdrojů má dvě složky, tj. Plánovač a Správce aplikací.
Jaký je rozdíl mezi aplikací Master a Application Manager?
Správce aplikací je součástí Správce zdrojů což zajišťuje, že každý úkol je proveden a Hlavní aplikace je pro to stvořen. Master aplikace, na druhé straně je někdo, kdo vykonává úkol a požaduje všechny zdroje, které mají být provedeny.
Řekněme, že úloha byla odeslána Správce zdrojů , jakmile je práce zadána, Plánovač naplánuje úlohu. Jednou Plánovač naplánuje provedení úlohy Správce aplikací vytvoří Kontejner v jednom z DataNodes a v rámci toho Kontejner, the Hlavní aplikace bude spuštěno.
Tento Hlavní aplikace poté se zaregistruje u Správce zdrojů a žádost o Kontejner k provedení úkolu. Jakmile Kontejner je přiděleno Hlavní aplikace bude nyní spojen s Správce uzlů a požádat o spuštění Kontejner .
Jak vidíme, Hlavní aplikace byl přidělen DataNodes D a JE a teď tohle Hlavní aplikace požádal o Správce uzlů spustit Kontejnery z DataNode D a DataNode E .
Jakmile Kontejnery byly zahájeny, Hlavní aplikace provede úkol v rámci Kontejner a výsledek bude odeslán zpět do Klient .
Tok aplikace
Pochopme to trochu postupně.
V níže uvedeném diagramu máme čtyři komponenty. První je Klient, druhý je Správce zdrojů , třetí je Správce uzlů a čtvrtý řádek obsahuje Hlavní aplikace .
Podívejme se tedy, jak se tyto kroky mezi nimi provádějí.
Úplně prvním krokem je Klient kdo odevzdá zakázku Správce zdrojů , ve druhém kroku Správce zdrojů přiděluje a Kontejner spustit Hlavní aplikace na Otrocké stroje ; třetím krokem je Hlavní aplikace se registruje u Správce zdrojů .
Jakmile se zaregistruje, požádá o Kontejner provést úkol, tj. čtvrtý krok. V kroku pět se Hlavní aplikace oznamuje Správce uzlů na kterém Kontejner je třeba spustit.
V kroku šest jednou Správce uzlů zahájila Kontejnery, the Hlavní aplikace v nich provede kód Kontejnery .
Nakonec v sedmém kroku Klient kontaktuje Správce zdrojů nebo Hlavní aplikace ke sledování stavu aplikace.
Nakonec Hlavní aplikace se odhlásí z Správce zdrojů a výsledek je vrácen zpět do Klient . Toto je tedy jeden jednoduchý postup, jak se program MapReduce provádí pomocí rámce YARN.
Závěr
V tomto kurzu jsme se tedy naučili následující ukazatele:
- PŘÍZE prostředek Ještě další vyjednavač zdrojů.
- YARN byl představen v Hadoop 2.0
- Resource Manager a Node Manager byly zavedeny spolu s YARN do rámce Hadoop.
- YARN Components jako Client, Resource Manager, Node Manager, Job History Server, Application Master, and Container.
V nadcházejícím kurzu se budeme zabývat testovacími technikami BigData a výzvami, kterým čelí BigData Testing. Budeme také vědět, jak tyto výzvy překonat a jak obejít způsoby, jak usnadnit testování BigData.
=> Navštivte zde a dozvíte se BigData od nuly.
Doporučené čtení
- Co je Hadoop? Výukový program Apache Hadoop pro začátečníky
- 20+ výuka MongoDB pro začátečníky: bezplatný kurz MongoDB
- Výukové programy pro zatmění do hloubky pro začátečníky
- Výukový program pro Python pro začátečníky (praktické školení v Pythonu ZDARMA)
- Výukový program pro velká data pro začátečníky Co jsou to velká data?
- Výukový program LoadRunner pro začátečníky (bezplatný 8denní hloubkový kurz)
- Výukový program Hadoop MapReduce s příklady | Co je MapReduce?
- Nejlepší ZDARMA C # výukové série: Ultimate C # průvodce pro začátečníky