complete guide big data analytics
Toto je komplexní průvodce analýzou Big Data s případy použití, architekturou, příklady a porovnáním s Big Data a Data Science:
Analýza velkých dat si získala pozornost, protože korporace jako Facebook, Google a Amazon vytvořily vlastní nová paradigmata distribuovaného zpracování a analýzy dat, aby pochopily sklony svých zákazníků k extrakci hodnoty z velkých dat.
V tomto kurzu vysvětlíme analýzu velkých dat a porovnáme ji s Big Data a Data Science. Pokryjeme nezbytné atributy, které podniky musí mít ve své strategii velkých dat a fungující metodice. Zmíníme také nejnovější trendy a některé případy použití analýzy dat.
Jak ukazuje následující obrázek, Analytics vyžaduje, aby člověk používal IT dovednosti, obchodní dovednosti a vědu o datech. Analýza velkých dat je ve středu využívání hodnot z velkých dat a pomáhá při získávání přehledů spotřebního materiálu pro organizaci.
(obraz zdroj )
Co se naučíte:
- Co je analýza velkých dat
- Závěr
Co je analýza velkých dat
Big Data Analytics se zabývá využitím souboru statistických technik, nástrojů a analytických postupů pro Big Data.
Doporučeno Čtení => Úvod do velkých dat
Je to analytika, která pomáhá při získávání cenných vzorců a smysluplných poznatků z velkých dat pro podporu rozhodování na základě dat. Kvůli vzniku nových zdrojů dat, jako jsou sociální média a data IoT, se velká data a analytika staly populární.
Tento trend vede k oblasti praxe a studia zvané „datová věda“, která zahrnuje techniky, nástroje, technologie a procesy pro dolování, čištění, modelování a vizualizaci dat.
Big Data vs. Big Data Analytics vs. Data Science
NA srovnání mezi velkými daty, datovou vědou a analytikou velkých dat lze pochopit z níže uvedené tabulky.
Základ | Velká data | Data Science | Analýza velkých dat |
---|---|---|---|
Nástroje a technologie | Hadoop Ecosystem, CDH, Cassandra, MongoDB, Java, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, Data Science Workbench, IBM SPSS, Tableau | Spark, Storm, Knime, Data Wrapper, Lumify, HPCC, Qubole, Microsoft HDInsight |
Pracovní role a dovednosti | Údržba infrastruktury úložiště, zpracování dat a znalosti o Hadoopu a jeho integrace s dalšími nástroji. | Transformace dat, datové inženýrství, hádání dat, modelování dat a vizualizace | BI a Advanced Analytics, statistika, modelování dat a strojové učení, matematické dovednosti, komunikace, poradenství. |
Označení | Big Data Architect Big Data Developer Big Data Engineer | Datový vědec Inženýr strojového učení | Analytik velkých dat Obchodní analytik Business Intelligence Engineer Specialista na obchodní analytiku Vývojář vizualizace dat Správce analytiků |
Cca. Průměrný roční plat v USD | 100 000 | 90 000 | 70 000 |
Doporučené čtení = >> Data Science vs. Computer Science
Co by měla mít každá velká strategie pro analýzu dat
Dobře definovaná, integrovaná a komplexní strategie přispívá a podporuje cenné rozhodování na základě dat v organizaci. V této části jsme uvedli nejdůležitější kroky, které je třeba vzít v úvahu při definování strategie analýzy velkých dat.
Krok 1: Hodnocení
Hodnocení, které je již v souladu s obchodními cíli, vyžaduje zapojení klíčových zúčastněných stran, vytvoření týmu členů se správnou sadou dovedností, vyhodnocení zásad, lidí, procesů a technologických a datových aktiv. V případě potřeby lze do tohoto procesu zapojit zákazníky hodnocených.
Krok 2: Stanovení priorit
Po vyhodnocení je třeba odvodit případy použití, upřednostnit je pomocí prediktivní analýzy velkých dat, normativní analýzy a kognitivní analýzy. Můžete také použít nástroj, jako je matice stanovení priorit, a dále filtrovat případy použití pomocí zpětné vazby a vstupů od klíčových zúčastněných stran.
Krok 3: RoadMap
V tomto kroku je nutné vytvořit časově omezenou cestovní mapu a publikovat ji pro všechny. Plán musí obsahovat všechny podrobnosti týkající se složitosti, fondů, inherentních výhod případů použití a mapovaných projektů.
Krok 4: Správa změn
Implementace správy změn vyžaduje správu dostupnosti, integrity, zabezpečení a použitelnosti dat. Efektivní program pro řízení změn využívající jakoukoli existující správu dat stimuluje aktivity a členy na základě průběžného monitorování.
Krok 5: Sada pravých dovedností
Identifikace správné sady dovedností je zásadní pro úspěch organizace při současných trendech v oboru. Proto je třeba sledovat správné vůdce a přinést vzdělávací programy pro vzdělávání kritických zúčastněných stran.
Krok 6: Spolehlivost, škálovatelnost a zabezpečení
Správný přístup a efektivní strategie analýzy velkých dat činí analytický proces spolehlivým s efektivním využitím interpretovatelných modelů zahrnujících principy datové vědy. Strategie velké analýzy dat musí hned od začátku zahrnovat aspekty zabezpečení, aby bylo možné vytvořit robustní a úzce integrovaný analytický kanál.
Datový kanál a proces pro analýzu dat
Při plánování kanálu pro analýzu dat existují tři základní aspekty, které je třeba vzít v úvahu. Jedná se o následující:
- Vstup: Datový formát a výběr technologie ke zpracování, je založen na základní povaze dat. tj. zda jsou data časovými řadami a kvalitou.
- Výstup: Výběr konektorů , zprávy a vizualizace závisí na technických znalostech koncových uživatelů a jejich požadavcích na spotřebu dat.
- Hlasitost: Řešení škálování jsou plánovány na základě objemu dat, aby nedocházelo k přetížení systému zpracování velkých dat.
Nyní pojďme diskutovat o typickém procesu a fázích kanálu velké analýzy dat.
Fáze 1: Příjem dat
Příjem dat je prvním a nejvýznamnějším krokem v datovém kanálu. Zvažuje tři aspekty dat.
- Zdroj dat - Je to významné z hlediska výběru architektury velkého datového kanálu.
- Struktura dat - Serializace je klíčem k udržení homogenní struktury napříč potrubím.
- Čistota dat - Analytics je stejně dobrá jako data bez problémů, jako jsou chybějící hodnoty a odlehlé hodnoty atd.
Fáze 2: ETL / Skladování
Dalším důležitým modulem jsou nástroje pro ukládání dat k provádění ETL (Extract Transform Load). Uložení dat ve správném datovém centru závisí na,
- Hardware
- Odborné znalosti managementu
- Rozpočet
(obraz zdroj )
Některé časem testované nástroje pro ETL / skladování v datových centrech jsou:
- Apache Hadoop
- Apache Hive
- Apache Parkety
- Dotazovací modul Presto
Cloudové společnosti, jako je Google, AWS, Microsoft Azure, poskytují tyto nástroje na placené bázi a šetří počáteční kapitálové výdaje.
Fáze 3: Analýzy a vizualizace
Vzhledem k omezení Hadoopu na rychlé dotazování je třeba použít analytické platformy a nástroje, které umožňují rychlé a ad-hoc dotazy s požadovanou vizualizací výsledků.
>> Doporučené čtení: Big Data Tools
Fáze 4: Monitorování
Po nastavení infrastruktury pro přijímání, ukládání a analýzu pomocí vizualizačních nástrojů je dalším krokem mít monitorovací nástroje IT a monitorování dat. Tyto zahrnují:
- Využití CPU nebo GPU
- Spotřeba paměti a zdrojů
- Sítě
Některé nástroje, které stojí za zvážení, jsou:
- Datadog
- Grafana
Monitorovací nástroje jsou nepostradatelné v kanálu velké analýzy dat a pomáhají sledovat kvalitu a integritu kanálu.
Architektura analýzy velkých dat
Níže uvedený diagram architektury ukazuje, jak moderní technologie využívají jak nestrukturované, tak strukturované zdroje dat pro zpracování Hadoop & Map-redukovat, analytické systémy v paměti a analýzy v reálném čase, aby přinesly kombinované výsledky pro operace a rozhodování v reálném čase.
(obraz zdroj )
Aktuální trendy v analýze dat
V této části jsme uvedli základní aspekty, které je třeba hledat při implementaci nebo sledování trendů v analýze velkých dat v oboru.
# 1) Velké zdroje dat
Existují primárně tři zdroje Big Data. Níže jsou uvedeny:
- Sociální údaje: Data generovaná z důvodu používání sociálních médií. Tato data pomáhají pochopit pocity a chování zákazníků a mohou být užitečné v marketingové analýze.
- Data stroje: Tato data jsou snímána z průmyslových zařízení a aplikací pomocí senzorů IoT. Pomáhá to pochopit lidí chování a poskytuje informace o procesy .
- Transakční údaje: Je generován v důsledku offline i online aktivit uživatelů ohledně platebních příkazů, faktur, stvrzenek atd. Většina tohoto druhu dat potřebuje předběžné zpracování a čištění než bude možné jej použít pro analytiku.
# 2) Úložiště dat SQL / NoSQL
Ve srovnání s tradičními databázemi nebo RDBMS se databáze NoSQL ukázaly jako lepší pro úkoly vyžadované pro analýzu velkých dat.
NoSQL databáze si přirozeně poradí s nestrukturovanými daty docela dobře a nejsou omezeny na drahé úpravy schémat, vertikální změnu měřítka a interferenci vlastností ACID.
# 3) Prediktivní analýza
Predictive Analytics nabízí přizpůsobené statistiky, které vedou organizace ke generování nových zákaznických odpovědí nebo nákupů a příležitostí křížového prodeje. Organizace používají prediktivní analytiku k předpovídání jednotlivých prvků na granulární úrovni k předpovědi budoucích výsledků a prevenci potenciálních problémů. To je dále kombinováno s historickými daty a přeměněno na preskriptivní analytiku.
Některé oblasti, kde se úspěšně používá prediktivní analýza velkých dat, jsou obchod, ochrana dětí, systémy podpory klinických rozhodnutí, predikce portfolia, předpovědi na úrovni ekonomiky a upisování.
# 4) Hluboké učení
Big data jsou pro konvenční výpočetní techniku ohromující. Ukazuje se, že tradiční techniky strojového učení při analýze dat se vyrovnávají ve výkonu s nárůstem rozmanitosti a objemu dat.
Analytics čelí výzvám, pokud jde o variace formátu, vysoce distribuované vstupní zdroje, nevyvážené vstupní údaje a rychle se pohybující streamovaná data a algoritmy hlubokého učení se s těmito výzvami docela efektivně vypořádají.
Hluboké učení našlo své efektivní využití v sémantickém indexování, provádění diskriminačních úkolů, sémantického obrazu a značení videa, sociálním cílení a také v hierarchických víceúrovňových přístupech k učení v oblastech rozpoznávání objektů, označování dat, vyhledávání informací a přirozeného jazyka zpracovává se.
# 5) Datová jezera
Ukládání různých datových sad do různých systémů a jejich kombinace pro analytiku s tradičními přístupy ke správě dat se ukazují jako drahé a jsou téměř neproveditelné. Organizace proto vytvářejí Data lakes, která ukládají data v surovém, nativním formátu pro akční analýzu.
Obrázek níže zobrazuje ukázkové datové jezero v architektuře velkých dat.
(obraz zdroj )
Použití analýzy velkých dat
Níže uvádíme některé převládající případy použití:
# 1) Analýza zákazníků
Big Data Analytics je užitečný pro různé účely, jako je mikro-marketing, individuální marketing, jemnější segmentace a hromadné přizpůsobení pro zákazníky firmy. Podniky mohou vytvářet strategie k personalizaci svých produktů a služeb podle sklonů zákazníků k up-sell nebo cross-sell podobné nebo odlišné škály produktů a služeb.
# 2) Analýza provozu
Analýza provozu pomáhá zlepšit celkové rozhodování a obchodní výsledky využitím stávajících dat a jejich obohacením o data stroje a IoT.
Například, Analýza velkých dat ve zdravotnictví umožnila čelit výzvám a novým příležitostem souvisejícím s optimalizací výdajů na zdravotní péči, zlepšením monitorování klinických studií, předvídáním a plánováním reakcí na epidemie nemocí, jako je COVID-19.
# 3) Prevence podvodů
Analýza velkých dat je vnímána s potenciálem přinést obrovskou výhodu tím, že pomůže předvídat a omezovat pokusy o podvody, zejména ve finančním a pojišťovacím sektoru.
Například, Pojišťovny zachycují v reálném čase údaje o demografii, výdělcích, lékařských pohledávkách, výdajích na advokáta, počasí, hlasových záznamech zákazníka a poznámkách call centra. Konkrétní podrobnosti v reálném čase pomáhají odvodit prediktivní modely kombinací výše zmíněných informací s historickými daty, aby bylo možné včas identifikovat spekulované podvodné pohledávky.
# 4) Optimalizace ceny
Společnosti používají analýzu velkých dat ke zvýšení ziskových marží hledáním nejlepší ceny na úrovni produktu, nikoli na úrovni kategorie. Velké společnosti považují za příliš ohromující, aby získaly podrobné podrobnosti a složitost cenových proměnných, které se u tisíců produktů pravidelně mění.
Strategie optimalizace cen založená na analytice, jako je dynamické bodování obchodů, umožňuje společnostem stanovit ceny pro klastry produktů a segmentů na základě jejich dat a poznatků o jednotlivých úrovních obchodů, aby dosáhly rychlých výher od náročných klientů.
Často kladené otázky
Otázka č. 1) Je analýza velkých dat dobrá kariéra?
Odpovědět: Je přidanou hodnotou pro každou organizaci, umožňuje jí přijímat informovaná rozhodnutí a poskytuje náskok před konkurencí. Kariérní tah Big Data zvyšuje vaši šanci stát se klíčovým rozhodovacím orgánem pro organizaci.
Otázka 2) Proč je důležitá analytika velkých dat?
Odpovědět: Pomáhá organizacím vytvářet nové příležitosti k růstu a zcela nové kategorie produktů, které mohou kombinovat a analyzovat průmyslová data. Tyto společnosti mají dostatek informací o produktech a službách, kupujících a dodavatelích, preferencích spotřebitelů, které lze zachytit a analyzovat.
Otázka č. 3) Co je vyžadováno pro analýzu velkých dat?
Odpovědět: Řada technologií, které musí dobrý analytik velkých dat znát, je obrovská. Aby člověk zvládl analýzu velkých dat, vyžaduje znalost různých nástrojů, softwaru, hardwaru a platforem. Například, Tabulky, dotazy SQL, R / R Studio a Python jsou některé základní nástroje.
Na podnikové úrovni jsou kromě systémů Linux, Hadoop, Java, Scala, Python, Spark, Hadoop a HIVE důležité také nástroje jako MATLAB, SPSS, SAS a Congnos.
Objektivní otázky:
Otázka č. 4) Která z níže uvedených databází není databází NoSQL?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
Odpovědět: PostgreSQL
Otázka č. 5) Je Cassandra NoSQL?
- Skutečný
- Nepravdivé
Odpovědět: Skutečný
Otázka č. 6) Který z následujících není majetkem Hadoop?
jak otevíráte torrentované soubory
- Otevřený zdroj
- Založeno na Javě
- Distribuované zpracování
- Reálný čas
Odpovědět: Reálný čas
Otázka č. 7) Vyberte všechny aktivity, které NEPROVÁDÍ datový vědec.
- Vytvářejte modely strojového učení a zlepšujte jejich výkon.
- Vyhodnocení statistických modelů pro validaci analýz
- Shrňte pokročilé analýzy pomocí nástrojů pro vizualizaci dat
- Prezentace výsledků technické analýzy interním týmům a obchodním klientům
Odpovědět: Prezentace výsledků technické analýzy interním týmům a obchodním klientům
Další čtení = >> Klíčové rozdíly mezi analytikem dat a datovým vědcem
Otázka č. 8) Které činnosti provádí datový analytik?
- Vyčistěte a uspořádejte nezpracovaná data
- Hledání zajímavých trendů v datech
- vytvářejte řídicí panely a vizualizace pro snadnou interpretaci
- Všechny výše uvedené
Odpovědět: Všechno výše
Otázka č. 9) Které z následujících provádí datový inženýr?
- Integrace nových zdrojů dat do stávajícího kanálu analýzy dat
- Vývoj API pro spotřebu dat
- monitorování a testování systému pro nepřetržitý výkon
- Všechno výše
Odpovědět: Všechno výše
Otázka č. 10) Správná sekvence toku dat pro analytiku je
- Zdroje dat, příprava dat, transformace dat, návrh algoritmů, analýza dat
- Zdroje dat, transformace dat, návrh algoritmu, příprava dat, analýza dat
- Zdroje dat, návrh algoritmu, příprava dat, transformace dat, analýza dat
- Zdroje dat, příprava dat, návrh algoritmů, transformace dat, analýza dat
Odpovědět: Zdroje dat, příprava dat, transformace dat, návrh algoritmů, analýza dat
Otázka č. 11) Analýza dat je lineární proces.
- Skutečný
- Nepravdivé
Odpovědět: Nepravdivé
Otázka č. 12) Průzkumná analýza NENÍ
- Odpovědět otázky týkající se počáteční analýzy dat podrobně
- Zjistěte problémy se sadou dat
- Vypracujte náčrt odpovědi na otázku
- Zjistěte, zda jsou údaje správné pro zodpovězení otázky
Odpovědět: Odpovědětotázky týkající se počáteční analýzy dat podrobně
Otázka č. 13) Predikční otázka je jiný název pojmenovaný pro inferenciální otázku.
- Skutečný
- Nepravdivé
Odpovědět: Nepravdivé
Závěr
Pokryli jsme nejdůležitější aspekty analýzy velkých dat. Vysvětlili jsme nejčastější případy použití a trendy v odvětví analýzy velkých dat, abychom získali maximální výhody.
Doporučené čtení
- Top 7 NEJLEPŠÍCH společností pro analýzu dat v roce 2021 (aktualizovaný seznam 2021)
- Top 15 Big Data Tools (Big Data Analytics Tools) in 2021
- 10 nejlepších nástrojů pro analýzu dat pro dokonalou správu dat (SEZNAM 2021)
- Top 10 Data Science Tools in 2021 to Eliminate Programming
- Výukový program pro velká data pro začátečníky Co jsou to velká data?
- Top 13 nejlepších big data společností roku 2021
- 10 nejlepších nástrojů pro modelování dat pro správu složitých návrhů
- 10+ nejlepších nástrojů pro správu dat k naplnění vašich datových potřeb v roce 2021