SAP HANA Vora

Pre expertov Dáta BI SAP HANA

Využijte distribuovaná data v kontextu podnikových dat.

Image title

Všichni už dnes žijeme v digitální době, která s sebou přináší obrovské objemy vytvářených dat, a to nejen v podnikové praxi, ale i v soukromém životě. Díky sociálním sítím, mobilním telefonům, IoT sítím a dalším technologiím můžeme říct, že žijeme v době dat. Velkou výzvou ale zůstává, jak tato data efektivně zpracovávat a využívat. V poslední době nás díky tomu obklopilo „dosti nejasné, ale velké“ téma – BIG DATA (viz. například http://www.mibcon.cz/a/big-data-takovy-it-yetti).

V současnosti není již problém data vytvářet, ani je ukládat. Pro ukládání velkého množství informací se celosvětově využívá například uznávaná no-sql databáze Apache™ Hadoop®. Její výhoda spočívá v distribuovaném ukládání převážně nestrukturovaných informací a v levném provozu, díky čemuž si vysloužila široké využití.

Do oblasti „velkých“ či „širokých“ dat v posledních letech investují i velké technologické firmy – například společnost SAP se pasovala na leadra zpracovávání strukturovaných informací s využitím pokročilého in-memory computingu, uvedením produktu SAP HANA na trh.

Nastává tedy otázka, jak využít dat strukturovaných a nestrukturovaných, resp. kombinací technologií in-memory computingu a Hadoop, v oblasti analýz. SAP HANA disponuje vlastním datovým rozhraním Smart Data Access (SDA) pro vytěžování dat z Hadoop pomocí Apache Hive, který využívá jazyk komunikace podobný standardnímu SQL jazyku. SAP ale přichází i s další možností, v podobě nového produktu SAP HANA Vora, který zahrnuje in-memory engine (nazývaný jako Hadoop In-Memory Query). Tento nástroj využívá konektor do Apache Spark Execution Framework pro poskytování interaktivních analýz nad daty uloženými v databázi Hadoop a současně umožňuje obohacení dat databáze Hadoop o strukturovaná data ze SAP HANA. Tím je umožněno využití analytických open-source klientů pro Hadoop – například nástroje Zeppelin, kromě ostatních standardních analytických nástrojů platformy SAP BusinessObjects využívaných nad SAP HANA.

Image title

SAP HANA Vora může pracovat jako stand-alone řešení nebo v propojení se SAP HANA Platform. Díky tomu můžeme kombinovat Big Data s korporátními daty jednoduše a rychle.

Přínosy:

Real-time přístup k Big Data
Podpora self-service analýz
Nižší náklady na dostupnost a přístup k archivním datům

Co to umí:

Možnost vytvářet hierarchie, dril-downs, konverze apod. na Hadoop systémech
Podporu zpracovávání a kombinace datových subsetů ve Spark a HANA
Compile queries – vylepšení výkonu běhu dotazů v Spark/Hadoop napříč HDFS nody
HANA-Spark Adapter – Zvýšení výkonu mezi Spark a HANA
Jednotné prostředí pro data z Hadoop a HANA
Open Programming – podpora pro Scala, python, C, C++, R a Java

SAP HANA Vora je řešení postavené na ekosystému Hadoop, což je open-source projekt kombinující několik komponent, které zajišťují distribuované zpracovávání velkých datových množin uložených v clusterové architektuře. Hlavní komponenty použité v této architektuře jsou znázorněny na schématu:

Image title

K čemu prakticky SAP HANA Vora využít?

Zjednodušeně řečeno SAP HANA Vora je integrační nástroj mezi SAP HANA a Hadoop a to nám nabízí několik zajímavých možností využití v podnikových procesech.

Jeden příklad ze světa SAP systémů, který se přímo nabízí, je využití Hadoop clusterů pro ukládání „archivních“ dat jak ze systému ERP, tak i dalších datových skladů. Na starší objednávky, faktury, cenové podmínky, data z výrobních linek apod. je potřeba ještě zpětně nahlížet bez možnosti úprav a proto je možné SAP HANA Vora využít v konceptu „multi temperature data“. Tímto konceptem je možné snížit náklady na provoz systémů.

Ačkoliv toto využití je interně přínosné, jsou zde další příklady, neméně zajímavé a čekající na skutečné využití v praxi:

Vyhodnocení dat ze senzorů, kterých bývá obrovské množství - z výrobních linek, elektrického vedení, plynového a vodovodního potrubí, doplněné o údaje z ERP systému, kdy lze následně v reálném čase plánovat údržbu jednotlivých částí sledovaného objektu pro předcházení haváriím a včasnou detekci problematické části.

Velmi rychle se rozvíjející sociální sítě produkují obrovské množství dat a tato data mohou ukazovat na nálady zákazníků. Pro pracovníky call-center může být cennou informací kombinace dat z ERP systémů (např. platební morálka), DW (segmentace, historie nákupů…) a právě dat uložených v Hadoop (např. údaje ze sociálních sítí).

Dalším dynamicky se rozvíjejícím odvětvím je Internet-of-Things (IoT), kde lze tento koncept zpracování dat využít. Při využití dnešních „smart věcí a zařízení“ (veškeré smartphones, smart meters, smart watches, smart vehicles), můžeme získávat nesmírné množství dat a je vhodné je ukládat v neupravené struktuře pro následné vyhodnocení. Lze tedy uvažovat o jejich „business“ využití – například v oblasti dopravy, zdravého života nebo zdravotnictví.

Jiří Mišejko
Mr BW