Inleiding tot Apache Hive

Apache Hive is een datawarehousing-pakket dat bovenop Hadoop is gebouwd en wordt gebruikt voor gegevensanalyse. Hive is bedoeld voor gebruikers die vertrouwd zijn met SQL.



Apache Hive is een datawarehousing-pakket dat bovenop Hadoop is gebouwd en wordt gebruikt voor gegevensanalyse. Hive is bedoeld voor gebruikers die vertrouwd zijn met SQL. Het is vergelijkbaar met SQL en heet HiveQL, dat wordt gebruikt voor het beheren en opvragen van gestructureerde gegevens. Apache Hive wordt gebruikt om de complexiteit van Hadoop te abstraheren. Met deze taal kunnen traditionele kaart- / verkleiningsprogrammeurs ook hun aangepaste mappers en reducers aansluiten. De populaire functie van Hive is dat het niet nodig is om Java te leren.



Hive, een open source peta-byteschaal datawarehousing-framework op basis van Hadoop, is ontwikkeld door het Data Infrastructure Team van Facebook. Hive is ook een van de technologieën die worden gebruikt om aan de eisen van Facebook te voldoen. Hive is erg populair bij alle gebruikers intern op Facebook en wordt gebruikt om duizenden taken op het cluster uit te voeren met honderden gebruikers, voor een breed scala aan toepassingen. Het Hive-Hadoop-cluster op Facebook slaat meer dan 2 PB aan onbewerkte gegevens op en laadt dagelijks dagelijks 15 TB aan gegevens.

Laten we eens kijken naar enkele van de functies die het populair en gebruiksvriendelijk maken:



  • Hiermee kunnen programmeurs aangepaste Mappers en Reducers aansluiten.
  • Heeft een datawarehouse-infrastructuur.
  • Biedt tools om eenvoudige gegevens-ETL mogelijk te maken.
  • Definieert SQL-achtige querytaal genaamd QL.

Apache Hive Use Case - Facebook:

Hive Use Case - Facebook

Voordat Hive werd geïmplementeerd, stond Facebook voor veel uitdagingen, omdat de omvang van de gegenereerde gegevens toenam of juist explodeerde, waardoor het erg moeilijk werd om ermee om te gaan. Het traditionele RDBMS kon de druk niet aan en als gevolg daarvan zocht Facebook naar betere opties. Om dit dreigende probleem op te lossen, probeerde Facebook in eerste instantie Hadoop MapReduce te gebruiken, maar met moeite met programmeren en verplichte kennis van SQL, werd het een onpraktische oplossing. Met Hive konden ze de uitdagingen overwinnen waarmee ze werden geconfronteerd.

voordelen van overbelasting van methoden in java

Met Hive kunnen ze nu het volgende doen:



  • Tafels kunnen worden geportioneerd en in emmers worden geplaatst
  • Schemaflexibiliteit en evolutie
  • JDBC / ODBC-stuurprogramma's zijn beschikbaar
  • Hive-tabellen kunnen rechtstreeks in de HDFS worden gedefinieerd
  • Uitbreidbaar - typen, indelingen, functies en scripts

Gebruiksscenario voor bijenkorven in de gezondheidszorg:

Waar gebruik je Hive?

Apache Hive kan op de volgende plaatsen worden gebruikt:

  • Datamining
  • Logboekverwerking
  • Documentindexering
  • Klantgerichte Business Intelligence
  • Voorspellende modellen
  • Hypothese testen

Hive-architectuur:

Hive bestaat uit de volgende hoofdcomponenten:

  • Metastore - Om de metadata op te slaan.
  • JDBC / ODBC - Query Compiler en Execution Engine om SQL-query's om te zetten naar een reeks MapReduce.
  • SerDe en ObjectInspectors - Voor gegevensindelingen en -typen.
  • UDF / UDAF - voor door de gebruiker gedefinieerde functies.
  • Clients - vergelijkbaar met de MySQL-opdrachtregel en een webinterface.

Onderdelen van Hive:

Metastore:

hoe het programma in java te beëindigen

De Metastore slaat de informatie op over de tabellen, partities, de kolommen binnen de tabellen. Er zijn 3 manieren om in Metastore op te slaan: Embedded Metastore, Local Metastore en Remote Metastore. Meestal wordt Remote Metastore gebruikt in de productiemodus.

max heap-implementatie in java

Beperkingen van Hive:

Hive heeft de volgende beperkingen en kan onder dergelijke omstandigheden niet worden gebruikt:

  • Niet ontworpen voor online transactieverwerking.
  • Biedt acceptabele latentie voor interactief bladeren door gegevens.
  • Biedt geen realtime query's en updates op rijniveau.
  • De latentie voor Hive-query's is over het algemeen erg hoog.

Heeft u een vraag voor ons? Noem ze in het opmerkingengedeelte en we nemen contact met u op.

Gerelateerde berichten:

Hive-opdrachten