Hadoop

Apache Hadoop is een open source software raamwerk voor de opslag en verwerking van Big Data. Hadoop maakt het mogelijk om op systemen met duizenden knooppunten en vele duizenden terabytes aan data, toepassingen te laten draaien. Hadoop splitst door middel van het HDFS (Hadoop Distributed file system) bestanden in blokken en verdeelt deze blokken tussen verschillende knooppunten. De blokken met data zijn vaak tussen de 64MB en 128MB. HDFS maakt het mogelijk om op hoge snelheid data over te dragen tussen verschillende knooppunten. De manier waarop Hadoop data verdeelt verlaagt de kans op downtime van applicaties. Zelfs als een groot aantal van de knooppunten buiten werking is blijft gebruik van de data mogelijk.

Hadoop Inzetten

Hadoop wordt steeds regelmatiger ingezet bij het analyseren van Big Data. Een aantal grote spelers maken gebruik van Hadoop zoals, Google Yahoo en IBM. Zij gebruiken Hadoop met name voor zoekmachine, advertising oplossingen.
Hadoop is geïnspireerd door Google’s MapReduce, een software raamwerk waar een applicatie wordt opgebroken in verschillende kleine stukken. Elk van deze stukken (ook wel blokken of fragmenten genaamd) kan worden uitgevoerd door een andere ‘node’ binnen het cluster.

Hadoop omvat inmiddels veel meer dan alleen de software die door de maker, Doug Cutting, werd ontwikkeld. Een aantal Hadoop opossingen is Apache Hive, Zookeeper, Apache Hbase, Apache Spark, Apache Pig.

Bij voorkeur draait Hadoop op windows of Linux systemen maar inmiddels kan het raamwerk ook gebruikt worden op BSD en OS X.

Hadoop modules

De basis van Apache Hadoop is bestaat uit de volgende modules:

Hadoop Common - bevat bibliotheken en hulpprogramma's die nodig zijn door andere Hadoop modules.

Hadoop Distributed File System (HDFS) - een gedistribueerd bestandssysteem dat gegevens opslaat op de commodity-machines, het verstrekken van zeer hoge totale bandbreedte in het hele cluster.

Hadoop YARN - een Resource Management platform verantwoordelijk voor het beheer bronnen in clusters en ze te gebruiken voor het schalen van gebruikers toepassingen.

Hadoop MapReduce - een programmeermodel voor grootschalige dataverwerking.

Alle Hadoop modules zijn ontworpen met de aanname dat er storingen in hardware kunnen ontstaan en dat deze storingen automatisch opgevangen worden.

YARN

YARN is later toegevoegd aan Hadoop en staat voor "Yet Another Resource Negotiator". Yarn is ontwikkeld als onderdeel van Hadoop 2.0. YARN neemt de resource management onderdelen uit MapRecuce over en zorgt ervoor dat zij gebruikt kunnen worden voor nieuwe engines. Daarnaast stroomlijnt YARN MapReduse zodat deze module zich kan focussen op dat waarvoor hij ontwikkeld is, het verwerken van data.

 

Aansluitend op Hadoop:

My Marqit

Registreer je gratis voor de volgende voordelen:

  • Kosteloos toegang tot alle informatie
  • Onbeperkt downloaden van whitepapers
  • Altijd up-to-date via de Marqit nieuwsbrieven
E-mailadres
Wachtwoord
Wachtwoord [vergeten?]

Meer Hadoop

Nieuws

Leveranciers

Whitepapers