-->

Hadoop Big Data

Setelah kita mengetahui teknologi Big Data, kita akan mengulas salah satu implementasi dari Big Data yang cukup terkenal. Hadoop atau nama resminya Apache Hadoop adalah teknologi yang dibuat dari sebuah artikel atau paper. Paper ini di bawakan oleh Google untuk menggambarkan Big Data yang mereka gunakan untuk menampung data mereka yang sangat besar. Jadi, Google menginspirasi lahirnya Hadoop. Bedanya Big Data Google tidak bersifat open source sementara Hadoop open source.

Hadoop disini disebut lebih dari sekedar software atau perangkat lunak. Hadoop adalah sekumpulan software yang saling bekerja sama untuk mengolah data. Bisa disebut Hadoop adalah sebuah ekosistem yang terdiri dari software-software yang bekerja sama. Secara garis besar saya pribadi membagi ekosistem menjadi beberapa bagian:

Inti atau core dari Hadoop: Ini adalah software utama yang menjadi dasar dari ekosistem. Software ini bisa didapat di web site Apache Hadoop. Inti hadoop ini terdiri dari beberapa bagian yaitu Hadoop Distributed File System (HDFS) dan Map Reduce. HDFS adalah tempat data-data dan file disimpan. Map Reducedisini adalah program untuk melakukan datamining dan pengolahan data lainnya dari file atau data yang disimpan di HDFS.

Data mining. Bagian ini sebenarnya bisa dikatan adalah API untuk menjalankan Map Reduce. Bagian ini mempermudah membuat dan menjalankan Map Reduce. Dengan demikian akan lebih mudah membuat dan menjalankan query. Contoh dari bagian ini adalah Apache Pig dan Apache Hive
Database NoSQL (Not Only SQL). Bagian ini ada karena proses map reduce biasanya makan waktu lama (karena data yang diproses baisanya besar) dan dilakukan secara periodik dan tidak sewaktu-waktu. Bagian ini memberikan akses data yang lebih cepat dan bisa sewaktu-waktu. Contoh NOSQL yang baisa dipakai adalah Apache HBase dan Apache Cassandra.

Bagian pendukung lain. bagian ini padaumumnya dalah pendukung operasional Hadoop. Contohnya adalah Apache Zookeeper yang berfungsi untuk mengatur distribusi data dan pemrosesan data. Zookeeper dipakai oleh Apache HBase. Apache Flume berfungsi untuk mengatur input kedalam hadoop dari sumer data yang bersifat streaming misalnya dari Twitter. Ada banyak lagi software pendukung Hadoop ini. Seperti Apache Ambari, Apache Oozie dsbnya. Tidak mutlak harus memakai semuanya. Hanya tergantung kebutuhan saja.

Hadoop menjadi tempat semua data sehingga bisa dianalisis oleh berbagai tools untuk berbagai kepentingan sehingga bisa didapatkan hasil yang cukup detil dan bisa memenuhi kebutuhan dari user.

0 Response to "Hadoop Big Data"

Post a Comment

Iklan Atas Artikel

Iklan Tengah Artikel 1

Iklan Tengah Artikel 2

Iklan Bawah Artikel