Pengertian, Manfaat dan Arsitektur Hadoop pada Big Data

[Kincaimedia.net]
Sebelum membaca artikel ini, mungkin rekans sudah membaca beberapa artikel di luar sana yang membahas tentang hadoop, namun pembahasan yang ditemukan masih terpotong-potong. Sebagai contoh ada artikel yang hanya membahas pengertian hadoop saja, manfaat hadoop saja, sejarah hadoop saja, cara kerja hadoop saja, cara install hadoop saja, dan sebagainya.

Melalui artikel ini admin mencoba menyajikan dalam satu kali bahasan tentang apa itu hadoop, artikel ini admin tujukan untuk rekans yang antusias belajar terkait hadoop dan menginginkan kemudahan dalam proses belajar tentang hadoop.
Pengertian, Manfaat dan Arsitektur Hadoop pada Big Data
Apakah dengan admin gabungkan menjadi satu artikel, malahan akan membosankan untuk rekans yang membacanya? karena artikel yang terlalu panjang.

Namun setelah admin melihat ke dalam diri saya, yang merasa kurang nyaman dengan bahasan yang terpotong-potong ketika proses belajar tentang Hadoop. Saya merasa akan sangat membantu jika ada yang bisa memberikan bahasan tersebut dalam satu artikel saja, namun dengan bahasa yang ringkas.

Atas dasar itulah admin coba buat artikel ini, sehingga rekans yang sama-sama belajar seperti admin mendapatkan kemudahan untuk memahami konsep dasar apa itu hadoop.

Bagaimana dengan rekan ? jika merasa sama dengan yang admin rasakan dapat melanjutkan membacanya sampai akhir. 

1. Pengertian Hadoop

Hadoop adalah framework open source berbasis Java di bawah lisensi Apache untuk mensupport aplikasi yang jalan pada Big Data. Hadoop berjalan pada lingkungan yang menyediakan storage dan komputasi secara terdistribusi ke kluster-kluster dari komputer/node.

2. Sejarah Singkat Hadoop

Asal mula hadoop muncul karena terinspirasi dari makalah tentang Google MapReduce dan Google File System (GFS) yang ditulis oleh ilmuwan dari Google, Jeffrey Dean dan Sanjay Ghemawat pada tahun 2003.

Proses developmen dimulai pada saat proyek Apache Nutch, yang kemudian baru dipindahkan menjadi sub-proyek hadoop pada tahun 2006. Penamaan menjadi hadoop adalah diberikan oleh Doug Cutting, yaitu berdasarkan nama dari mainan gajah anaknya.

3. Manfaat Hadoop - mengapa hadoop diperlukan?

Untuk menjawab pertanyaan mengapa hadoop diperlukan, admin coba jabarkan dalam bentuk perbandingan antara pendekatan tradisional (RDBMS) dengan solusi yang ditawarkan oleh hadoop.

Pendekatan Tradisional

Dalam pendekatan ini, suatu perusahaan akan memiliki komputer skala enterprise (High-End Hardware) untuk menyimpan dan mengolah data besar. Data besar tersebut akan disimpan dalam RDBMS skala enterprise seperti Oracle Database, MS SQL Server atau DB2.

Dibutuhkan software canggih untuk dapat menulis, mengakses dan mengolah data besar tersebut dalam rangka kebutuhan analisis.
Manfaat Hadoop - mengapa hadoop diperlukan
Limitasi Pendekatan Tradisional :
  • Kesulitan menggolah data berukuran sangat besar (Big Data), misal 1 file berukut 500 GB, 1 TB, dst.
  • Keterbatasan Hardware terhadap kemampuan pengolaha data yang besar, sehingga Waktu akses semakin lama ketika memproses data yang semakin sangat besar
  • Hanya bisa data bersifat tabular

Solusi Hadoop

Dalam pendekatan ini Hadoop mendukung pemprosesan secara terdistribusi ke kluster-kluster dari komputer. Hadoop didukung oleh dua komponen utama.
  • HDFS merupakan sistem penyimpanan/storage terdistribusi, yang melakukan proses pemecahan file besar menjadi bagian-bagian lebih kecil kemudian didistribusikan ke kluster-kluster dari komputer.
  • MapReduce merupakan algoritma/komputasi terdistribusi.
Solusi Hadoop
Kelebihan Solusi Hadoop dengan didukung oleh dua komponen utama tersebut:
  • Sangat baik untuk mengolah data berukuran besar, bahkan untuk ukuran 1 TB sekalipun
  • Lebih cepat dalam mengakses data berukuran besar
  • Lebih bervariasi data yang bisa disimpan dan diolah dalam bentuk HDFS

Namun dengan kelebihan tersebut bukan berarti tanpa kekurangan, berikut ini limitasi-nya.
  • Tidak cocok untuk OLTP (Online Transaction Processing), di mana data dapat diakses secara randon ke Relational Database
  • Tidak cocok untuk OLAP (Online Analytic Processing)
  • Tidak cocok untuk DSS (Decission Support System)
  • Proses update tidak bisa untuk dilakukan (seperti pada hadoop 2.2), namun untuk Append bisa dilakukan

Berdasarkan beberapa limitasi tersebut dapat disimpulkan bahwa Hadoop adalah sebagai Solusi Big Data untuk pengolahan data besar, menjadi pelengkap OLTP, OLAP, dan DSS, jadi hadoop bukan untuk menggantikan RDBMS. Saya rasa untuk saat ini, namun bisa jadi suatu saat hadoop bisa lepas dari limitasi tersebut

4. Arsitektur Hadoop atau Ekosistem Hadoop

Framework hadoop terdiri atas empat modul/komponen utama.
  1. Hadoop HDFS adalah sebuah sistem file terdistribusi.
  2. Hadoop MapReduce adalah sebuah model programming/Algoritma untuk pengelolaan data skala besar dengan komputasi secara terdistribusi
  3. Hadoop YARN adalah sebuah platform resource-management yang bertanggung jawab untuk mengelola resources dalam clusters dan scheduling
  4. Hadoop Common adalah berisi libraries dan utilities yang dibutuhkan oleh modul Hadoop lainnya.

Semenjak tahun 2008 framework hadoop bukan hanya empat modul utama tersebut namun merupakan kumpulan modul open source seperti Hive, Pig, Oozie, Zookeeper, Flume Sqoop, Mahout, Hbase, Ambari, Spark, dsb.

Sekelompok modul dalam arsitektur hadoop kadang di sebut juga sebagai Ekosistem Hadoop.
Arsitektur Hadoop atau Ekosistem Hadoop

Sekian artikel kali ini, semoga bermanfaat untuk Anda yang sedang dalam proses pembelajaran tentang big data.
Posting Komentar (0)
Lebih baru Lebih lama