Pengantar Data Science: Artificial Intelligence, Machine Learning, dan Deep Learning

Beberapa waktu yang lalu saya mendapatkan materi pembelajaran dari Telcoma mengenai pengantar data science (ilmu data) bagi kalangan awam. Tulisan ini adalah ringkasan dari apa yang saya pelajari.

Awal Mula

Semua bermula dengan pengambilan keputusan untuk strategi bisnis perusahaan. Keputusan harus dibuat berdasarkan fakta-fakta yang ada, karena keputusan itu mungkin saja menentukan hidup matinya perusahaan. Kedewasaan data science terbagi ke dalam tiga masa:

  1. Pra digitalisasi,
  2. Paska adopsi digital (digitalisasi), dan
  3. Paska ledakan popularitas internet.

Telcoma

Pada masa pra digitalisasi, pengambilan keputusan dan pembuatan strategi bisnis dilakukan dengan cara manual, misalnya dengan menganalisis buku besar dan dokumen fisik lainnya. Selain itu, pengalaman dalam menjalankan usaha, intuisi, dan heuristik lebih sering dijadikan dasar pengambilan keputusan. Riset (penelitian) sangat jarang dan terbatas.

Seiring perkembangan zaman, data lebih mudah didapat, disimpan, dan diolah oleh karena digitalisasi. Pada masa ini, muncul bidang ilmu baru: business intelligence (BI).

Performa prosesor komputer dan kapasitas media penyimpanan data semakin berkembang. Dulu pabrikan prosesor dan microchip lainnya berusaha untuk mengecilkan ukuran transistor. Tujuannya, semakin kecil ukuran transistor, semakin banyak pula yang dapat ditanamkan pada papan sirkuit terintegrasi. Kini, pabrikan seperti Intel, AMD, dan NVidia harus berkonsentrasi pada revisi arsitektur, bukan lagi soal ukuran. Selain itu, volume data ideal untuk diakuisisi dan diolah semakin meroket. Keputusan yang dibuat perusahaan adalah berdasarkan data (fakta). Semakin besar data yang diolah dan dianalisis, diharapkan akan memudahkan pimpinan perusahaan dalam menentukan keputusan terbaik bagi perusahaan. Tentu saja, data itu harus berkualitas: akurat, tepat waktu, konsisten, dan lengkap. Di era internet ini, teknik data driven berkembang; dari BI ke AI.

Data Science

Data Science (DS) dapat didefinisikan sebagai ilmu dan seni pembuatan keputusan berdasarkan data (data-driven decisions).

Bidang ini bersifat interdisipliner dan membutuhkan kombinasi keahlian. Dapat dikatakan, DS adalah kombinasi dari:

  • Matematika: statistik, aljabar linier, probabilitas;
  • Bisnis: manajemen, akuntansi;
  • Teknologi: pemrograman, ethical hacking.

Tentu saja, bukan hanya tiga disiplin ilmu di atas yang dapat menjadi bagian dari DS.

Telcoma

Istilah-istilah Terkait

Bersama dengan topik DS, muncul berbagai istilah lain yang mungkin membingungkan, oleh karena ambiguitas dan tidak ada definisi standar untuk semua istilah itu. Beberapa istilah itu misalnya: Natural Language Processing (NLP), Decision Science, Neural Networks (NN), Deep Learning, Data Mining, Data Analysis, dan lain-lain. Semua topik DS itu dapat disederhanakan secara terstruktur menjadi tiga subdisiplin:

Telcoma

Artificial Intelligence (kecerdasan buatan) adalah cabang ilmu komputer yang berhubungan dengan menambahkan kecerdasan kepada mesin (komputer), dalam konteks ilmiah.

Machine Learning (pembelajaran mesin) adalah sub-bidang dalam AI yang berhubungan dengan membuat mesin cerdas tanpa diprogram secara eksplisit.

Deep Learning adalah sub-bidang pembelajaran mesin (ML) yang berhubungan dengan membuat mesin cerdas dan 'sadar', dengan algoritma yang terinspirasi oleh struktur dan fungsi otak manusia, yang disebut jaringan saraf tiruan.

Lalu apa itu Data Science (DS)?

Data Science (Ilmu Data) adalah keseluruhan proses ekstraksi, penambangan (mining), pembersihan, transformasi, visualisasi data, dan mengembangkan produk (output) berupa kecerdasan buatan dari data yang telah diolah itu.

Alat (Tools)

Untuk bahasa pemrograman, R dan Python adalah pilihan populer. Selain dua itu, masih ada Go, Julia, Ruby, C# (.NET), bahkan Javascript. Tentu saja, semua bahasa itu umumnya level tinggi (high-level): mengandung bahasa natural, dan mudah dipelajari dan digunakan, dibandingkan dengan bahasa lower-level seperti assembly, C, dan C++.

Bahasa R dibuat oleh Ross Ihaka dan Robert Gentleman pada tahun 1992 di University of Auckland, sebagai implementasi dari bahasa S yang dikembangkan oleh Bell labs. Versi awal diluncurkan pada tahun 1995. R adalah huruf pertama pada nama dua orang pencipta bahasa pemrograman ini. Hadley Wickham merombak dan menyempurnakan R untuk pengolahan dan visualisasi data.

Bahasa Python dibuat oleh Guido van Rossum pada tahun 1991. Mulai tahun 2005, Python dilengkapi dengan banyak tools untuk data science, misalnya Panda. Bahasa ini digemari karena sederhana dan mudah dipelajari.

Untuk perangkat lunak, yang sering digunakan untuk pengolahan data adalah SPSS, sas, Stata, dan tentu saja Microsoft Excel.

Dibandingkan dengan menggunakan perangkat lunak seperti contoh di atas, pemrograman dengan library dan tools lainnya lebih disukai karena gratis; kita tidak perlu membayar untuk menggunakan Python, Panda, numpy, dan lain-lain. Banyak platform data science menyertakan berbagai library dan tools itu dalam satu paket yang dapat diunduh online, contohnya Anaconda.

Baca juga: Cara Menginstal Anaconda di Linux