Praktikum Modul 2 Paradigma Machine Learning & Data
Machine Learning merupakan cabang dari kecerdasan buatan (Artificial Intelligence/AI) yang memungkinkan sistem belajar secara otomatis dari data tanpa harus diprogram secara eksplisit. Pendekatan ini membuat sistem mampu mengenali pola, melakukan prediksi, dan mengambil keputusan berdasarkan data yang tersedia.
Pada laporan praktikum ini, saya, Rifaldi, akan menjelaskan secara lengkap mengenai paradigma Machine Learning, jenis-jenisnya, dasar teori data dan statistik, konsep probabilitas dalam konteks data science, serta pentingnya storytelling dengan data. Selain itu, saya juga akan menjawab seluruh latihan dan tugas yang tercantum dalam modul praktikum.
1. Paradigma & Jenis Machine Learning
Machine Learning secara umum dibagi menjadi tiga pendekatan utama, yaitu Supervised Learning, Unsupervised Learning, dan Reinforcement Learning. Ketiganya memiliki karakteristik dan tujuan pembelajaran yang berbeda, tergantung pada jenis data masukan serta hasil yang ingin dicapai.
a) Supervised Learning
Supervised Learning merupakan pendekatan pembelajaran mesin yang menggunakan data berlabel. Model dilatih untuk mempelajari hubungan antara fitur (input) dan label (output) agar dapat memprediksi hasil dari data baru.
Contoh penerapannya adalah memprediksi harga rumah berdasarkan data seperti luas tanah, lokasi, dan jumlah kamar. Setelah dilatih, model dapat memperkirakan harga rumah lain dengan karakteristik serupa. Pendekatan ini banyak digunakan untuk kasus klasifikasi (misalnya deteksi email spam) dan regresi (seperti prediksi harga pasar atau penjualan).
b) Unsupervised Learning
Berbeda dengan Supervised Learning, pendekatan ini bekerja dengan data yang tidak memiliki label. Model berusaha menemukan pola, struktur, atau kelompok dalam data secara otomatis.
Contoh penerapannya adalah segmentasi pelanggan berdasarkan kebiasaan belanja, di mana model mengelompokkan pelanggan ke dalam segmen tertentu tanpa mengetahui label sebelumnya. Teknik yang sering digunakan meliputi K-Means Clustering, PCA (Principal Component Analysis), dan Association Rule Mining.
c) Reinforcement Learning
Pendekatan ini melibatkan proses pembelajaran melalui interaksi dengan lingkungan. Sistem (disebut agen) belajar dengan cara mencoba berbagai tindakan dan menerima umpan balik berupa reward (hadiah) atau punishment (hukuman).
Tujuan utamanya adalah menemukan strategi optimal untuk memaksimalkan reward dalam jangka panjang. Contohnya adalah algoritma pada robotika, kendaraan otonom, dan game seperti AlphaGo. Reinforcement Learning sangat berguna untuk pengambilan keputusan yang kompleks.
2. Statistik Deskriptif untuk Data Science
Statistik deskriptif berperan penting dalam memahami data sebelum membangun model Machine Learning. Melalui statistik deskriptif, kita dapat mengetahui karakteristik utama dari dataset seperti rata-rata, sebaran, serta hubungan antar variabel.
a) Measures of Central Tendency (Ukuran Pemusatan Data)
- Mean (Rata-rata): Jumlah seluruh nilai dibagi dengan banyaknya data. Contoh: rata-rata nilai ujian mahasiswa 80 berarti rata-rata keseluruhan peserta mendapat nilai tersebut.
- Median (Nilai Tengah): Nilai yang berada di tengah setelah semua data diurutkan. Median lebih tahan terhadap nilai ekstrem.
- Modus (Nilai yang Paling Sering Muncul): Menunjukkan nilai yang paling sering muncul pada dataset.
b) Measures of Spread (Ukuran Penyebaran Data)
- Range: Selisih antara nilai tertinggi dan terendah.
- Varians: Mengukur seberapa jauh data tersebar dari rata-ratanya.
- Standar Deviasi: Akar kuadrat dari varians, digunakan untuk memahami seberapa besar penyimpangan data dari rata-rata.
c) Percentiles & Quartiles
Percentile menunjukkan posisi relatif suatu nilai dalam distribusi data. Quartile membagi data menjadi empat bagian: Q1 (25%), Q2 (median), dan Q3 (75%).
d) Skewness & Kurtosis
Skewness menunjukkan kemiringan distribusi data, sedangkan kurtosis menggambarkan ketajaman puncak distribusi. Distribusi normal memiliki skewness dan kurtosis mendekati nol.
3. Memahami Distribusi Data
Distribusi data membantu kita memilih metode analisis yang sesuai. Beberapa jenis distribusi umum diantaranya adalah Distribusi Normal, Binomial, Poisson, dan Eksponensial.
a) Distribusi Normal
Distribusi ini membentuk kurva lonceng simetris dengan rata-rata di tengah. Banyak fenomena alam dan sosial mengikuti pola distribusi normal, seperti tinggi badan manusia atau nilai ujian.
b) Central Limit Theorem (CLT)
CLT menyatakan bahwa rata-rata dari banyak sampel acak akan mendekati distribusi normal, terlepas dari bentuk distribusi populasi aslinya.
c) Distribusi Lainnya
- Uniform: Semua nilai memiliki peluang yang sama.
- Binomial: Mewakili hasil sukses/gagal seperti melempar koin.
- Poisson: Menghitung jumlah kejadian dalam periode tertentu, misalnya kedatangan pelanggan.
- Eksponensial: Mengukur waktu antar kejadian.
4. Exploratory Data Analysis (EDA)
EDA merupakan proses untuk memahami karakteristik data secara menyeluruh sebelum membangun model Machine Learning. Melalui EDA, kita dapat menemukan pola, hubungan antar variabel, dan mendeteksi anomali.
a) Univariate Analysis
Analisis ini fokus pada satu variabel, biasanya menggunakan histogram atau bar chart untuk memahami distribusi data.
b) Bivariate Analysis
Pendekatan ini menganalisis hubungan antara dua variabel. Scatter plot digunakan untuk dua variabel numerik, sedangkan box plot digunakan untuk membandingkan distribusi antar kategori.
c) Multivariate Analysis
Analisis ini melibatkan lebih dari dua variabel secara simultan. Teknik yang sering digunakan antara lain correlation matrix, heatmap, dan pair plot untuk memahami hubungan antar fitur.
5. Probabilitas dalam Konteks Data Science
Probabilitas membantu praktisi data memahami ketidakpastian dalam analisis dan prediksi. Banyak algoritma seperti Naive Bayes dan Hidden Markov Model menggunakan konsep probabilitas sebagai dasarnya.
a) Konsep Dasar Peluang
P(A) = Jumlah kejadian A / Jumlah seluruh kejadian yang mungkin.
Contoh: peluang muncul angka 6 dari lemparan dadu adalah 1/6.
b) Conditional Probability
P(A|B) = P(A∩B) / P(B)
Menunjukkan peluang suatu kejadian terjadi dengan syarat kejadian lain sudah terjadi.
c) Teorema Bayes
P(H|E) = [P(E|H) × P(H)] / P(E)
Teorema ini digunakan untuk memperbarui probabilitas berdasarkan bukti baru.
6. Storytelling dengan Data
Storytelling dengan data berarti mengubah data menjadi narasi yang menarik dan bermakna. Visualisasi yang efektif membantu audiens memahami insight dengan lebih cepat.
a) Prinsip Visualisasi Efektif
- Fokus dan sederhana, hindari elemen berlebihan.
- Kontekstual, berikan keterangan dan satuan yang jelas.
- Konsisten dalam gaya, warna, dan skala.
- Tegas dalam menyampaikan pesan utama.
b) Memilih Grafik Sesuai Jenis Data
- Data kategorik: Bar chart atau pie chart
- Data numerik: Histogram
- Dua variabel numerik: Scatter plot
- Data waktu: Line chart
- Data dengan outlier: Box plot
- Banyak variabel: Heatmap atau Pair plot
Jawaban Latihan dan Tugas
1. Pemahaman Paradigma Machine Learning
a) Perbedaan Mendasar
Supervised Learning menggunakan data berlabel untuk memprediksi output berdasarkan input, contohnya prediksi harga rumah. Unsupervised Learning tidak memiliki label dan digunakan untuk menemukan pola tersembunyi, misalnya segmentasi pelanggan. Reinforcement Learning melatih agen mengambil keputusan berdasarkan umpan balik dari lingkungan, contohnya robot atau game AI.
b) Contoh Kasus Nyata
- Supervised Learning: Prediksi penjualan produk berdasarkan data iklan; Deteksi penipuan kartu kredit.
- Unsupervised Learning: Segmentasi pelanggan e-commerce; Pengelompokan berita serupa secara otomatis.
- Reinforcement Learning: Mobil otonom belajar menghindari rintangan; Sistem rekomendasi game yang adaptif terhadap perilaku pemain.
c) Alasan Reinforcement Learning untuk Robotika & Game
Karena robot dan game membutuhkan kemampuan belajar dari pengalaman untuk meningkatkan kinerja. Reinforcement Learning memungkinkan sistem mengambil keputusan optimal melalui trial and error, seperti manusia belajar dari konsekuensi tindakannya.
d) Diagram Alur Kerja
Supervised: Data berlabel → Training model → Evaluasi → Prediksi
Unsupervised: Data tanpa label → Clustering/Dimensional Reduction → Pola ditemukan
Reinforcement: Agen → Aksi → Lingkungan → Reward → Pembelajaran berulang.
2. Fondasi Data & Statistik
a) Data Terstruktur dan Tidak Terstruktur
Data terstruktur memiliki format tabel (contoh: database, laporan keuangan, hasil ujian). Data tidak terstruktur tidak memiliki format tetap (contoh: gambar, video, teks bebas).
b) Siklus Hidup Data
1. Pengumpulan Data → 2. Penyimpanan → 3. Pembersihan → 4. Analisis → 5. Interpretasi → 6. Pengambilan Keputusan.
c) Pentingnya Kualitas Data
Prinsip “Garbage In, Garbage Out” berarti jika data yang digunakan tidak berkualitas, hasil analisis dan model juga tidak akan akurat.
d) Interpretasi Ukuran Statistik
- Mean: Rata-rata nilai ujian 80 berarti kecenderungan umum mahasiswa mendapat nilai 80.
- Median: Jika median 82, berarti setengah mahasiswa mendapat nilai di atas 82.
- Modus: Nilai 85 paling sering muncul.
- Varians: Semakin besar varians, semakin besar perbedaan nilai antar mahasiswa.
- Standar Deviasi: SD 5 berarti rata-rata deviasi nilai mahasiswa sekitar 5 poin dari mean.
Kesimpulan
Dari laporan praktikum ini, dapat disimpulkan bahwa pemahaman terhadap paradigma Machine Learning dan data sangat penting dalam dunia digital modern. Melalui konsep supervised, unsupervised, dan reinforcement learning, mahasiswa dapat memahami bagaimana sistem komputer belajar dari data dan mengambil keputusan.
Selain itu, penguasaan dasar statistik, probabilitas, dan exploratory data analysis (EDA) menjadi fondasi penting dalam membangun model yang akurat. Kemampuan storytelling dengan data juga menentukan seberapa efektif hasil analisis dapat dipahami dan diimplementasikan.
Sebagai mahasiswa Bisnis Digital, pemahaman ini menjadi bekal berharga untuk mengembangkan inovasi berbasis data di dunia bisnis, teknologi, dan kecerdasan buatan.
Disusun oleh: Rifaldi (Mahasiswa Bisnis Digital Universitas Kuningan, 2025)
Referensi
Sumber utama:
Modul Praktikum Machine Learning & AI, disusun oleh Adi Muhamad Muhsidi (2025).
Program Studi Bisnis Digital, Fakultas Ekonomi dan Bisnis, Universitas Kuningan.
Link flipbook: https://heyzine.com/flip-book/cbbbf75431.html
Atau dapat diakses langsung dari blog pribadi penulis di:
https://adi-muhamad.my.id

Posting Komentar