Praktikum Modul 9 Analisis Data Bisnis Dengan ML

Daftar Isi

Retensi Pelanggan dengan Machine Learning: Workflow Dasar hingga Pipeline Dataset Besar

Retensi pelanggan merupakan salah satu indikator kunci keberhasilan sebuah bisnis. Dalam banyak industri, terutama e-commerce, perbankan, dan layanan berbasis langganan, mempertahankan pelanggan lama jauh lebih murah dan lebih menguntungkan dibandingkan dengan memperoleh pelanggan baru. Oleh karena itu, analisis retensi pelanggan menjadi fokus penting dalam pengambilan keputusan berbasis data.

Dengan berkembangnya teknologi data dan kecerdasan buatan, Machine Learning (ML) menjadi alat yang sangat efektif untuk memprediksi perilaku pelanggan. Salah satu pendekatan yang umum digunakan adalah klasifikasi pelanggan ke dalam dua kategori utama, yaitu pelanggan loyal dan pelanggan churn (berpotensi berhenti menggunakan layanan).

Artikel ini membahas dua skenario utama dalam penerapan Machine Learning untuk retensi pelanggan. Skenario pertama menggunakan workflow ML dasar dengan dataset kecil untuk memperkenalkan konsep inti. Skenario kedua menggunakan pipeline preprocessing numerik dan kategorikal pada dataset yang lebih besar dan kompleks. Seluruh tahapan disusun secara sistematis agar mudah dipahami oleh mahasiswa maupun praktisi pemula.

Bagian 1: Retensi Pelanggan – Workflow Machine Learning Dasar dengan Dataset Kecil

Pada bagian ini, fokus utama adalah memahami alur dasar penerapan Machine Learning untuk kasus retensi pelanggan. Dataset yang digunakan relatif kecil dan sederhana, sehingga cocok sebagai langkah awal sebelum masuk ke pipeline yang lebih kompleks.

1. Import Dataset Pelanggan

Tahap pertama dalam workflow Machine Learning adalah mengimpor dataset pelanggan. Dataset ini biasanya berisi informasi transaksi pelanggan, seperti total nilai belanja, frekuensi pembelian, besaran diskon yang diterima, serta status pelanggan yang menunjukkan apakah pelanggan tersebut loyal atau churn.

Dataset diimpor menggunakan library Pandas karena kemampuannya dalam membaca dan memanipulasi data tabular. Setelah data dimuat, langkah awal yang penting adalah menampilkan beberapa baris pertama untuk memastikan bahwa proses import berjalan dengan benar.

Contoh struktur dataset pelanggan dapat dilihat pada tabel berikut.

ID Pelanggan Total Transaksi Nilai Belanja Diskon (%) Status
P001 12 4500000 10 Loyal
P002 3 750000 5 Churn

Tabel di atas menggambarkan contoh sederhana data pelanggan yang akan dianalisis. Kolom “Status” berperan sebagai target atau label yang ingin diprediksi oleh model Machine Learning.

2. Preprocessing Data Pelanggan

Setelah dataset berhasil diimpor, tahap berikutnya adalah preprocessing data. Preprocessing merupakan langkah krusial karena kualitas data sangat menentukan performa model Machine Learning. Data mentah sering kali belum siap langsung digunakan oleh algoritma.

Langkah pertama dalam preprocessing adalah memisahkan fitur (X) dan target (y). Fitur berisi seluruh variabel input seperti total transaksi, nilai belanja, dan diskon, sedangkan target berisi status loyal atau churn.

Selanjutnya dilakukan scaling pada fitur numerik. Scaling bertujuan untuk menyamakan skala antar fitur sehingga model tidak bias terhadap fitur dengan nilai besar. Salah satu metode scaling yang umum digunakan adalah StandardScaler.

Ringkasan proses preprocessing dapat dilihat pada tabel berikut.

Tahap Deskripsi
Pemisahan X dan y Memisahkan fitur input dan target prediksi
Scaling Fitur Menstandarisasi fitur numerik agar memiliki skala yang seragam

Dengan preprocessing yang baik, model Machine Learning dapat bekerja lebih optimal dan menghasilkan prediksi yang lebih akurat.

3. Melatih Model Machine Learning (Logistic Regression)

Setelah preprocessing selesai, langkah selanjutnya adalah melatih model Machine Learning. Pada kasus retensi pelanggan ini, digunakan algoritma Logistic Regression. Algoritma ini sangat populer untuk klasifikasi biner karena interpretasinya yang mudah dan performanya yang cukup baik pada banyak kasus.

Logistic Regression bekerja dengan menghitung probabilitas suatu data termasuk ke dalam kelas tertentu. Dalam konteks ini, model akan menghitung probabilitas apakah seorang pelanggan termasuk loyal atau churn.

Alasan utama pemilihan Logistic Regression antara lain adalah kesederhanaan, efisiensi komputasi, dan kemudahan interpretasi koefisien model. Hal ini sangat cocok untuk kebutuhan pembelajaran dan analisis awal.

4. Visualisasi Hasil Prediksi

Evaluasi model merupakan bagian penting dalam workflow Machine Learning. Salah satu alat evaluasi yang paling umum digunakan pada kasus klasifikasi adalah confusion matrix. Confusion matrix menampilkan perbandingan antara hasil prediksi model dengan data aktual.

Confusion matrix memungkinkan kita melihat jumlah prediksi benar dan salah pada masing-masing kelas. Dengan visualisasi ini, pengguna dapat memahami apakah model cenderung salah memprediksi pelanggan churn atau pelanggan loyal.

Contoh struktur confusion matrix ditunjukkan pada tabel berikut.

Prediksi Loyal Prediksi Churn
Aktual Loyal 45 5
Aktual Churn 7 23

Dari tabel tersebut, dapat terlihat bahwa sebagian besar pelanggan loyal berhasil diprediksi dengan benar, namun masih terdapat kesalahan prediksi pada kelas churn.

5. Dashboard Sederhana dengan Matplotlib (Opsional)

Untuk memperkaya analisis, visualisasi tambahan dapat dibuat menggunakan Matplotlib. Salah satu visualisasi yang berguna adalah grafik probabilitas prediksi. Grafik ini menampilkan tingkat keyakinan model dalam memprediksi status pelanggan.

Dengan melihat distribusi probabilitas, analis dapat memahami apakah model menghasilkan prediksi yang sangat yakin atau justru ragu-ragu. Informasi ini penting untuk pengambilan keputusan bisnis, misalnya dalam menentukan strategi promosi atau program loyalitas.

Bagian 2: Retensi Pelanggan – Pipeline Numerik dan Kategorikal pada Dataset Besar

Setelah memahami workflow dasar Machine Learning, langkah selanjutnya adalah menerapkan pendekatan yang lebih kompleks pada dataset yang lebih besar. Dataset ini biasanya terdiri dari ratusan hingga ribuan baris data dengan kombinasi fitur numerik dan kategorikal.

1. Mount Google Drive dan Import Dataset

Pada lingkungan Google Colab, dataset sering disimpan di Google Drive. Oleh karena itu, tahap pertama adalah melakukan mounting Google Drive agar file dataset dapat diakses langsung.

Setelah Google Drive terhubung, dataset pelanggan dengan sekitar 1000 baris data dimuat menggunakan Pandas. Beberapa baris pertama ditampilkan untuk memastikan bahwa data berhasil diimpor dengan benar.

2. Quick Exploratory Data Analysis (EDA)

Exploratory Data Analysis (EDA) bertujuan untuk memahami struktur awal dataset. Pada tahap ini, dilakukan pengecekan jumlah baris dan kolom, tipe data setiap fitur, serta jumlah missing values.

EDA sederhana ini membantu menentukan strategi preprocessing yang tepat. Misalnya, jika terdapat banyak nilai hilang pada fitur tertentu, maka perlu dilakukan imputasi sebelum data digunakan oleh model.

Contoh hasil pengecekan missing values dapat ditampilkan dalam tabel berikut.

Fitur Jumlah Missing
Total Belanja 0
Jenis Kelamin 12
Metode Pembayaran 5

3. Preprocessing dan Pembagian Data

Pada dataset besar dengan fitur numerik dan kategorikal, preprocessing dilakukan menggunakan pipeline yang lebih terstruktur. Proses dimulai dengan memisahkan fitur (X) dan target (y), kemudian membagi dataset menjadi data latih dan data uji.

Untuk fitur numerik, dilakukan imputasi menggunakan nilai median dan scaling menggunakan StandardScaler. Sementara itu, fitur kategorikal diimputasi menggunakan modus dan diubah menjadi numerik dengan OneHotEncoder.

Seluruh proses ini digabungkan menggunakan Column Transformer sehingga preprocessing dapat dilakukan secara otomatis dan konsisten.

4. Training Model Logistic Regression

Setelah preprocessing selesai, data digunakan untuk melatih model Logistic Regression. Model ini tetap menjadi pilihan karena kesederhanaan dan kemampuannya dalam menangani klasifikasi biner.

Evaluasi model dilakukan menggunakan metrik akurasi dan classification report. Classification report memberikan informasi lebih detail seperti precision, recall, dan f1-score untuk masing-masing kelas.

5. Visualisasi Confusion Matrix

Confusion matrix kembali digunakan untuk mengevaluasi performa model. Visualisasi ini sangat membantu dalam memahami kesalahan prediksi dan potensi perbaikan model.

Dengan melihat confusion matrix, analis dapat menentukan apakah diperlukan penyesuaian threshold atau bahkan penggunaan algoritma yang lebih kompleks.

6. Distribusi Probabilitas Prediksi (Opsional)

Tahap terakhir yang bersifat opsional adalah visualisasi distribusi probabilitas prediksi. Histogram probabilitas menunjukkan seberapa yakin model dalam mengklasifikasikan pelanggan.

Analisis ini dapat digunakan untuk mengevaluasi apakah threshold default 0.5 sudah optimal atau perlu disesuaikan sesuai dengan kebutuhan bisnis.

Kesimpulan

Machine Learning menawarkan pendekatan yang sistematis dan efektif dalam menganalisis retensi pelanggan. Dengan memulai dari workflow dasar menggunakan dataset kecil, mahasiswa dan praktisi dapat memahami konsep inti Machine Learning. Selanjutnya, dengan pipeline preprocessing yang lebih kompleks, model dapat diterapkan pada dataset besar dan realistis.

Pendekatan ini tidak hanya membantu meningkatkan akurasi prediksi, tetapi juga memberikan wawasan yang lebih dalam mengenai perilaku pelanggan. Dengan demikian, perusahaan dapat mengambil keputusan yang lebih tepat dalam menjaga loyalitas pelanggan dan mengurangi tingkat churn.

➡️ Klik di sini untuk membuka file Google Drive (kode praktikum lengkap)

Disusun oleh: [Muhammad Rifaldi] - [20232010011]
Program Studi: [Bisnis Digital], Universitas Kuningan

Referensi

Sumber utama:

Modul Praktikum Machine Learning & AI, disusun oleh Adi Muhamad Muhsidi (2025).
Program Studi Bisnis Digital, Fakultas Ekonomi dan Bisnis, Universitas Kuningan.

Link flipbook: https://heyzine.com/flip-book/cbbbf75431.html

Atau dapat diakses langsung dari blog pribadi penulis di:
https://adi-muhamad.my.id

Posting Komentar