SUPERVISED LEARNING : CARA KERJA REGERESI SEDERHANA

 

Supervised Learning

    Teknik supervised learning merupakan teknik yang bisa kamu terapkan pada pembelajaran mesin yang bisa menerima informasi yang sudah ada pada data dengan memberikan label tertentu. Diharapkan teknik ini bisa memberikan target terhadap output yang dilakukan dengan membandingkan pengalaman belajar di masa lalu. Misalkan kamu mempunyai sejumlah film yang sudah kamu beri label dengan kategori tertentu. Kamu juga memiliki film dengan kategori komedi meliputi film 21 Jump Street dan Jumanji. Selain itu kamu juga punya kategori lain misalkan kategori film horror seperti The Conjuring dan It. Ketika kamu membeli film baru, maka kamu akan mengidentifikasi genre dan isi dari film tersebut. Setelah film teridentifikasi barulah kamu akan menyimpan film tersebut pada kategori yang sesuai.

    Metode supervised learning banyak menggunakan  regresi dan klasifikasi. Regresi adalah metode pada supervised learning yang mengembalikan target numerik untuk setiap sampel sedangkan klasifikasi adalah metode supervised learning yang bekerja dengan cara memberikan label pada setiap sampel dengan memilih dua atau lebih kelas atau kelompok yang berbeda. Proses yang bertujuan untuk memilih dua kelas disebut dengan klasifikasi biner sedangkan proses untuk memilih lebih dari dua kelas disebut klasifikasi multi kelas. Sama halnya dengan klasifikasi, metode regresi juga memiliki banyak jenis.

1. Regresi Linier, Polinomial, Logistik, dan Quantile

  • Regresi linier adalah metode regresi paling sederhana. Pada metode ini variabel bersifat kontinu dan hubungan antara variabel dependen dengan variabel independen diasumsikan bersifat linier.
    1. Variabel Independen : variabel yang mempengaruhi atau yang menjadi sebab  perubahan atau timbul variabel dependent (terikat)
    2. Variabel Dependent : Variabel yang mempengaruhi atau yang menjadi akibat karena adanya variabel. 
      Asumsi yang harus terpenuhi dalam regresi linier adalah harus ada hubungan linier antara variabel dependen dengan variabel independen, tidak ada data pencilan, tidak ada heteroskedastisitas, pengamatan sampel harus independen, tidak ada multikolinieritas, dan residual harus berdistribusi normal dengan mean 0 dan varian konstan.  
a. Simple linear regression atau regresi linear sederhana merupakan jenis regresi yang paling sederhana karena hanya melibatkan satu variabel bebas atau variabel independen X. Misalnya pada contoh di bawah ini, kita hanya melibatkan variabel engine-size untuk menentukan harga mobil.

                              Rumus :  


b.  Jika satu variabel / kolom dalam kumpulan data tidak cukup untuk membuat model yang baik dan membuat prediksi yang lebih akurat, kami akan menggunakan model regresi linier berganda, bukan model regresi linier sederhana.

          Persamaan garis untuk model regresi linier berganda adalah:

y = β0 + β1X1 + β2X2 + β3X3 + .... + βpXp + e

 

  • Regresi polinomial adalah metode regresi untuk menyesuaikan persamaan non linier dengan mengambil fungsi polinom pada variabel independen. Jika pada regresi linier garis pada scatter plot berbentuk garis lurus, maka pada regresi polinomial garis pada scatter plot sedikit melengkung. 
  • Regresi logistik adalah regresi yang variabel dependennya bersifat biner atau memiliki dua kategori sedangkan variabel independennya bisa berupa data biner atau kontinu. Namun, jika kita memiliki lebih dari dua kategori pada variabel dependennya, kita bisa menggunakan regresi logistik multinomial. 
  • Regresi kuantil merupakan pengembangan dari regresi linier dan biasanya digunakan saat ada data outlier, skewness terlalu tinggi, dan terdapat heteroskedastisitas pada data. Kelebihan regresi kuantil dibandingkan regresi linier adalah dapat digunakan jika terdapat heteroskedastisitas dan outlier pada data, distribusi variabel dependen dapat dijelaskan melalui berbagai kuantil, dan dapat digunakan jika skewness data terlalu tinggi. Apabila koefisien pada suatu kuantil berbeda secara signifikan dengan koefisien pada regresi linier, maka kita bisa menggunakan regresi kuantil. Hal ini dapat dilakukan dengan mengamati interval kepercayaan koefisien regresi dari estimasi yang kita peroleh dari kedua metode regresi tersebut. 

2. Regresi Ridge dan Lasso

  • Pada regresi ridge ada 3 konsep yang harus kita pahami yaitu regularization, L1 Loss function atau L1 Regularization, dan L2 Loss function atau L2 Regularization. Regularization digunakan untuk menyelesaikan masalah performa model yang tidak sinkron. Maksudnya, suatu model memiliki performa yang baik untuk data latih tetapi memiliki performa yang buruk untuk data uji. regularization menyelesaikan masalah ini dengan menambahkan penalti ke fungsi tujuan dan mengontrol kompleksitas model dengan penalti tersebut. Regularization biasanya digunakan untuk situasi variabel berjumlah besar, rasio jumlah observasi dan jumlah variabel kecil, dan adanya multikolinieritas. Maksud dari istilah L1 Loss function atau L1 Regularization adalah meminimalkan fungsi tujuan dengan menambahkan penalti ke jumlah nilai absolut koefisien atau biasa dikenal dengan metode deviasi absolut terkecil sedangkan maksud dari L2 Loss function atau L2 Regularization adalah meminimalkan fungsi tujuan dengan menambahkan penalti ke jumlah kuadrat koefisien.
  • Kata Lasso pada regresi lasso merupakan singkatan dari Least Absolute Shrinkage and Selection Operator. Metode ini menggunakan teknik L1 Regularization dalam fungsi tujuan. Keuntungan regresi lasso dibandingkan regresi ridge adalah regresi lasso dapat memilih variabel bawaan serta penyusutan parameter. Persamaan regresi ridge dan laso adalah sama-sama digunakan untuk menangani multikolinieritas. Regresi ridge secara komputasi lebih efisien jika dibandingkan regresi lasso. 
  • 3. Principal Component Regression (PCR) dan Partial Least Square (PLS) Regression
  • PCR merupakan metode regresi yang banyak digunakan jika dalam sebuah data terdapat banyak variabel independen atau terdapat multikolinieritas. PCR dibagi menjadi dua langkah. Pertama, cari dahulu komponen principal, dan kedua lakukan analisis regresi pada komponen utama. Analisis komponen utama adalah metode statistik untuk mengekstrak variabel baru jika variabel asli sangat berkorelasi sehingga perlu variabel baru yang tidak saling berhubungan. Kelebihan dari PCR adalah untuk mengurangi dimensi, menghapus multikolinieritas, dan mendapatkan komponen principal. Regresi PLS merupakan metode alternatif dari regresi komponen utama saat kita memiliki variabel independen yang banyak dan sangat berkorelasi. PCR dan regresi PLS sama-sama mengekstrak variabel independen baru, hanya saja PCR membuat variabel tersebut untuk menjelaskan variabilitas yang diamati dalam variabel prediktor tanpa mempertimbangkan variabel dependen sedangkan PLS memperhitungkan variabel dependen.
  • Algoritma machine learning dan data science memiliki kesamaan, yaitu sama-sama banyak digunakan di berbagai sektor. Di era serba data seperti saat ini, data science merupakan salah satu ilmu "mahal" yang banyak dicari dan banyak diminati. Tak heran jika profesi data scientist dinobatkan sebagai The Sexiest Job in 21st Century. Tak hanya banyak diminati, tapi gaji yang ditawarkan untuk seorang data scientist pun cukup fantastis. Kabar baiknya, data science dapat dipelajari oleh siapapun bahkan oleh seseorang yang tidak memiliki background IT.
  • Berikutnya adalah pratikum mengenai cara penerapan metode Supervised Learning menggunakan Regresi sederhana. ini adalah link youtubenya:  https://www.youtube.com/channel/UC4ucdZHaw9KAoS-gfI8torw

Sumber :
Pertemuan 5 Machine learning Institut Teknologi PLN
https://edogawamin17.blogspot.com/2021/10/mengenal-apa-itu-machine-learning.html
https://www.dqlab.id/jenis-metode-regresi-algoritma-supervised-learning
https://ilmudatapy.com/konsep-regresi-linear/
https://www.megabagus.id/simple-linear-regression/
https://ichi.pro/id/model-regresi-linear-berganda-menggunakan-python-machine-learning-228751987250986