Data Analysis / R · 29/04/2025

Memahami Diagnostic Plots untuk Analisis Regresi Linier

Anda menjalankan analisis regresi linier dan perangkat lunak statistik memuntahkan banyak angka. Hasilnya signifikan (atau tidak)? Anda mungkin berpikir bahwa Anda sudah selesai dengan analisis. Tidak, belum. Setelah menjalankan analisis regresi, Anda harus memeriksa apakah model berfungsi dengan baik untuk data.

Kita dapat memeriksa apakah model bekerja dengan baik untuk data dengan berbagai cara. Kami sangat memperhatikan hasil regresi, seperti koefisien kemiringan, nilai-p, atau R², yang memberi tahu kita berapa banyak varians hasil yang dijelaskan oleh model. Itu bukan gambaran keseluruhan. Residu dapat menunjukkan seberapa buruk model mewakili data. Residu adalah sisa variabel hasil setelah menyesuaikan model (prediktor) ke data, dan mereka dapat mengungkapkan pola dalam data yang tidak dijelaskan oleh model yang dipasang. Dengan menggunakan informasi ini, Anda tidak hanya dapat memeriksa apakah asumsi regresi linier terpenuhi, tetapi Anda dapat meningkatkan model Anda dengan cara eksplorasi.

Dalam posting ini, saya akan memandu Anda melalui plot diagnostik bawaan untuk analisis regresi linier di R (ada banyak cara lain untuk menjelajahi data dan mendiagnosis model linier selain fungsi R dasar bawaan!).

Sangat mudah untuk menjalankan: Cukup gunakan plot() pada  objek lm setelah menjalankan analisis. Kemudian R akan menunjukkan kepada Anda empat plot diagnostik satu per satu. Misalnya:

data(women) # Muat kumpulan data bawaan yang disebut 'women'
fit = lm(weight ~ height, women) # Run a regression analysis
plot(fit)

Btw, jika Anda ingin melihat empat plot sekaligus daripada satu per satu:

par(mfrow=c(2,2)) # Ubah tata letak panel menjadi 2 x 2
plot (fit)
par(mfrow=c(1,1)) # Ubah kembali ke 1 x 1

Anda akan sering melihat angka di sebelah beberapa titik di setiap plot. Mereka adalah nilai ekstrem berdasarkan setiap kriteria dan diidentifikasi dengan nomor barisnya dalam kumpulan data. Saya akan membicarakannya lagi nanti.

Plot diagnostik menunjukkan residu dalam empat cara berbeda. Mari kita lihat jenis plot pertama:

1. Residu vs Fitted
Plot ini menunjukkan apakah residual memiliki pola non-linier. Mungkin ada hubungan non-linier antara variabel prediktor dan variabel hasil, dan pola dapat muncul dalam plot ini jika model tidak menangkap hubungan non-linier. Jika Anda menemukan residu yang tersebar rata di sekitar garis horizontal tanpa pola yang berbeda, itu adalah indikasi yang baik bahwa Anda tidak memiliki hubungan non-linier.

Mari kita lihat plot sisa dari model ‘baik’ dan model ‘buruk’. Data model yang baik disimulasikan dengan cara yang memenuhi asumsi regresi dengan sangat baik, sedangkan data model yang buruk tidak.

Bagaimana menurutmu? Apakah Anda melihat perbedaan antara kedua kasus tersebut? Saya tidak melihat pola yang berbeda dalam Kasus 1, tetapi saya melihat parabola dalam Kasus 2, di mana hubungan non-linier tidak dijelaskan oleh model dan ditinggalkan dalam residual.

2. Normal Q-Q
Plot ini menunjukkan apakah residu didistribusikan secara normal. Apakah residu mengikuti garis lurus dengan baik atau menyimpang parah? Ada baiknya jika residu dilapisi dengan baik pada garis putus-putus lurus.

Bagaimana menurutmu? Tentu saja, mereka tidak akan menjadi garis lurus yang sempurna, dan ini akan menjadi panggilan Anda. Kasus 2 pasti mengkhawatirkan saya. Saya tidak akan terlalu khawatir dengan Kasus 1, meskipun pengamatan bernomor 38 terlihat sedikit aneh. Mari kita lihat plot selanjutnya sambil mengingat bahwa #38 mungkin merupakan masalah potensial.

Untuk informasi selengkapnya, lihat Memahami plot QQ.

3. Scale-Location
Ini juga disebut plot Spread-Location. Plot ini menunjukkan apakah residu tersebar secara merata di sepanjang rentang prediktor. Ini adalah bagaimana Anda dapat memeriksa asumsi varians yang sama (homoscedastisitas). Ada baiknya jika Anda melihat garis horizontal dengan titik penyebaran yang sama (acak).

Topi menurut Anda? Dalam Kasus 1, residu muncul menyebar secara acak, sedangkan dalam Kasus 2, residu mulai menyebar lebih lebar di sepanjang sumbu x saat melewati sekitar 5. Karena residu menyebar lebih lebar dan lebih lebar, garis halus merah tidak horizontal dan menunjukkan sudut curam pada Kasus 2.

4. Residual vs Leverage
Plot ini membantu kita menemukan kasus yang berpengaruh (yaitu, subjek) jika ada. Tidak semua outlier berpengaruh dalam analisis regresi linier (apa pun arti outlier). Meskipun data memiliki nilai ekstrem, mereka mungkin tidak berpengaruh untuk menentukan garis regresi. Itu berarti hasilnya tidak akan jauh berbeda jika kita memasukkan atau mengecualikannya dari analisis. Mereka mengikuti tren dalam sebagian besar kasus dan mereka tidak terlalu penting; mereka tidak berpengaruh. Di sisi lain, beberapa kasus bisa sangat berpengaruh bahkan jika mereka terlihat berada dalam kisaran nilai yang wajar. Mereka bisa menjadi kasus ekstrem terhadap garis regresi dan dapat mengubah hasilnya jika kita mengecualikannya dari analisis. Cara lain untuk mengatakannya adalah bahwa mereka tidak mengikuti tren di sebagian besar kasus.

Berbeda dengan plot lainnya, pola kali ini tidak relevan. Kami memperhatikan nilai terpencil di sudut kanan atas atau di sudut kanan bawah. Titik-titik itu adalah tempat di mana kasus dapat berpengaruh terhadap garis regresi. Cari kasus di luar garis putus-putus. Ketika kasus berada di luar garis putus-putus (artinya mereka memiliki skor “Cook’s distance” yang tinggi), kasus tersebut berpengaruh pada hasil regresi. Hasil regresi akan diubah jika kita mengecualikan kasus-kasus tersebut.

Kasus 1 adalah tampilan khas ketika tidak ada kasus atau kasus yang berpengaruh. Anda hampir tidak dapat melihat garis jarak Cook (garis putus-putus merah) karena semua casing berada di dalam garis jarak Cook. Dalam Kasus 2, sebuah kasus jauh melampaui garis jarak Cook (residu lainnya muncul berkelompok di sebelah kiri karena plot kedua diskalakan untuk menunjukkan area yang lebih besar dari plot pertama). Plot mengidentifikasi pengamatan yang berpengaruh sebagai #49. Jika saya mengecualikan kasus ke-49 dari analisis, koefisien kemiringan berubah dari 2,14 menjadi 2,68 dan R2 dari 0,757 menjadi 0,851. Dampak yang cukup besar!

Keempat plot tersebut menunjukkan potensi kasus bermasalah dengan nomor baris kasus dalam kumpulan data. Jika beberapa kasus diidentifikasi di keempat plot, Anda mungkin ingin melihatnya satu per satu. Apakah ada yang istimewa untuk subjek ini? Atau mungkinkah itu hanya kesalahan dalam entri data?

Jadi, apa arti memiliki pola dalam residu bagi penelitian Anda?
Ini bukan hanya tanda pergi atau berhenti. Ini memberi tahu Anda tentang model dan data Anda. Model Anda saat ini mungkin bukan cara terbaik untuk memahami data Anda jika ada begitu banyak hal baik yang tersisa dalam data.

Dalam hal ini, Anda mungkin ingin kembali ke teori dan hipotesis Anda. Apakah itu benar-benar hubungan linier antara prediktor dan hasilnya? Anda mungkin ingin menyertakan istilah kuadrat, misalnya. Transformasi log mungkin lebih baik mewakili fenomena yang ingin Anda modelkan. Atau, apakah ada variabel penting yang Anda tinggalkan dari model Anda? Variabel lain yang tidak Anda sertakan (misalnya, usia atau jenis kelamin) mungkin memainkan peran penting dalam model dan data Anda. Atau, mungkin, data Anda secara sistematis bias saat mengumpulkan data. Anda mungkin ingin mendesain ulang metode pengumpulan data.

Memeriksa residu adalah cara untuk menemukan wawasan baru dalam model dan data Anda!

Sumber: Terjemahan bebas dari (https://library.virginia.edu/data/articles/diagnostic-plots)