Data Loading...

Draft E-Modul Praktikum Mata Kuliah Statistika Regresi Flipbook PDF

Draft E-Modul Praktikum Mata Kuliah Statistika Regresi

174 Views
87 Downloads
FLIP PDF 2.01MB

E-MODUL PRAKTIKUM

MATA KULIAH STATISTIKA REGRESI Dengan Bahasa Pemrograman Python

Aviolla Terza Damaliana

UPN “VETERAN” JAWA TIMUR

i

KATA PENGANTAR Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas selesainya penyusunan EModul Praktikum Mata kuliah Statistika Regresi dengan Bahasa Pemrograman Python. Tak lupa juga mengucapkan salawat serta salam semoga senantiasa tercurahkan kepada Nabi Besar Muhammad SAW, karena berkat beliau, kita mampu keluar dari kegelapan menuju jalan yang lebih terang. Kami ucapkan juga rasa terima kasih kami kepada pihak-pihak yang mendukung lancarnya penulisan e-modul praktikum ini, yaitu orang tua kami, rekan-rekan kami, dan masih banyak lagi yang tidak bisa kami sebutkan satu per satu. E-Modul Praktikum ini dipersiapkan terutama untuk mahasiswa Program Studi Sains ) plt.show()

Setelah me-running kode pemrograman diatas, didapatkan hasil output sebagai berikut:

Gambar 15. Plot Q-Q ) plt.show()

76

Setelah me-running kode pemrograman diatas, didapatkan hasil output sebagai berikut:

Gambar 25. Plot Q-Q ) plt.show()

Setelah me-running kode pemrograman diatas, didapatkan hasil output sebagai berikut:

Gambar 34. Plot Q-Q data Residual Waktu Penyelesaian Produk

Gambar 36 terlihat bahwa distribusi data residual mendekati garis linier. Sehingga dapat disimpulkan bahwa data residual tersebut memenuhi asumsi berdistribusi normal. c. Memeriksa asumsi residual tidak terjadi autokorelasi Berikut adalah kode pemrograman Python menggunakan layanan Google Colab untuk memeriksa asumsi residual tidak terjadi autokorelasi. #Plot memeriks asumsi residual tidak terjadi autokore lasi urutan_pengamatan=pd.Series(range(1,31))

102

plt.scatter(urutan_pengamatan, residual); plt.axhline(0, color='red') plt.xlabel('data urutan'); plt.ylabel('Residual'); plt.xlim([1,21]);

Setelah me-running kode pemrograman diatas, didapatkan hasil output sebagai berikut:

Gambar 35. Plot Residual Waktu Penyelesaian Produk

Gambar 37 terlihat bahwa distribusi data residual terhadap plot tidak membentuk pola apapun, Sehingga dapat disimpulkan bahwa data residual memenuhi asumsi tidak terjadinya autokorelasi. d. Memeriksa asumsi residual tidak terjadi heteroskedastisitas Berikut adalah kode pemrograman Python menggunakan layanan Google Colab untuk memeriksa asumsi residual tidak terjadi heteroskedastisitas. #Plot memeriksa asumsi residual tidak terjadi heteros kedastisitas influence = model.get_influence() #menentukan standardized residualnya std_residual = influence.resid_studentized_internal plt.scatter(prediksi, std_residual);

103

plt.axhline(0, color='red') plt.xlabel('prediksi'); plt.ylabel('standardized residual'); plt.xlim([10,39]);

Setelah me-running kode pemrograman diatas, didapatkan hasil output sebagai berikut:

Gambar 36. Plot Nilai Waktu Penyelesaian Produk dengan Standardized Residual

Gambar 38 terlihat bahwa data varians residual yang diwakilkan oleh standardized residualnya tidak membentuk pol apapun, sehingga dapat diartikan bahwa residual memenuhi asumsi tidak terjadi heteroskedastisitas. Setelah melakukan pemeriksaan asumsi residual secara visual, langkah selanjutnya adalah melakukan pengujian secara statistika. Berikut adalah kode pemrograman Python pada layanan Google Colab untuk memeriksa asumsi residual dengan pengujian secara statistika. d. Memeriksa asumsi residual berdistribusi normal Berikut adalah kode pemrograman Python menggunakan layanan Google Colab untuk memeriksa asumsi residual berdistribusi normal dengan pengujian Jarque Bera. Kode dibawah merupakan

104

kelanjutan dari kode pemrograman Python layanan Google Colab pada analisis regresi sederhana #Pengujian Jarque Bera untuk memeriksa asumsi residual from statsmodels.compat import lzip import statsmodels.formula.api as smf import statsmodels.stats.api as sms name = ["Jarque-Bera", "Chi^2 twotail prob.", "Skew", "Kurtosis"] test = sms.jarque_bera(model.resid) lzip(name, test)

Setelah me-running kode pemrograman diatas, didapatkan hasil output sebagai berikut. [('Jarque-Bera', 0.4971653524602619), ('Chi^2 two-tail prob.', 0.7799053785330367), ('Skew', -0.20405165821810348), ('Kurtosis', 2.344217943165503)]

Berdasarkan Hasil output diatas maka akan dilakukan langkahlangkah pengujian Jarque-Bera 1) Menentukan hipotesis null dengan hipotesis alternatifnya

H 0 : Populasi berdistribusi normal H1 : Populasi tidak berdistribusi normal 2) Menentukan level of significance atau 𝛼 sebesar 5% atau 0.05 3) Menentukan Statistik Uji Berdasarkan output pemrograman python pengujian Jarque Bera didapatkan nilai statistik uji JB sebesar 0.4972 dan pvalue sebesar 0.7799 4) Menentukan titik kritis pengujian 2 Dengan 𝛼 sebesar 0.05, 𝐻0 ditolak jika 𝐽𝐵 > 𝜒(𝛼,𝑝) dimana 2 2 𝜒(𝛼,𝑝) = 𝜒(0.05,3) = 7.815 atau p-value < 0.05

5) Menentukan kesimpulan hasil pengujian 105

Berdasarkan uji statistik didapatkan nilai JB sebesar 0.4972, dan p-value sebesar 0.7357. Dengan 𝛼 sebesar 0.05 dan Tabel 2 2 2 chi-square yaitu 𝜒(𝛼,2) = 𝜒(0.05,2) = 7.815, maka 𝐽𝐵 < 𝜒(𝛼,2) dan

p-value > 0.05 yang dapat disimpulkan bahwa 𝐻0 gagal ditolak artinya residual memenuhi asumsi berdistribusi normal. e. Memeriksa asumsi residual tidak terjadi autokorelasi Berikut adalah kode pemrograman Python menggunakan layanan Google Colab untuk memeriksa asumsi residual tidak terjadi autokorelasi dengan pengujian Durbin-Watson. #Pengujian Durbin-Watson from statsmodels.stats.stattools import durbin_watson dw = durbin_watson(model.resid) print(f"Durbin-Watson: {dw}")

Setelah me-running kode pemrograman diatas, didapatkan hasil output yaitu Durbin-Watson: 1.3222499319171725

1) Menentukan hipotesis null dengan hipotesis alternatifnya

H 0 : Tidak terjadi Autokorelasi H1 : Terjadi Autokorelasi 2) Menentukan level of significance atau 𝛼 sebesar 5% atau 0.05 3) Menentukan Statistik Uji Berdasarkan output diatas didapatkan bahwa statistic uji Durbin-Watsan adalah 1.3222 4) Menentukan titik kritis pengujian Dengan 𝛼 sebesar 0.05 dan n = 20, maka kemungkinan kesimpulan pengujian ini adalah 𝐻0 ditolak jika 𝑑ℎ𝑖𝑡 < 𝑑𝐿 (1.1004), 𝐻0 gagal ditolak jika 𝑑ℎ𝑖𝑡 > 𝑑𝑈 (1.5367) Tidak dapat menarik kesimpulan 𝑑𝐿 ≤ 𝑑 ≤ 𝑑𝑈 5) Menentukan kesimpulan hasil pengujian 106

Dikarenakan 𝑑ℎ𝑖𝑡 sebesar 1.3222 dimana diantara 𝑑𝐿 ≤ 𝑑 ≤ 𝑑𝑈 maka tidak dapat disimpulkan dengan metode durbin Watson bahwa residual terjadi autokorelasi atau tidak. f. Memeriksa asumsi residual tidak terjadi heteroskedastisitas Berikut adalah kode pemrograman Python menggunakan layanan Google Colab untuk memeriksa asumsi residual tidak terjadi autokorelasi dengan pengujian Breush-Pagan. #Pengujian Breush-Pagan from statsmodels.compat import lzip import statsmodels.stats.api as sms names = ['Lagrange multiplier statistic', 'p-value', 'f-value', 'f p-value'] test = sms.het_breuschpagan(model.resid, model.model. exog) lzip(names, test)

Setelah me-running kode pemrograman diatas, didapatkan hasil output yaitu [('Lagrange multiplier statistic', 1.9587408768777936), ('p-value', 0.3755474546851591), ('f-value', 0.9228456472931548), ('f p-value', 0.4164023894220722)]

1) Menentukan hipotesis null dengan hipotesis alternatifnya

H 0 : Tidak terjadi Heteroskedastisitas H1 : Terjadi Heteroskedastisitas 2) Menentukan level of significance atau 𝛼 sebesar 5% atau 0.05 3) Menentukan Statistik Uji Berdasarkan output diatas didapatkan nilai Statistik Uji Breush-Pagan sebesar 1.9587 dan p-value sebesar 0.3755

107

4) Menentukan titik kritis pengujian 2 2 Dengan 𝛼 sebesar 0.05, 𝐻0 ditolak jika 𝜒ℎ𝑖𝑡 > 𝜒𝛼,𝑝 atau p-value 2 < 0.05. 𝜒0.05,2 = 5.991

5) Menentukan kesimpulan hasil pengujian Dikarenakan Statistik Uji Breush-Pagan sebesar 1.9587 2 dimana lebih kecil dari 𝜒0.05,2 = 5.991 dapat disimpulkan

bahwa 𝐻0 gagal ditolak yang artinya bahwa asumsi residual tidak terjadi heteroskedastisitas. Langkah selanjutnya adalah memeriksa apakah variabel independen memenuhi

asumsi

tidak

terjadi

multikolinieritas.

Uji

ini

menggunakan nilai VIF atau variance Inflation Factor. Berikut adalah kode pemrograman Python menggunakan layanan Google Colab from statsmodels.stats.outliers_influence import varianc e_inflation_factor # Himpunan Variabel independen X = df[['x1', 'x2']] # VIF dataframe vif_data = pd.DataFrame() vif_data["feature"] = X.columns # Menghitung VIF setiap variabel vif_data["VIF"] = [variance_inflation_factor(X.values, i ) for i in range(len(X.columns))] print(vif_data)

Setelah me-running kode pemrograman diatas, didapatkan hasil output yaitu feature

VIF

0

x1

1.942447

1

x2_1

1.942447

108

Berdasarkan hasil output diatas, nilai VIF kedua variabel independen lebih kecil dari 10. Hal ini mengindikasi bahwa variabel independen tidak terjadi multikolinieritas. I. Menginterpretasikan Model Setelah mengetahui bahwa kedua variabel berpengaruh secara singnifikan. Selanjutnya adalah menginterpretasikan model yang didapat. Interpretasi model regresi dengan tipe mesin jenis A adalah

yˆ = ˆ0 + ˆ1 x1 + ˆ2 x2 yˆ = 36.986 − 0.03x1 + 15.00(0) yˆ = 36.986 − 0.03x1 Model diatas dapat diinterpretasikan bahwa setiap pertambahan satu satuan kecepatan mesin akan mengurangi waktu penyelesaian produk sebesar 0.03 jam. Estimator 𝛽̂0 tidak diinterpretasikan karena tidak ada nilai variabel 𝑥 yang sama dengan 0 Interpretasi model regresi dengan tipe mesin jenis B adalah yˆ = ˆ0 + ˆ1 x1 + ˆ2 x2 yˆ = 36.986 − 0.03 x1 + 15.00(1) yˆ = (36.986 + 15.00) − 0.03 x1 yˆ = 51.986 − 0.03 x1

Model diatas dapat diinterpretasikan bahwa setiap pertambahan satu satuan kecepatan mesin akan mengurangi waktu penyelesaian produk sebesar 0.03 jam. Estimator 𝛽̂0 tidak diinterpretasikan karena tidak ada nilai variabel 𝑥 yang sama dengan 0 J. Memberikan Hasil Kesimpulan Tujuan penelitian menggunakan metode regresi variabel dummy ini adalah ingin waktu penyelesaian produk jika kecepatan mesin sebesar 990 dengan tipe mesin B. Berikut adalah model yang didapatkan:

yˆ = ˆ0 + ˆ1 x1 + ˆ2 x2 yˆ = 36.986 − 0.03x1 + 15.00(1) yˆ = (36.986 + 15.00) − 0.03x1

109

yˆ = 51.986 − 0.03x1 yˆ = 51.986 − 0.03(990) yˆ = 22.286 Sehingga dapat disimpulkan bahwa jika Mesin Tipe B dengan kecepatan sebesar 990 maka waktu penyelesaian produk diprediksi menjadi 22.286 jam Selain itu juga berdasarkan Uji F dan Uji T dapat disimpulkan bahwa waktu penyelesaian produk secara bersama-sama dan secara parsial dipengaruhi oleh kecepatan mesin dan Tipe mesinnya.

V. Instruksi Tugas Setelah

memahami

langkah-langkah

penyelesaian

permasalahan

data

menggunakan metode regresi variabel dummy dengan bahasa pemrograman Python, pengguna e-modul praktikum dapat menyelesaikan tugas dengan instruksi sebagai berikut 1) Melakukan

analisis

data

dengan

bahasa

pemrograman

Python

memanfaatkan layanan Google Colab 2) Hasil jawaban soal diketik menggunakan File Word ukuran A4 dengan format sebagai berikut: a. Cover Laporan memuat Judul, Identitas pengguna, dan, Identitas Institusi b. Daftar Isi, jika ada tabel dan gambar maka harus ada Daftar Tabel dan Daftar Gambar c. Bab I Pendahuluan memuat latar belakang, tujuan, dan manfaat d. Bab II Tinjauan Pustaka memuat teori dari metode e. Bab III Metodologi data memuat dataset yang digunakan serta Langkahlangkah penyelesaian f. Bab IV Hasil analisis memuat hasil penyelesaian berdasarkan soal permasalahan g. Bab V Kesimpulan memuat hasil kesimpulan berdasarkan bab IV. Kesimpulan tidak boleh hasil dari copy paste h. Bab VI Daftar Pustaka 3) Laporan dikumpulkan berbentuk Pdf. 110

4) File Notebook Google Colab hasil pemrograman Python juga ikut dikumpulkan dengan laporan 5) Laporan dan File Notebook Google Colab dimasukan kedalam satu folder dimana folder tersebut diberi nama identitas pengguna.

V. Soal Regresi Variabel Dummy Suatu Showroom mobil ingin mengetahui apakah ukuran mesin dan desain mesin berpengaruh terhadap harga jual mobil. Adapun desain mobil merupakan jenis data kualitatif yang terdiri dari Standar dan Turbo. Dimisalkan standar =0 dan turbo = 1. Selain itu Showroom tersebut ingin memprediksi berapa harga jual mobil jika desain mobilnya standar dengan ukuran mesin 94.

Berikut adalah data yang akan digunakan untuk

menganalisis permasalahan ini. Tabel 11. Data Harga Jual Mobil Negara ke1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Ukuran Mesin 130 130 152 109 136 136 136 136 131 108 108 164 164 164 209 209 209 61 90 90 90 90 98 90 90 90 98 122 156 92

Desian Mobil 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0

Harga Jual Mobil 13495 16500 16500 13950 17450 15250 17710 18920 23875 16430 16925 20970 21105 24565 30760 41315 36880 5151 6295 6575 5572 6377 7957 6229 6692 7609 8558 8921 12964 6479

111

Negara ke31 32 33 34 35 36 37 38 39 40

Ukuran Mesin 92 79 92 92 92 92 110 110 110 110

Desian Mobil 0 0 0 0 0 0 0 0 0 1

Harga Jual Mobil 6855 5399 6529 7129 7295 7295 7895 9095 8845 10295

Kerjakan Data tersebut berdasarkan tujuan dari Showroom dan dalam menganalisis, langkah-langkah harus dilakukan secara lengkap dan jelas sampai kepada analisis asumsi regresi.

112

BAB VII REGRESI POLYNOMIAL I.

Tujuan Pembelajaran Tujuan pembelajaran mahasiswa setelah selesai mempelajari bab VII mengenai metode Regresi Polynomial antara lain: c. Dapat mengetahui teori mengeani regresi dengan variabel polynomial d. Dapat mengetahui cara penyelesaian regresi variabel polynomial dengan bahasa pemrograman Python

II. Uraian Materi Berikut adalah uraian materi bab VII sehingga dapat menjawab tujuan pembelajaran yang telah ditetapkan:

1. Teori Regresi Variabel Polynomial Regresi variabel polynomial merupakan metode yang menyelidiki hubungan non-linier antara variabel dependen (atau respon) dan variabel independen (atau prediktor) dengan fungsi regresi polynomial. Model regresi polynomial dengan satu variabel independen adalah:

y = 0 + 1 x + 2 x 2 + ... + h x h + 

(33)

Dimana ℎ adalah orde dari polynomial. Untuk orde ke-2 disebut kuadrati, orde ke-3 disebut kubik, orde ke-4 disebut kuartik, dan seterusnya. Meskipun hubungannya non-linier namun regresi ini masih dianggap regresi linier karena masih linier dalam koefisien regresinya. Untuk menemukan orde polynomial yang tepat, kita dapat menggunakan metode Forward Selection dan Backward Selection. Forward Selection merupakan metode yang terus meningkatkan orde sampai cukup signifikan untuk menemukan model yang terbaik. Sedangkan Backward Selection merupakan metode yang terus mengurangi orde sampai cukup signifikan untuk menemukan model yang terbaik. Pada e113

modul ini akan menggunakan Metode Forward Selection untuk mencari order model polynomial yang tepat.

Berikut adalah langkah-langkah dalam menganalisis data menggunakan metode regresi dengan variabel polynomial a) Memodelkan data dengan menggunakan regresi polynomial orde pertama atau linier b) Melihat apakah dengan Uji F, variabel independennya berpengaruh atau tidak dengan variabel dependennya. c) Jika tidak signifikan, dilanjutkan ke orde yang lebih tinggi hingga didapatkan

variabel

independen

signifikan

terhadap

variabel

dependen. d) Melakukan perhitungan R-squared untuk melihat seberapa besar kesesuaian model terbaiknya. a) Melakukan analisis asumsi residual b) Membuat kesimpulan dan interpretasi model

III. Rangkuman Berikut ini adalah rangkuman materi pada Bab VII: a) Regresi variabel polynomial merupakan metode yang menyelidiki hubungan non-linier antara variabel dependen (atau respon) dan variabel independen (atau prediktor) dengan fungsi regresi polynomial b) Berikut adalah langkah-langkah analisis regresi variabel dummy antara lain: memodelkan data dengan menggunakan regresi polynomial orde pertama atau linier, Melihat apakah dengan Uji F variabel independennya berpengaruh atau tidak dengan variabel dependennya, Jika tidak signifikan, dilanjutkan ke orde yang lebih tinggi hingga didapatkan variabel independen

signifikan

terhadap

variabel

dependen,

melakukan

perhitungan R-squared untuk melihat seberapa besar kesesuaian model terbaiknya

memeriksa

asumsi

regresi, membuat

kesimpulan

dan

interpretasi model, dan menghitung nilai prediksi dari model yang didapatkan.

114

IV. Tutorial Metode Berikut adalah tutorial metode materi bab VII yakni langkah-langkah analisis regresi variabel polynomial dengan bahasa pemrograman Python.

1. Studi Kasus Regresi Polynomial Misalkan peneliti di Laboratorium ingin menyelidiki apakah hasil percobaannya dipengaruhi oleh suhu temperature. Datanya adalah sebagai berikut. Tabel 12. Data Percobaan Data ke-1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Suhu Temperatur

Hasil Percobaan

50 50 50 70 70

3.3 2.8 2.9 2.3 2.6

70 80 80 80 90 90 90 100

2.1 2.5 2.9 2.4 3 3.1 2.8 3.3

100 100

3.5 3

2. Langkah-langkah Penyelesaian Berikut adalah-langkah-langkah analisis regresi polynomial untuk menyelesaikan permasalahan pada

studi kasus data Tabel 12

menggunakan bahasa pemrograman Python. A. Menentukan Variabel Independen dan Variabel Dependen Sesuai studi kasus diatas, diketahui bahwa variabel dependen adalah hasil percobaan (𝑦) dan variabel indepennya adalah temperature (𝑥).

115

B. Memasukkan Data ke Notebook Google Colab Tabel 12 disimpan terlebih dahulu ke bentuk File csv yang Bernama : Data Percobaan Pada e-modul Praktikum Statistika Regresi ini, dalam memanggil data bentuk File csv terlebih dahulu disimpan di Folder Google Drive masing-masing pengguna e-modul. Penulis menyimpan File csv pada Folder yang bernama : Dataset eModul. Berikut adalah kode pemrograman python pada notebook Google Colab untuk memasukan data ke Notebook Google Colab 3) Menghubungkan Google Drive dengan Notebook Google Colab #CONNECT GOOGLE DRIVE from google.colab import drive drive.mount('/content/drive')

Setelah me-running kode diatas akan muncul Gambar yang dapat dilihat pada Gambar 29 dan klik Sambungkan ke Google Drive. Kemudian akan muncul Gambar 30 untuk memilih akun Google Drive tempat meyimpan dataset kita: Klik Akun → Izinkan. Setelah itu dataset di Google Drive sudah dapat terbaca oleh Notebook Google Colab yang ditandai dengan kode : Mounted at /content/drive

Gambar 37. Izin Mengakses Google Drive Data Regresi Berganda

116

Gambar 38. Memilih Akun Google Drive untuk Data Regresi Berganda

4) Membuat dataframe data menggunakan library Pandas Setelah data terhubung dari Google Drive ke Notebook Google Colab, Selanjutnya adalah menyusun dataset kita menjadi data frame dengan library Pandas. Kode pemrograman python-nya adalah # Memanggil dataset import pandas as pd df = pd.read_csv("drive/MyDrive/Dataset eModul/Data p ercobaan.csv") df.head()

Kode diatas akan menghasilkan Output yaitu

Gambar 39. Output Data Percobaan

117

, nama variabel Gambar 39 diganti dari Temp menjadi 𝑥 dan Yied (Hasil Percobaan) menjadi 𝑦. Berikut adalah kode pemrogramannya #Mengganti nama variabel df.rename(columns={'Temp':'x','Yield':'y'}, inplace=T rue) df.head()

Kode diatas akan menghasilkan output yaitu

Gambar 40. Mengganti Nama Variabel di Data Hasil Percobaan

C. Membentuk Model Regresi Polynomial hingga Variabel Independen Signifikan terhadap Variabel dependen Langkah selanjutnya memodelkan data set dengan regresi orde pertama atau dikenal sebagai regresi linier sederhana. Kode pemrograman python adlaah sebagai berikut. #Memodelkan dengan Regresi Linier Berganda import numpy as np import statsmodels.api as sm import statsmodels.formula.api as smf x = df[['x']] y = df['y'] reg_mod = 'y ~ x' model = smf.ols(formula=reg_mod, data=df).fit() print_model = model.summary() print(print_model)

Hasil output dari Kode pemrograman Python diatas adalah

118

Gambar 41. Output Model Regresi Polynomial orde pertama

Gambar 41 menunjukkan nilai p-value dari Uji F statistic sebesar 0.271 yang lebih besar dibandingkan 𝛼 = 0.05, oleh karena itu variabel independennya yaitu temperature belum signifikan terhadap hasil

percobaan.

Kemudian

dilanjutkan

dengan

pemodelan

polynomial orde ke-2 atau kuadratik. Kode pemrogramnya adalah #Memodelkan dengan Regresi Linier Berganda import numpy as np import statsmodels.api as sm import statsmodels.formula.api as smf x = df[['x']] y = df['y'] reg_mod = 'y ~ x+I(x**2)' model = smf.ols(formula=reg_mod, data=df).fit() print_model = model.summary() print(print_model)

Hasil output dari kode diatas dapat dilihat pada Gambar 42.

119

Gambar 42. Outpit Model Regresi Polynomial orde ke-dua

Gambar 42 menunjukkan nilai p-value dari Uji F statistic sebesar 0.001 yang lebih kecil dibandingkan 𝛼 = 0.05, oleh karena itu variabel independennya yaitu temperature telah signifikan terhadap hasil percobaan. Sehingga bisa kita katakan bahwa model terbaik untuk menyelidiki hubungan temperature dengan hasil percobaan adalah dengan model polynomial orde kedua. Berikut adalah model regresi terbaiknya

yˆ = ˆ0 + ˆ1 x + ˆ2 x 2 yˆ = 7.9605 − 0.1537 x + 0.0011x 2

(34)

Dari Persamaan (31) dan (32) kita akan dapat menghasilkan nilai prediksi dan residualnya. Kode pemrograman python untuk menghasilkan nilai prediksi 𝑦̂ adalah prediksi = model.predict(x) print(prediksi.head())

Output hasil kode pemrograman diatas antara lain 0

2.999686

1

2.999686

2

2.999686

3

2.336478

4

2.336478

120

dtype: float64

Adapun kode pemrograman python untuk menghasilkan nilai residual 𝑒𝑖 adalah residual=model.resid print(residual.head())

Output hasil kode pemrograman diatas antara lain 0

0.300314

1

-0.199686

2

-0.099686

3

-0.036478

4

0.263522

dtype: float64

D. Perhitungan R-Squared Pada Gambar 42, diketahui bahwa nilai R-sqaured sebesar 67.3. Artinya bahwa variabel hasil percobaan dapat dijelaskan oleh variabel temperatur sebesar 67.3%, sisanya 32.7% dijelaskan oleh variabel lainnya yang tidak diketahui. E. Memberikan Hasil Kesimpulan Tujuan penelitian menggunakan metode regresi variabel polinomial adalah ingin menyelidiki hubungan antara temperature dengan hasil percobaan. Berikut adalah model yang didapatkan:

yˆ = ˆ0 + ˆ1 x + ˆ2 x 2 yˆ = 7.9605 − 0.1537 x + 0.0011x 2 Berdasarkan nilai p-value dari Uji statistic F model diatas didapatkan nilai kurang dari 0.05 pada model kuadratiknya, sehingga dapat disimpulkan bahwa temperatur berhubungan secara kuadratik dengan hasil percobaan.

121

VI. Instruksi Tugas Setelah

memahami

langkah-langkah

penyelesaian

permasalahan

data

menggunakan metode regresi Polinomial dengan bahasa pemrograman Python, pengguna e-modul praktikum dapat menyelesaikan tugas dengan instruksi sebagai berikut 1) Melakukan

analisis

data

dengan

bahasa

pemrograman

Python

memanfaatkan layanan Google Colab 2) Hasil jawaban soal diketik menggunakan File Word ukuran A4 dengan format sebagai berikut: a. Cover Laporan memuat Judul, Identitas pengguna, dan, Identitas Institusi b. Daftar Isi, jika ada tabel dan gambar maka harus ada Daftar Tabel dan Daftar Gambar c. Bab I Pendahuluan memuat latar belakang, tujuan, dan manfaat d. Bab II Tinjauan Pustaka memuat teori dari metode e. Bab III Metodologi data memuat dataset yang digunakan serta Langkahlangkah penyelesaian f. Bab IV Hasil analisis memuat hasil penyelesaian berdasarkan soal permasalahan g. Bab V Kesimpulan memuat hasil kesimpulan berdasarkan bab IV. Kesimpulan tidak boleh hasil dari copy paste h. Bab VI Daftar Pustaka 3) Laporan dikumpulkan berbentuk Pdf. 4) File Notebook Google Colab hasil pemrograman Python juga ikut dikumpulkan dengan laporan 5) Laporan dan File Notebook Google Colab dimasukan kedalam satu folder dimana folder tersebut diberi nama identitas pengguna.

VI. Soal Regresi Variabel Polinomial Mahasiswa Biologi mendapatkan tugas dari dosennya untuk meneliti umur dan Panjang 80 ikan secara random. Mereka ingin mengetahui apakah usia suatu ikan mempengaruhi ukuran panjangnya. Diketahui bahwa ternyata usia dan 122

Panjang ikan tidak berhubungan secara linier, sehingga pada data ini akan dicoba menganalisis menggunakan regresi polynomial.

Berikut adalah data

yang akan digunakan Tabel 13. Data Ukuran Ikan Berdasarkan Usia No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

Usia 1 1 2 2 2 2 3 3 3 3 3 3 3 3 3 2 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 4

Panjang 67 62 109 83 91 88 137 131 122 122 118 115 131 143 142 123 122 138 135 146 146 145 145 144 140 150 152 157 155 153 154 158 162 161 162 165 171 171 162

No 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78

Usia 4 4 5 2 2 4 3 4 3 4 4 4 4 3 3 3 4 4 3 4 5 4 5 4 4 3 5 5 4 5 3 4 3 4 6 4 5 4 4

Panjang 169 167 188 100 109 150 140 170 150 140 140 150 150 140 150 150 150 160 140 150 170 150 150 150 150 150 150 160 140 160 130 160 130 170 170 160 180 160 170

Kerjakan Data tersebut berdasarkan tujuan dari Mahasiswa dan dalam menganalisis, langkah-langkah harus diselesaikan secara lengkap sesuai dengan sub bab tutorial metode pada bab ini.

123

PENUTUP Statistika regresi merupakan mata kuliah yang mempelajari konsep analisis regresi untuk menyelesaikan permasalahan yang berkaitan dengan hubungan antara dua variabel dependen (atau variabel respon) dengan variabel independen (atau variabel prediktor). Mata kuliah ini tidak hanya mempelajari teori regresi saja namun juga mempraktekan dengan data real menggunakan bahasa pemrograman Python. Oleh karenanya dibutuhkan suatu perangkat pembelajaran yang tidak hanya berisikan teori namun juga dapat melakukan praktikum menggunakan data dari berbagai bidang. Adapun perangkat pembelajaran yang saat ini dibutuhkan mahasiswa adalah berbentuk e-modul praktikum karena perkembangan jaman yang saat ini serba digital. Penyusunan e-modul praktikum ini diharapkan dapat membantu mahasiswa secara mandiri untuk mengelola, menganalisis, dan model regresi dari data atau informasi hasil pengamatan, serta dapat memprediksi dan mengetahui pengaruh variabel independennya terhadap variabel dependen. Dalam penyusunan e-modul praktikum ini diharapakan dapat digunakan sebagai referensi tambahan dalam proses pembelajaran sehingga mahasiswa lebih mendalami materi perkuliahan dengan baik. Semoga e-modul praktikum ini bermanfaat bagi mahasiswa program studi Sains Data lebih mengembangkan diri untuk mencapai salah satu profil lulusan yang ditentukan yaitu sebagai data analyst. Penulis menyadari bahwa e-modul praktikum ini banyak kekurangan sehingga mohon saran dan kritik yang membangun demi sempurnanya penyusunan e-modul praktikum ini di masa yang akan datang.

124

KUNCI JAWABAN Berikut adalah kunci dari sebagian jawaban soal yang telah diberikan pada BAB II hingga BAB VII antara lain: BAB II : KORELASI Koefisien Pearson: 0.96899 Koefisien Spearman: 0.98299 Koefisien Tau Kendall: 0.93990

BAB III : REGRESI LINIER SEDERHANA

BAB IV : ASUMSI RESIDUAL ANALISIS REGRESI LINIER

125

126

BAB V : REGRESI LINIER BERGANDA

BAB VI: REGRESI DUMMY

127

BAB VII: REGRESI POLYNOMIAL

128

DAFTAR PUSTAKA Haslwanter, Thomas. 2016. An Introduction to Statistics with Python : With Application in the Life Sciences. Switzerland: Springer International Publishing Switzerland Kutner, M., Nachtsheim, C.J., dan Neter, J. 2004. Applied Linier Regression Models. Edisi Keempat. New York: Mc Graw- Hill/Irwin. Massaron, Luca, dan B, Alberto. 2016. Regression Analysis with Python. Brimingham: Packt Publishing Montgomery, D.C., Peck, E.A., Vining, G.G. 2012. Introduction to Linear Regression Analysis. Edisi Kelima. New Jersey: John Wiley & Sons, Inc. Weiers, Ronald M. 2008. Introduction to Business Statistics. USA: South-Western Cengage Learning Yan, X., dan Su, X.G. 2009. Linear Regression Analysis: Theory and Computing. Singapura: World Scientific Publishing Co. Pte. Ltd. Zaid, Mohamed Ahmed. 2015. Correlation and Regression Analysis. Turkey: Organization of Islamic Cooperation

129