karya wikRAMA: VALIDITAS DAN RELIABILITAS TES HASIL BELAJAR

Pendahuluan

Penilaian pendidikan adalah proses untuk mendapatkan informasi tentang prestasi atau kinerja peserta didik. Hasil penilaian digunakan untuk melakukan evaluasi terhadap ketuntasan belajar peserta didik dan efektivitas proses pembelajaran.

Fokus penilaian pendidikan adalah keberhasilan belajar peserta didik dalam mencapai standar kompetensi yang ditentukan. Pada tingkat mata pelajaran, kompetensi yang harus dicapai berupa Standar Kompetensi (SK) mata pelajaran yang selanjutnya dijabarkan dalam Kompetensi Dasar (KD). Untuk tingkat satuan pendidikan, kompetensi yang harus dicapai peserta didik adalah Standar Kompetensi Lulusan (SKL).

Prinsip penilaian mengacu pada standar penilaian pendidikan jenjang pendidikan dasar dan menengah, salah satunya yang paling utama adalah sahih dan reliabel. Sahih, berarti penilaian didasarkan pada data yang mencerminkan kemampuan yang diukur. Oleh karena itu, instrumen yang digunakan perlu disusun melalui prosedur sebagaimana dijelaskan dalam panduan agar memiliki bukti kesahihan dan keandalan.

Pada umumnya penyusun tes (baca: guru) dalam menyusun sebuah tes atau instrumen untuk mengukur keberhasilan proses belajar siswa kurang memperhatikan prosedur penyusunan yang benar, sehingga sering dijumpai alat ukur itu validitas dan reliabilitasnya kurang dapat dipertanggungjawabkan.

Ada beberapa alasan mengapa penyusun tes sebagai alat ukur kompetensi siswa sering tidak mengikuti prosedur yang baik. Pertama, kurun waktu untuk menyusun tes relatif singkat, padahal tes itu harus segera digunakan. Sebenarnya perlu waktu yang cukup lama untuk bisa menghasilkan tes yang baik. Kedua, kompetensi guru untuk mampu menyusun tes yang baik masih dirasa terbatas. Keterbatasan kompetensi ini mungkin lebih disebabkan kurangnya referensi yang dapat digunakan oleh guru dalam mengembangkan tes yang baik. Ketiga, kurangnya pengalaman untuk menyusun tes. Pengalaman merupakan ‘guru’ yang paling baik. Dengan pengalamannya, guru akan banyak belajar bagaimana menyusun tes yang mempunyai validitas dan reliabilitas yang tinggi.

Validitas

Validitas berasal dari kata validity yang mempunyai arti sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya (Azwar 1986).Suatu skala atau instrumen pengukur dapat dikatakan mempunyai validitas yang tinggi apabila instrumen tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur yang sesuai dengan maksud dilakukannya pengukuran tersebut. Sedangkan tes yang memiliki validitas rendah akan menghasilkan data yang tidak relevan dengan tujuan pengukuran.

Validitas tes biasa juga disebut sebagai kesahihan suatu tes adalah mengacu pada kemampuan suatu tes untuk mengukur karakteristik atau dimensi yang dimaksudkan untuk diukur. Sedangkan reliabilitas atau biasa juga disebut sebagai kehandalan suatu tes mengacu pada derajat suatu tes yang mampu mengukur berbagai atribut secara konsisten (Brennan, 2006). Konstruksi tes yang baik harus memenuhi kedua syarat tersebut, sehingga tes itu mampu memberikan gambaran yang sebenarnya terhadap kondisi testee (siswa) yang diuji.

Sifat valid diperlihatkan oleh tingginya validitas hasil ukur suatu tes. Suatu alat ukur yang tidak valid akan memberikan informasi yang keliru mengenai keadaan subjek atau individu yang dikenai tes itu. Apabila informasi yang keliru itu dengan sadar atau tidak dengan sadar digunakan sebagai dasar pertimbangan dalam pengambilan suatu keputusan, maka keputusan itu tentu bukan merupakan suatu keputusan yang tepat.

Pengertian validitas juga sangat erat berkaitan dengan tujuan pengukuran. Oleh karena itu, tidak ada validitas yang berlaku umum untuk semua tujuan pengukuran. Suatu alat ukur biasanya hanya merupakan ukuran yang valid untuk satu tujuan yang spesifik. Dengan demikian, anggapan valid seperti dinyatakan dalam "alat ukur ini valid" adalah kurang lengkap. Pernyataan valid tersebut harus diikuti oleh keterangan yang menunjuk kepada tujuan (yaitu valid untuk mengukur apa), serta valid bagi kelompok subjek yang mana? Istilah validitas ternyata memiliki keragaman kategori. Ebel (dalam Nazir 1988) membagi validitas menjadi concurrent validity, construct validity, face validity, factorial validity, empirical validity, intrinsic validity, predictive validity, content validity, dan curricular validity.

 Concurrent Validity adalah validitas yang berkenaan dengan hubungan antara skor dengan kinerja.

 Construct Validity adalah validitas yang berkenaan dengan kualitas aspek psikologis apa yang diukur oleh suatu pengukuran serta terdapat evaluasi bahwa suatu konstruk tertentu dapat dapat menyebabkan kinerja yang baik dalam pengukuran.

 Face Validity adalah validitas yang berhubungan apa yang nampak dalam mengukur sesuatu dan bukan terhadap apa yang seharusnya hendak diukur.

 Factorial Validity dari sebuah alat ukur adalah korelasi antara alat ukur dengan faktor-faktor yang yang bersamaan dalam suatu kelompok atau ukuran-ukuran perilaku lainnya, dimana validitas ini diperoleh dengan menggunakan teknik analisis faktor.

 Empirical Validity adalah validitas yang berkenaan dengan hubungan antara skor dengan suatu kriteria. Kriteria tersebut adalah ukuran yang bebas dan langsung dengan apa yang ingin diramalkan oleh pengukuran.

 Intrinsic Validity adalah validitas yang berkenaan dengan penggunaan teknik uji coba untuk memperoleh bukti kuantitatif dan objektif untuk mendukung bahwa suatu alat ukur benar-benar mengukur apa yang seharusnya diukur.

 Predictive Validity adalah validitas yang berkenaan dengan hubungan antara skor suatu alat ukur dengan kinerja seseorang di masa mendatang.

 Content Validity adalah validitas yang berkenaan dengan baik buruknya sampling dari suatu populasi.

 Curricular Validity adalah validitas yang ditentukan dengan cara menilik isi dari pengukuran dan menilai seberapa jauh pengukuran tersebut merupakan alat ukur yang benar-benar mengukur aspek-aspek sesuai dengan tujuan instruksional.

Sementara itu, Kerlinger (1990) membagi validitas menjadi tiga yaitu content validity (validitas isi), construct validity (validitas konstruk), dan criterion-related validity (validitas berdasar kriteria). Semua jenis kesahihan harus diperhatikan untuk semua jenis tes, hanya penekanan yang berbeda. Tes psikologi menekankan pada konstruksi tes, tes pencapaian belajar menekankan pada kesahihan isi, sedangkan tes seleksi menekankan pada kesahihan kriteria, terutama pada kesahihan prediktif.

Pada pembahasan ini, akan dititik beratkan pada validitas ini, karena akan berbicara tentang tes hasil belajar. Validitas isi merupakan validitas yang diperhitumgkan melalui pengujian terhadap isi alat ukur dengan analisis rasional. Pertanyaan yang dicari jawabannya dalam validasi ini adalah "sejauhmana item-item dalam suatu alat ukur mencakup keseluruhan kawasan isi objek yang hendak diukur oleh alat ukur yang bersangkutan?" atau berhubungan dengan representasi dari keseluruhan kawasan.

Pengertian "mencakup keseluruhan kawasan isi" tidak saja menunjukkan bahwa alat ukur tersebut harus komprehensif isinya akan tetapi harus pula memuat hanya isi yang relevan dan tidak keluar dari batasan tujuan ukur.

Walaupun isi atau kandungannya komprehensif tetapi bila suatu alat ukur mengikutsertakan pula item-item yang tidak relevan dan berkaitan dengan hal-hal di luar tujuan ukurnya, maka validitas alat ukur tersebut tidak dapat dikatakan memenuhi ciri validitas yang sesungguhnya.

Apakah validitas isi sebagaimana dimaksudkan itu telah dicapai oleh alat ukur, sebanyak tergantung pada penilaian subjektif individu. Dikarenakan estimasi validitas ini tidak melibatkan komputasi statistik, melainkan hanya dengan analisis rasional maka tidak diharapkan bahwa setiap orang akan sependapat dan sepaham dengan sejauhmana validitas isi suatu alat ukur telah tercapai.

Selanjutnya, validitas isi ini terbagi lagi menjadi dua tipe, yaitu face validity (validitas muka) dan logical validity (validitas logis). Face Validity (Validitas Muka). Validitas muka adalah tipe validitas yang paling rendah signifikasinya karena hanya didasarkan pada penilaian selintas mengenai isi alat ukur. Apabila isi alat ukur telah tampak sesuai dengan apa yang ingin diukur maka dapat dikatakan validitas muka telah terpenuhi.

Dengan alasan kepraktisan, banyak alat ukur yang pemakaiannya terbatas hanya mengandalkan validitas muka. Alat ukur atau instrumen psikologi pada umumnya tidak dapat menggantungkan kualitasnya hanya pada validitas muka. Pada alat ukur psikologis yang fungsi pengukurannya memiliki sifat menentukan, seperti alat ukur untuk seleksi karyawan atau alat ukur pengungkap kepribadian (asesmen), dituntut untuk dapat membuktikan validitasnya yang kuat.

Logical Validity (Validitas Logis). Validitas logis disebut juga sebagai validitas sampling (sampling validity). Validitas tipe ini menunjuk pada sejauhmana isi alat ukur merupakan representasi dari aspek yang hendak diukur. Untuk memperoleh validitas logis yang tinggi suatu alat ukur harus dirancang sedemikian rupa sehingga benar-benar berisi hanya item yang relevan dan perlu menjadi bagian alat ukur secara keseluruhan. Suatu objek ukur yang hendak diungkap oleh alat ukur hendaknya harus dibatasi lebih dahulu kawasan perilakunya secara seksama dan konkrit. Batasan perilaku yang kurang jelas akan menyebabkan terikatnya item-item yang tidak relevan dan tertinggalnya bagian penting dari objek ukur yang seharusnya masuk sebagai bagian dari alat ukur yang bersangkuatan. Validitas logis memang sangat penting peranannya dalam penyusunan tes prestasi dan penyusunan skala, yaitu dengan memanfaatkan blue-print atau tabel spesifikasi.

Bila skor pada tes diberi lambang x dan skor pada kriterianya mempunyai lambang y maka koefisien antara tes dan kriteria itu adalah r_xy inilah yang digunakan untuk menyatakan tinggi-rendahnya validitas suatu alat ukur.

Pengukuran validitas sebenarnya dilakukan untuk mengetahui seberapa besar (dalam arti kuantitatif) suatu aspek psikologis terdapat dalam diri seseorang, yang dinyatakan oleh skor pada instrumen pengukur yang bersangkutan.

Koefisien validitas pun hanya punya makna apabila apalagi mempunyai harga yang positif. Walaupun semakin tinggi mendekati angka 1 berarti suatu tes semakin valid hasil ukurnya, namun dalam kenyataanya suatu koefisien validitas tidak akan pernah mencapai angka maksimal atau mendekati angka 1. Bahkan suatu koefisien validitas yang tinggi adalah lebih sulit untuk dicapai daripada koefisien reliabilitas. Tidak semua pendekatan dan estimasi terhadap validitas tes akan menghasilkan suatu koefisien. Koefisien validitas diperoleh hanya dari komputasi statistika secara empiris antara skor tes dengan skor kriteria yang besarnya disimbolkan oleh r_xy tersebut. Pada pendekatan-pendekatan tertentu tidak dihasilkan suatu koefisien akan tetapi diperoleh indikasi validitas yang lain.

Menurut Suryabrata (2000), bahwa untuk mengetahui validitas isi dari sebuah instrumen dapat digunakan validasi dari pendapat ahli (profesional judgment). Koefisien validasi isi dapat dilakukan secara kualitatif dan kuantitatif oleh beberapa orang pakar (Gregory, 2000 dalam Koyan, 2002). Untuk menetukan koefisien validitas isi, hasil penilaian dari kedua pakar dimasukkan ke dalam tabulasi silang 2 X 2 yang terdiri dari kolom A, B, C, dan D. Kolom A adalah sel yang menunjukkan ketidaksetujuan kedua penilai. Kolom B dan C adalah sel yang menunjukkan perbedaan pandangan antara penilai pertama dan kedua (penilai pertama setuju penilai kedua tidak setuju, atau sebaliknya). Kolom D adalah sel yang menunjukkan persetujuan antara kedua penilai. Validitas isi adalah banyaknya butir soal pada kolom D dibagi dengan banyaknya butir soal kolom A + B + C + D.

Setelah butir soal divalidasi oleh dua penilai, selanjutnya dianalisis dengan menggunakan perhitungan menurut Gregory seperti pada tabel berikut.

Tabel Matrik Uji Gregory

Judges		Judges I
Judges	Penilaian Judges	Kurang Relevan	Sangat Relevan
Judges II	Kurang Relevan	A (- - )	B (+ -)
Judges II	Sangat Relevan	C (- +)	D (+ +)

Dari tabel di atas dapat dicari validitas konten ( Content Validity) dengan menggunakan rumus Gregory :

VC =

Keterangan : VC = Validitas Konten

D = Kedua Judges setuju

A. = Kedua Judges tidak setuju

B. = Judges I setuju, Judges II tidak setuju

C. = Judges I tidak setuju, Judges II setuju

Kriteria Validitas Konten :

a. 0,80 - 1,00 = Sangat tinggi

b. 0,60 - 0,79 = Tinggi

c. 0,40 - 0,59 = Sedang

d. 0,20 - 0,39 = Rendah

e. 0,00 - 0,19 = Sangat rendah

Sebagai dasar penilaian terhadap isi sebuah tes, maka berikut diuraikan kaidah penulisan soal.

Aspek Materi

1. Soal harus sesuai dengan Indikator.

2. Pengecoh berfungsi.

3. Setiap soal harus mempunyai satu jawaban yang benar atau yang paling benar.

Aspek Konstruksi

Pokok soal harus dirumuskan secara jelas dan tegas.
Rumusan pokok soal dan pilihan jawaban harus merupakan pernyataan yang diperlukan saja.
Pokok soal jangan memberi petunjuk ke arah jawaban benar.
Pokok soal jangan mengandung pernyataan negatif ganda.
Pilihan jawaban harus homogen dan logis ditinjau dari segi materi.
Panjang rumusan pilihan jawaban harus relatif sama.
Pilihan jawaban jangan mengandung pernyataan, “Semua pilihan jawaban di atas salah”.
Pilihan jawaban yang berbentuk angka atau waktu harus disusun berdasarkan urutan besar kecilnya nilai angka tersebut, atau kronologis waktunya.
Gambar, grafik, tabel, diagram, dan sejenisnya yang terdapat pada soal harus jelas dan berfungsi.

10. Butir soal jangan bergantung pada jawaban soal sebelumnya. Ketergantungan pada soal sebelumnya

Aspek Bahasa

Setiap soal harus menggunakan bahasa yang sesuai dengan kaidah bahasa Indonesia.
Menggunakan bahasa yang komunikatif, sehingga mudah dimengerti.
Jangan menggunakan bahasa yang berlaku setempat.
Pilihan jawaban jangan mengulang kata atau frase yang bukan merupakan satu kesatuan pengertian.

Dalam hal pengukuran ilmu sosial, validitas yang ideal tidaklah mudah untuk dapat dicapai. Pengukuran aspek-aspek psikologis dan sosial mengandung lebih banyak sumber kesalahan (error) daripada pengukuran aspek fisik. Kita tidak pernah dapat yakin bahwa validitas instrinsik telah terpenuhi dikarenakan kita tidak dapat membuktikannya secara empiris dengan langsung.

Pengertian validitas alat ukur tidaklah berlaku umum untuk semua tujuan ukur. Suatu alat ukur menghasilkan ukuran yang valid hanya bagi satu tujuan ukur tertentu saja. Tidak ada alat ukur yang dapat menghasilkan ukuran yang valid bagi berbagai tujuan ukur. Oleh karena itu, pernyataan seperti "alat ukur ini valid" belumlah lengkap apabila tidak diikuti oleh keterangan yang menunjukkan kepada tujuannya, yaitu valid untuk apa dan valid bagi siapa. Itulah yang ditekankan oleh Cronbach (dalam Azwar 1986) bahwa dalam proses validasi sebenarnya kita tidak bertujuan untuk melakukan validasi alat ukur akan tetapi melakukan validasi terhadap interpretasi data yang diperoleh oleh prosedur tertentu.

Dengan demikian, walaupun kita terbiasa melekatkan predikat valid bagi suatu alat ukur akan tetapi hendaklah selalu kita pahami bahwa sebenarnya validitas menyangkut masalah hasil ukur bukan masalah alat ukurnya sendiri. Sebutan validitas alat ukur hendaklah diartikan sebagi validitas hasil pengukuran yang diperoleh oleh alat ukur tersebut.

Atas alasan tersebut di atas, maka uji validitas perlu dilakukan dengan uji coba langsung kepada testee. Setelah uji empiric dilakukan, maka hasilnya dilakukan analisis butir meliputi uji validitas.

Validitas butir dicari dengan mengkorelasikan skor butir dengan skor total. Rumus yang digunakan adalah korelasi produk moment dengan rumus :

Keterangan :

X = Skor butir

Y = Skor total

N = banyaknya responden (Arikunto, 2001:72)

Kriteria yang digunakan adalah dengan membandingkan harga r_xy dengan harga tabel kritik r product moment, dengan ketentuan r_xydikatakan valid apabilar_xy
›r_tabel pada ts = 0,05. Namun dalam analisi menggunakan program microsoft excel telah tersedia fungsi korelasi. Sehingga dalam uji ini digunakan rumus korelasi pada program microsoft excel.

Reliabilitas

Suatu alat ukur dikatakan reliabel jika alat ukur tersebut menunjukkan sejauh mana hasil pengukuran dengan alat tersebut dapat dipercaya. Hal ini ditunjukkan oleh taraf keajegan (konsistensi) skor yang diperoleh oleh para subjek yang diukur dengan alat yang sama, atau diukur dengan alat yang setara pada kondisi yang berbeda. Dalam artinya yang paling luas, realiabilitas alat ukur menunjuk kepada sejauh mana perbedaan-perbedaan skor perolehan itu mencerminkan perbedaan-perbedaan atribut yang sebenarnya.

Reliabilitas alat ukur yang juga menunjukkan derajat kekeliruan pengukuran tak dapat ditentukan dengan pasti, malainkan hanya dapat diestimasi. Ada tiga pendekatan dalam mengestimasi relibilitas alat ukur itu, yaitu:

Pendekatan tes ulang / Test-Retest Method: Suatu perangkat tes diberikan kepada sekelompok subjek 2x, dengan selang waktu tertentu, misalkan 2 minggu. Reliabilitas tes dicari dengan menghitung korelasi antara skor pada testing 1 dan skor pada testing 2. Pendekatan ini secara teori baik, namun didalam praktek mengandung kelemahan, yaitu bahwa kondisi subjek pada testing 2 tidak lagi sama dengan kondisi subjek pada testing 1, karena terjadinya proses belajar, pengalaman, perubahan motivasi, dll. Oleh karena itu pendekatan ini sudah sangat jarang dipakai. Pendekatan ini sangat sesuai kalau yang dijadikan objek pengukuran adalah ketrampilan, terutama ketrampilan fisik.
Pendekatan dengan tes paralel / Parallel Form Method: Dua perangkat tes yang paralel, misalnya perangkat A dan B diberikan kepada sekelompok subjek. Reliabilitas tes dicari dengan menghitung korelasi antara skor pada perangkat A dan skor pada perangkat B. Keterbatasan utama pendekatan ini terletak pada sulitnya menyusun 2 perangkat tes yang paralel. Pendekatan inipun sudah jarang digunakan.
Pendekatan pengukuran satu kali / Single Trial Method: Seperangkat tes diberikan kepada sekelompok subjek satu kali, lalu dengan cara tertentu dihitung estimasi reliabilitas tes tersebut. Pendekatan pengukuran satu kali ini menghasilkan informasi mengenai keajegan (konsistensi) internal alat ukur. Pendekatan pengukuran satu kali ini dapat menghindarkan diri dari kesulitan yang timbul dari pendekatan dengan pengukuran ulang maupun pendekatan tes paralel, oleh karena itu pendekatan ini banyak digunakan. Yang menggunakan pendekatan pengukuran satu kali:

1. Spearman-Brown: Jumlah butir dibelah menjadi 2 dan dicari nilai rxx-nya. Jumlah butir dapat dibelah kiri dan kanan, angka ganjil dan genap maupun dengan cara random / acak. Bila nilai rxx-nya > 0.8 maka dianggap reliabel.

2. Rulon: Menghitung dengan melihat selisih belahan satu dengan belahan yang lain, bukan dilihat dari belahannya. Bila nilai rxx-nya > 0.8 maka dianggap reliabel.

3. Alpha Cronbach: Alpha membagi jumlah butir dengan berapapun asal sama rata, tidak seperti Spearman-Brown dan Rulon yang tidak dapat membagi dua angka ganjil menjadi sama rata seperti misalnya angka 15, Alpha bisa membagi menjadi: 5, 5 dan 5. Bila nilai Alpha-nya > 0.8 maka dianggap reliabel.

4. Anava Hoyt: Membagi jumlah butir sebesar jumlah butirnya, jadi dapat dibagi berapapun, tidak seperti Alpha yang tidak dapat membagi jumlah butir yang nilainya imajiner, misalnya 19. Tapi Alpha akhirnya mengeluarkan rumus baru yang dapat membagi jumlah butir sebesar jumlah butirnya juga. Dan Anava Hoyt dan Alpha yang paling banyak digunakan dalam perhitungan reliabilitas sampai saat ini. Bila nilai rtt-nya > 0.8 maka dianggap reliabel.

5. KR20: Kuder Richardson mengeluarkan rumus perbaikan tetapi KR20 juga jarang dipakai karena KR20 hanya dapat digunakan pada data dikotomi (pilihan ya dan tidak / 0 dan 1) tidak seperti diatas, yang bisa menghitung data dikotomi dan kontinu. Bila nilai KR20-nya > 0.8 maka dianggap reliabel.

Tapi ada pendapat lain yang mengatakan bahwa suatu suatu alat tes bukan dilihat dari rtt-nya tapi dilihat dari seberapa besar penyimpangan dari alat ukur tersebut (Standart Error Measurement / SEM / SE). Semakin kecil nilai penyimpangannya maka alat ukur tersebut semakin baik.

Dengan adanya kemajuan teknologi dan adanya program-program komputer yang menangani tentang statistik, kita tidak perlu lagi menghitung secara manual, kita bisa menggunakan program SPSS atau menggunakan program SPS.

Reliabilitas menyangkut derajat konsistensi atau kesepakatan antara dua perangkat skor yang diturunkan secara indipenden sehingga dapat diungkap dengan istilah koefisien korelasi. Dalam uji empiric ini digunakan koefisien alfa hasil penurunan rumus yang dilakukan oleh Cronbach yakni

(Anastasi dan Urbina, 2006:110)

Dimana :

r_tt adalah koefisien reliabilitas seluruh tes

n adalah jumlah soal dalam tes

adalah varian skor-skor total pada tes

adalah varian skor tes ke i

Pustaka

Brenan, Robert L. 2006. Educational Measurement. Washington: American Council on Education Praeger.

Djemari Mardapi. 2003. Konstruksi Tes dan Analisis Butir. Bahan lokakarya Metodologi Interaksi Pembelajaran. Unpublished.

http://violetatniyamani.blogspot.com/2007/09/teori-validitas.html

Kumaidi. 2008. Konstruksi Instrumen. Bahan Kuliah Pascasarjana UNY. Unpublished.

Fernandes, H.J.X. 1984, Testing and Measurenment. Jakarta : National Education Planning, Evaluation and Curriculum Development

Koyan, I Wayan. 2004. Konsep Dasar dan Teknik Evaluasi Hasil Belajar. Singaraja : IKIP Negeri Singaraja

Laman

Wednesday, April 8, 2015

VALIDITAS DAN RELIABILITAS TES HASIL BELAJAR

Aspek Konstruksi

Aspek Bahasa

No comments:

Post a Comment