Pendahuluan
Penilaian
pendidikan adalah proses untuk mendapatkan informasi tentang prestasi atau
kinerja peserta didik. Hasil penilaian
digunakan untuk melakukan evaluasi terhadap ketuntasan belajar peserta didik
dan efektivitas proses pembelajaran.
Fokus penilaian pendidikan adalah
keberhasilan belajar peserta didik dalam mencapai standar kompetensi yang
ditentukan. Pada tingkat mata pelajaran, kompetensi yang harus dicapai berupa
Standar Kompetensi (SK) mata pelajaran yang selanjutnya dijabarkan dalam
Kompetensi Dasar (KD). Untuk tingkat satuan pendidikan, kompetensi yang harus dicapai
peserta didik adalah Standar Kompetensi Lulusan (SKL).
Pada umumnya
penyusun tes (baca: guru) dalam menyusun sebuah tes atau instrumen untuk
mengukur keberhasilan proses belajar siswa kurang memperhatikan prosedur
penyusunan yang benar, sehingga sering dijumpai alat ukur itu validitas dan
reliabilitasnya kurang dapat dipertanggungjawabkan.
Ada beberapa alasan
mengapa penyusun tes sebagai alat ukur kompetensi siswa sering tidak mengikuti
prosedur yang baik. Pertama, kurun
waktu untuk menyusun tes relatif singkat, padahal tes itu harus segera
digunakan. Sebenarnya perlu waktu yang cukup lama untuk bisa menghasilkan tes
yang baik. Kedua, kompetensi guru untuk mampu menyusun tes yang baik
masih dirasa terbatas. Keterbatasan kompetensi ini mungkin lebih disebabkan
kurangnya referensi yang dapat digunakan oleh guru dalam mengembangkan tes yang
baik. Ketiga, kurangnya pengalaman untuk menyusun tes. Pengalaman merupakan
‘guru’ yang paling baik. Dengan pengalamannya, guru akan banyak belajar
bagaimana menyusun tes yang mempunyai validitas dan reliabilitas yang
tinggi.
Validitas
Validitas berasal
dari kata validity yang mempunyai arti sejauh mana ketepatan dan
kecermatan suatu alat ukur dalam melakukan fungsi ukurnya (Azwar 1986).Suatu
skala atau instrumen pengukur dapat dikatakan mempunyai validitas yang tinggi
apabila instrumen tersebut menjalankan fungsi ukurnya, atau memberikan hasil
ukur yang sesuai dengan maksud dilakukannya pengukuran tersebut. Sedangkan tes
yang memiliki validitas rendah akan menghasilkan data yang tidak relevan dengan
tujuan pengukuran.
Validitas tes biasa
juga disebut sebagai kesahihan suatu tes adalah mengacu pada kemampuan suatu
tes untuk mengukur karakteristik atau dimensi yang dimaksudkan untuk diukur.
Sedangkan reliabilitas atau biasa juga disebut sebagai kehandalan suatu tes
mengacu pada derajat suatu tes yang mampu mengukur berbagai atribut secara
konsisten (Brennan, 2006). Konstruksi tes yang baik harus memenuhi kedua syarat
tersebut, sehingga tes itu mampu memberikan gambaran yang sebenarnya terhadap
kondisi testee (siswa) yang diuji.
Sifat valid
diperlihatkan oleh tingginya validitas hasil ukur suatu tes. Suatu alat ukur
yang tidak valid akan memberikan informasi yang keliru mengenai keadaan subjek
atau individu yang dikenai tes itu. Apabila informasi yang keliru itu dengan
sadar atau tidak dengan sadar digunakan sebagai dasar pertimbangan dalam
pengambilan suatu keputusan, maka keputusan itu tentu bukan merupakan suatu
keputusan yang tepat.
Pengertian validitas juga sangat erat
berkaitan dengan tujuan pengukuran. Oleh karena itu, tidak ada validitas yang
berlaku umum untuk semua tujuan pengukuran. Suatu alat ukur biasanya hanya
merupakan ukuran yang valid untuk satu tujuan yang spesifik. Dengan demikian,
anggapan valid seperti dinyatakan dalam "alat ukur ini valid" adalah
kurang lengkap. Pernyataan valid tersebut harus diikuti oleh keterangan yang
menunjuk kepada tujuan (yaitu valid untuk mengukur apa), serta valid bagi
kelompok subjek yang mana? Istilah validitas ternyata memiliki keragaman
kategori. Ebel (dalam Nazir 1988) membagi validitas menjadi concurrent validity,
construct validity, face validity, factorial validity, empirical validity,
intrinsic validity, predictive validity, content validity, dan
curricular validity.
Concurrent Validity
adalah validitas yang berkenaan dengan hubungan antara skor dengan kinerja.
Construct Validity adalah validitas yang berkenaan dengan
kualitas aspek psikologis apa yang diukur oleh suatu pengukuran serta terdapat
evaluasi bahwa suatu konstruk tertentu dapat dapat menyebabkan kinerja yang
baik dalam pengukuran.
Face Validity adalah validitas yang berhubungan apa
yang nampak dalam mengukur sesuatu dan bukan terhadap apa yang seharusnya
hendak diukur.
Factorial Validity dari sebuah alat ukur adalah korelasi
antara alat ukur dengan faktor-faktor yang yang bersamaan dalam suatu kelompok
atau ukuran-ukuran perilaku lainnya, dimana validitas ini diperoleh dengan
menggunakan teknik analisis faktor.
Empirical Validity adalah validitas yang berkenaan dengan
hubungan antara skor dengan suatu kriteria. Kriteria tersebut adalah ukuran
yang bebas dan langsung dengan apa yang ingin diramalkan oleh pengukuran.
Intrinsic Validity adalah validitas yang berkenaan dengan
penggunaan teknik uji coba untuk memperoleh bukti kuantitatif dan objektif
untuk mendukung bahwa suatu alat ukur benar-benar mengukur apa yang seharusnya
diukur.
Predictive Validity adalah validitas yang berkenaan dengan
hubungan antara skor suatu alat ukur dengan kinerja seseorang di masa
mendatang.
Content Validity adalah validitas yang berkenaan dengan baik
buruknya sampling dari suatu populasi.
Curricular Validity adalah validitas yang ditentukan dengan
cara menilik isi dari pengukuran dan menilai seberapa jauh pengukuran tersebut
merupakan alat ukur yang benar-benar mengukur aspek-aspek sesuai dengan tujuan
instruksional.
Sementara itu,
Kerlinger (1990) membagi validitas menjadi tiga yaitu content validity (validitas
isi), construct validity (validitas konstruk), dan criterion-related
validity (validitas berdasar kriteria). Semua jenis kesahihan harus
diperhatikan untuk semua jenis tes, hanya penekanan yang berbeda. Tes psikologi menekankan pada konstruksi
tes, tes pencapaian belajar menekankan pada kesahihan isi, sedangkan tes
seleksi menekankan pada kesahihan kriteria, terutama pada kesahihan prediktif.
Pada pembahasan
ini, akan dititik beratkan pada validitas ini, karena akan berbicara tentang
tes hasil belajar. Validitas isi
merupakan validitas yang diperhitumgkan melalui pengujian terhadap isi alat
ukur dengan analisis rasional. Pertanyaan
yang dicari jawabannya dalam validasi ini adalah "sejauhmana item-item
dalam suatu alat ukur mencakup keseluruhan kawasan isi objek yang hendak diukur
oleh alat ukur yang bersangkutan?" atau berhubungan dengan representasi
dari keseluruhan kawasan.
Pengertian
"mencakup keseluruhan kawasan isi" tidak saja menunjukkan bahwa alat
ukur tersebut harus komprehensif isinya akan tetapi harus pula memuat hanya isi
yang relevan dan tidak keluar dari batasan tujuan ukur.
Walaupun isi
atau kandungannya komprehensif tetapi bila suatu alat ukur mengikutsertakan
pula item-item yang tidak relevan dan berkaitan dengan hal-hal di luar tujuan
ukurnya, maka validitas alat ukur tersebut tidak dapat dikatakan memenuhi ciri
validitas yang sesungguhnya.
Apakah validitas
isi sebagaimana dimaksudkan itu telah dicapai oleh alat ukur, sebanyak
tergantung pada penilaian subjektif individu. Dikarenakan estimasi validitas
ini tidak melibatkan komputasi statistik, melainkan hanya dengan analisis
rasional maka tidak diharapkan bahwa setiap orang akan sependapat dan sepaham
dengan sejauhmana validitas isi suatu alat ukur telah tercapai.
Selanjutnya,
validitas isi ini terbagi lagi menjadi dua tipe, yaitu face validity (validitas
muka) dan logical validity (validitas logis). Face Validity (Validitas Muka). Validitas muka
adalah tipe validitas yang paling rendah signifikasinya karena hanya didasarkan
pada penilaian selintas mengenai isi alat ukur. Apabila isi alat ukur telah
tampak sesuai dengan apa yang ingin diukur maka dapat dikatakan validitas muka
telah terpenuhi.
Dengan alasan kepraktisan, banyak
alat ukur yang pemakaiannya terbatas hanya mengandalkan validitas muka. Alat
ukur atau instrumen psikologi pada umumnya tidak dapat menggantungkan
kualitasnya hanya pada validitas muka. Pada alat ukur psikologis yang fungsi
pengukurannya memiliki sifat menentukan, seperti alat ukur untuk seleksi
karyawan atau alat ukur pengungkap kepribadian (asesmen), dituntut untuk dapat
membuktikan validitasnya yang kuat.
Logical Validity (Validitas Logis). Validitas logis
disebut juga sebagai validitas sampling (sampling validity). Validitas
tipe ini menunjuk pada sejauhmana isi alat ukur merupakan representasi dari
aspek yang hendak diukur. Untuk memperoleh validitas logis yang tinggi suatu
alat ukur harus dirancang sedemikian rupa sehingga benar-benar berisi hanya
item yang relevan dan perlu menjadi bagian alat ukur secara keseluruhan. Suatu
objek ukur yang hendak diungkap oleh alat ukur hendaknya harus dibatasi lebih
dahulu kawasan perilakunya secara seksama dan konkrit. Batasan perilaku yang
kurang jelas akan menyebabkan terikatnya item-item yang tidak relevan dan
tertinggalnya bagian penting dari objek ukur yang seharusnya masuk sebagai bagian
dari alat ukur yang bersangkuatan. Validitas logis
memang sangat penting peranannya dalam penyusunan tes prestasi dan penyusunan
skala, yaitu dengan memanfaatkan blue-print atau tabel spesifikasi.
Bila skor pada
tes diberi lambang x dan skor pada kriterianya mempunyai lambang y maka
koefisien antara tes dan kriteria itu adalah rxy inilah yang
digunakan untuk menyatakan tinggi-rendahnya validitas suatu alat ukur.
Pengukuran
validitas sebenarnya dilakukan untuk mengetahui seberapa besar (dalam arti kuantitatif)
suatu aspek psikologis terdapat dalam diri seseorang, yang dinyatakan oleh skor
pada instrumen pengukur yang bersangkutan.
Koefisien validitas pun hanya punya makna
apabila apalagi mempunyai harga yang positif. Walaupun semakin tinggi mendekati
angka 1 berarti suatu tes semakin valid hasil ukurnya, namun dalam kenyataanya
suatu koefisien validitas tidak akan pernah mencapai angka maksimal atau
mendekati angka 1. Bahkan suatu koefisien validitas yang tinggi adalah lebih
sulit untuk dicapai daripada koefisien reliabilitas. Tidak semua pendekatan dan
estimasi terhadap validitas tes akan menghasilkan suatu koefisien. Koefisien
validitas diperoleh hanya dari komputasi statistika secara empiris antara skor
tes dengan skor kriteria yang besarnya disimbolkan oleh rxy
tersebut. Pada pendekatan-pendekatan tertentu tidak dihasilkan suatu koefisien
akan tetapi diperoleh indikasi validitas yang lain.
Menurut Suryabrata (2000), bahwa untuk mengetahui
validitas isi dari sebuah instrumen dapat digunakan validasi dari pendapat ahli
(profesional judgment). Koefisien validasi isi dapat dilakukan secara
kualitatif dan kuantitatif oleh beberapa orang pakar (Gregory, 2000 dalam
Koyan, 2002). Untuk menetukan koefisien
validitas isi, hasil penilaian dari kedua pakar dimasukkan ke dalam tabulasi
silang 2 X 2 yang terdiri dari kolom A, B, C, dan D. Kolom A adalah sel yang
menunjukkan ketidaksetujuan kedua penilai. Kolom B dan C adalah sel yang
menunjukkan perbedaan pandangan antara penilai pertama dan kedua (penilai
pertama setuju penilai kedua tidak setuju, atau sebaliknya). Kolom D adalah sel
yang menunjukkan persetujuan antara kedua penilai. Validitas isi adalah
banyaknya butir soal pada kolom D dibagi dengan banyaknya butir soal kolom A +
B + C + D.
Setelah butir soal divalidasi oleh dua
penilai, selanjutnya dianalisis dengan menggunakan perhitungan menurut Gregory
seperti pada tabel berikut.
Tabel Matrik Uji
Gregory
Judges
|
Judges I
|
||
Penilaian Judges
|
Kurang Relevan
|
Sangat Relevan
|
|
Judges II
|
Kurang Relevan
|
A (- - )
|
B (+ -)
|
Sangat Relevan
|
C
(- +)
|
D
(+ +)
|
Dari tabel di atas dapat dicari
validitas konten ( Content Validity)
dengan menggunakan rumus Gregory :
VC =
Keterangan
: VC = Validitas Konten
D
= Kedua Judges setuju
A. =
Kedua Judges tidak setuju
B. =
Judges I setuju, Judges II tidak setuju
C. =
Judges I tidak setuju, Judges II setuju
Kriteria
Validitas Konten :
a.
0,80 -
1,00 = Sangat tinggi
b.
0,60 -
0,79 = Tinggi
c.
0,40 -
0,59 = Sedang
d.
0,20 -
0,39 = Rendah
e.
0,00 -
0,19 = Sangat rendah
Sebagai dasar penilaian terhadap isi
sebuah tes, maka berikut diuraikan kaidah penulisan soal.
Aspek Materi
1. Soal harus sesuai
dengan Indikator.
2.
Pengecoh
berfungsi.
3.
Setiap
soal harus mempunyai satu jawaban yang benar atau yang paling benar.
Aspek Konstruksi
- Pokok soal harus dirumuskan secara jelas dan tegas.
- Rumusan pokok soal dan pilihan jawaban harus merupakan pernyataan yang diperlukan saja.
- Pokok soal jangan memberi petunjuk ke arah jawaban benar.
- Pokok soal jangan mengandung pernyataan negatif ganda.
- Pilihan jawaban harus homogen dan logis ditinjau dari segi materi.
- Panjang rumusan pilihan jawaban harus relatif sama.
- Pilihan jawaban jangan mengandung pernyataan, “Semua pilihan jawaban di atas salah”.
- Pilihan jawaban yang berbentuk angka atau waktu harus disusun berdasarkan urutan besar kecilnya nilai angka tersebut, atau kronologis waktunya.
- Gambar, grafik, tabel, diagram, dan sejenisnya yang terdapat pada soal harus jelas dan berfungsi.
10.
Butir soal jangan bergantung pada jawaban soal sebelumnya. Ketergantungan pada
soal sebelumnya
Aspek Bahasa
- Setiap soal harus menggunakan bahasa yang sesuai dengan kaidah bahasa Indonesia.
- Menggunakan bahasa yang komunikatif, sehingga mudah dimengerti.
- Jangan menggunakan bahasa yang berlaku setempat.
- Pilihan jawaban jangan mengulang kata atau frase yang bukan merupakan satu kesatuan pengertian.
Dalam hal pengukuran ilmu sosial, validitas yang ideal
tidaklah mudah untuk dapat dicapai. Pengukuran aspek-aspek psikologis dan sosial mengandung
lebih banyak sumber kesalahan (error) daripada pengukuran aspek fisik.
Kita tidak pernah dapat yakin bahwa validitas instrinsik telah terpenuhi
dikarenakan kita tidak dapat membuktikannya secara empiris dengan langsung.
Pengertian
validitas alat ukur tidaklah berlaku umum untuk semua tujuan ukur. Suatu alat
ukur menghasilkan ukuran yang valid hanya bagi satu tujuan ukur tertentu saja.
Tidak ada alat ukur yang dapat menghasilkan ukuran yang valid bagi berbagai
tujuan ukur. Oleh karena itu, pernyataan seperti "alat ukur ini
valid" belumlah lengkap apabila tidak diikuti oleh keterangan yang menunjukkan
kepada tujuannya, yaitu valid untuk apa dan valid bagi siapa. Itulah yang
ditekankan oleh Cronbach (dalam Azwar 1986) bahwa dalam proses validasi
sebenarnya kita tidak bertujuan untuk melakukan validasi alat ukur akan tetapi
melakukan validasi terhadap interpretasi data yang diperoleh oleh prosedur
tertentu.
Dengan demikian,
walaupun kita terbiasa melekatkan predikat valid bagi suatu alat ukur akan
tetapi hendaklah selalu kita pahami bahwa sebenarnya validitas menyangkut
masalah hasil ukur bukan masalah alat ukurnya sendiri. Sebutan validitas alat
ukur hendaklah diartikan sebagi validitas hasil pengukuran yang diperoleh oleh
alat ukur tersebut.
Atas alasan
tersebut di atas, maka uji validitas perlu dilakukan dengan uji coba langsung
kepada testee. Setelah uji empiric dilakukan, maka hasilnya dilakukan analisis
butir meliputi uji validitas.
Validitas butir dicari dengan
mengkorelasikan skor butir dengan skor total. Rumus yang digunakan adalah
korelasi produk moment dengan
rumus :
Keterangan :
X =
Skor butir
Y =
Skor total
N =
banyaknya responden (Arikunto, 2001:72)
Kriteria yang digunakan adalah dengan
membandingkan harga rxy dengan harga tabel kritik r product
moment, dengan ketentuan rxy dikatakan valid apabila rxy
› rtabel pada ts =
0,05. Namun dalam analisi menggunakan program microsoft excel telah tersedia
fungsi korelasi. Sehingga dalam uji ini digunakan rumus korelasi pada program
microsoft excel.
Reliabilitas
Suatu alat ukur dikatakan reliabel jika alat ukur
tersebut menunjukkan sejauh mana hasil pengukuran dengan alat tersebut dapat
dipercaya. Hal ini ditunjukkan oleh taraf keajegan (konsistensi) skor yang
diperoleh oleh para subjek yang diukur dengan alat yang sama, atau diukur
dengan alat yang setara pada kondisi yang berbeda. Dalam artinya yang paling
luas, realiabilitas alat ukur menunjuk kepada sejauh mana perbedaan-perbedaan
skor perolehan itu mencerminkan perbedaan-perbedaan atribut yang sebenarnya.
Reliabilitas alat ukur yang juga menunjukkan derajat
kekeliruan pengukuran tak dapat ditentukan dengan pasti, malainkan hanya dapat
diestimasi. Ada tiga pendekatan dalam mengestimasi relibilitas alat ukur itu,
yaitu:
- Pendekatan tes ulang / Test-Retest Method: Suatu perangkat tes diberikan kepada sekelompok subjek 2x, dengan selang waktu tertentu, misalkan 2 minggu. Reliabilitas tes dicari dengan menghitung korelasi antara skor pada testing 1 dan skor pada testing 2. Pendekatan ini secara teori baik, namun didalam praktek mengandung kelemahan, yaitu bahwa kondisi subjek pada testing 2 tidak lagi sama dengan kondisi subjek pada testing 1, karena terjadinya proses belajar, pengalaman, perubahan motivasi, dll. Oleh karena itu pendekatan ini sudah sangat jarang dipakai. Pendekatan ini sangat sesuai kalau yang dijadikan objek pengukuran adalah ketrampilan, terutama ketrampilan fisik.
- Pendekatan dengan tes paralel / Parallel Form Method: Dua perangkat tes yang paralel, misalnya perangkat A dan B diberikan kepada sekelompok subjek. Reliabilitas tes dicari dengan menghitung korelasi antara skor pada perangkat A dan skor pada perangkat B. Keterbatasan utama pendekatan ini terletak pada sulitnya menyusun 2 perangkat tes yang paralel. Pendekatan inipun sudah jarang digunakan.
- Pendekatan pengukuran satu kali / Single Trial Method: Seperangkat tes diberikan kepada sekelompok subjek satu kali, lalu dengan cara tertentu dihitung estimasi reliabilitas tes tersebut. Pendekatan pengukuran satu kali ini menghasilkan informasi mengenai keajegan (konsistensi) internal alat ukur. Pendekatan pengukuran satu kali ini dapat menghindarkan diri dari kesulitan yang timbul dari pendekatan dengan pengukuran ulang maupun pendekatan tes paralel, oleh karena itu pendekatan ini banyak digunakan. Yang menggunakan pendekatan pengukuran satu kali:
1.
Spearman-Brown: Jumlah butir dibelah menjadi 2 dan dicari nilai
rxx-nya. Jumlah butir dapat dibelah kiri dan kanan, angka ganjil dan genap
maupun dengan cara random / acak. Bila nilai rxx-nya > 0.8 maka dianggap
reliabel.
2.
Rulon: Menghitung dengan melihat selisih belahan satu dengan
belahan yang lain, bukan dilihat dari belahannya. Bila nilai rxx-nya > 0.8
maka dianggap reliabel.
3.
Alpha Cronbach: Alpha membagi jumlah butir dengan berapapun asal
sama rata, tidak seperti Spearman-Brown dan Rulon yang tidak dapat membagi dua
angka ganjil menjadi sama rata seperti misalnya angka 15, Alpha bisa membagi
menjadi: 5, 5 dan 5. Bila nilai Alpha-nya > 0.8 maka dianggap reliabel.
4.
Anava Hoyt: Membagi jumlah butir sebesar jumlah butirnya, jadi
dapat dibagi berapapun, tidak seperti Alpha yang tidak dapat membagi jumlah
butir yang nilainya imajiner, misalnya 19. Tapi Alpha akhirnya mengeluarkan
rumus baru yang dapat membagi jumlah butir sebesar jumlah butirnya juga. Dan
Anava Hoyt dan Alpha yang paling banyak digunakan dalam perhitungan
reliabilitas sampai saat ini. Bila nilai rtt-nya > 0.8 maka dianggap
reliabel.
5.
KR20: Kuder Richardson mengeluarkan rumus perbaikan tetapi KR20
juga jarang dipakai karena KR20 hanya dapat digunakan pada data dikotomi
(pilihan ya dan tidak / 0 dan 1) tidak seperti diatas, yang bisa menghitung
data dikotomi dan kontinu. Bila nilai KR20-nya > 0.8 maka dianggap reliabel.
Tapi
ada pendapat lain yang mengatakan bahwa suatu suatu alat tes bukan dilihat dari
rtt-nya tapi dilihat dari seberapa besar penyimpangan dari alat ukur tersebut (Standart
Error Measurement / SEM / SE). Semakin kecil nilai penyimpangannya maka
alat ukur tersebut semakin baik.
Dengan
adanya kemajuan teknologi dan adanya program-program komputer yang menangani
tentang statistik, kita tidak perlu lagi menghitung secara manual, kita bisa
menggunakan program SPSS atau menggunakan program SPS.
Reliabilitas
menyangkut derajat konsistensi atau kesepakatan antara dua perangkat skor yang
diturunkan secara indipenden sehingga dapat diungkap dengan istilah koefisien
korelasi. Dalam uji empiric ini digunakan koefisien alfa hasil penurunan rumus
yang dilakukan oleh Cronbach yakni
(Anastasi dan Urbina, 2006:110)
Dimana :
rtt
adalah koefisien reliabilitas seluruh tes
n adalah jumlah soal dalam tes
adalah varian
skor-skor total pada tes
adalah varian skor tes ke i
Pustaka
Brenan, Robert L. 2006. Educational Measurement.
Washington:
American Council on Education Praeger.
Djemari Mardapi. 2003. Konstruksi Tes dan Analisis Butir.
Bahan lokakarya Metodologi Interaksi Pembelajaran. Unpublished.
Kumaidi. 2008. Konstruksi Instrumen. Bahan
Kuliah Pascasarjana UNY. Unpublished.
Fernandes, H.J.X. 1984, Testing and Measurenment. Jakarta : National
Education Planning, Evaluation and Curriculum Development
Koyan, I Wayan. 2004. Konsep Dasar dan Teknik Evaluasi Hasil Belajar.
Singaraja : IKIP Negeri Singaraja
No comments:
Post a Comment