EVALUASI BAHASA ALAMI VS BOOLEAN QUERY: SEBUAH PERBANDINGAN DARI PENDAYAGUNAAN SISTEM TEMU KEMBALI INFORMASI
Abstrak
Dengan semakin bertambahnya informasi maka diperlukan pendayagunaan sarana temu kembali informasi, dengan sarana temu kembali informasi maka akan menghemat waktu dalam pencarian dokumen. Sistem temu kembali informasi mempunyai dua pendekatan antara lain dengan boolean logic dan bahasa alami kedua operator tersebut mempunyai pengaruh dalam menemukan hasil yang tepat (precise) terhadap dokumen yang diinginkan.
Pendahuluan
Perpustakaan sebagai salah satu penyedia informasi, dalam menyajikan informasi baik itu yang berupa buku maupun dokumentasi lainnya yang dimiliki menggunakan sarana temu kembali berupa katalog, bibliografi maupun indeks. Informasi yang setiap saat bertambah secara eksponential tidak mungkin ditangani tanpa adanya sarana simpan sistem temu kembali informasi (retrieval) yang baru. Sistem temu kembali informasi digunakan untuk menemukan kembali (retrieve) informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis.
Salah satu sistem temu kembali informasi adalah search engine atau mesin pencarian yang terdapat pada jaringan internet. Pengguna dapat mencari halaman web yang dibutuhkan melalui search engine. Contoh lain dari sistem temu kembali informasi adalah sistem informasi perpustakaan. Sistem temu kembali informasi terutama berhubungan dengan pencarian informasi yang isinya tidak memiliki struktur. Demikian pula ekspresi kebutuhan pengguna yang disebut query, juga memiliki struktur. Query adalah sebuah subjek data base yang mencari informasi agar informasi tersebut bisa ditampilkan, diedit atau dianalisa dalam berbagai cara. Hal ini yang membedakan sistem temu kembali informasi dengan sistem basis data.
Dokumen adalah contoh informasi yang tidak terstruktur. Isi dari suatu dokumen sangat bergantung dari pembuat dokumen tersebut. Sebagai suatu sistem temu kembali mempnyai informasi mempunyai beberapa bagian yang membangun sistem secara keseluruhan.
Gambar di atas memperlihatkan bahwa terdapat dua buah alur operasi pada sistem temu kembali informasi. Alur pertama dimulai dari koleksi dokumen dan alur kedua dimulai dari query pengguna. Alur pertama dimulai dari korelasi dokumen dan alur kedua dimulai dari query pengguna. Alur pertama yaitu pemrosesan terhadap koleksi dokumen menjadi basis data indeks tidak tergantung pada alur kedua. Sedangkan alur kedua tergantung dari keberadaan basis data indeks yang dihasilkan pada alur pertama.
Relevansi temu kembali informasi
Pada dasarnya ada dua pendekatan penelusuran yang lazim digunakan dalam sistem temu kembali informasi yaitu bahasa alamiah (natural language), dan kosa kata terkontrol yang sering juga disebut controlled vocabulary (saptari mengutip hasugian. 2003). Perbandingan antara sistem temu kembali perangkingan (rangking) mencari dokumen yang relevan sesuai dengan query dan mengurutkan dokumen tersebut sesuai dengan query dan tidak terangking adalah masalah yang sulit ada dua masalah yang utama dapatkah terperingkat dan yang tak terperingkat dapat dibandingkan dan dapatkah perbedaan dalam ukuran pencarian dapat disatukan? Dengan menganggap masalah pertama, kita dapat melihat bahwa hasil boolean adalah secara fakta terrangking. Rangking didasarkan oleh sebuah karakteristik dokumen (tanggal) adalah query yang bebas, tetapi rangking ditampilkan tidak acak dan digunakan menampilkan secara tersusun.
Sistem temu kembali informasi menerima query dari pengguna, kemudian melakukan perangkingan terhadap dokumen pada koleksi berdasarkan kesesuaiannya dengan query. Hasil perangkingan yang diberikan kepada pengguna merupakan dokumen yang menurut sistem relevan dengan query. Namun relevansi dokumen terhadap suatu query merupakan penilaian pengguna yang subjektif dan dipengaruhi banyak faktor seperti topik, pewaktuan, sumber informasi maupun tujuan pengguna. Model sistem temukembali informasi menentukan ditail sistem temu kembali informasi yaitu meliputi respresentasi dokumen maupun query, fungsi pencarian (retrieval function) dan notasi kesesuaian (relevance notation) dokumen terhadap query.
Sistem temu kembali informasi yang paling awal digunakan adalah model boolean. Model boolean mempresentasikan dokumen sebagai suatu himpunan kata kunci (set of key word). Sedangkan query dipresentasikan sebagai ekspresi boolean. Query dalam boolean dipresentasikan sebagai ekspresi boolean. Query dalam ekspresi boolean merupakan kumpulan kata kuci yang sering dihubungkan melauli operator boolean seperti AND, OR dan NOT serta menggunakan tanda kurung untuk menentukan scope operator. Hasil pencarian dokumen dari model boolean adalah himpunan dokumen yang relevan.
Kata kunci dalam sistem boolean antara lain:
AND digunakan untuk memperkecil atau menyaring sebauh pencarian kata kunci, AND mencari kedekatan atau semua pencarian kata yang spesifik atau khusus. Contohnya dokumen dan kearsipan menemukan kembali hanya hal yang berkaitan dengan kearsipan dan dokumentasi. Area bayangan mempresentasikan tentang hal yang berhubungan dengan kedua hal tersebut.
OR perluasan sebuah kata klunci dan mengikuti pencarian yang sama OR mencari kedekatan kata yang satu atau yang lain atau kedua kata yang anda cari. Contohnya dokumentasi OR kearsipan menemukan kembali tiap kata yang berhubungan dengan kata kearsipan dan dokumen. Area bayangan mempresentasikan tentang hal yang berhubungan dengan kedua hal tersebut.
NOT meniadakan kata yang dicari misalnya jika anda mencari kata perpustakaan NOT dokumen maka dokumen akan ditiadakan. NOT operator dapat menghilangkan sebuah artikel yang mungkin saja yang anda cari. Sebagai contoh anda tertarik dengan kenapa orang tertarik dengan kucing, dan anada menulis “kucing NOT dog,” anda tidak akan mendapat artikel yang sesuai karakter personality dari kucing dan anjing perintah dari yang anda cari adalah penting menggunakan operator NOT. Pastikan daftar konsep yang anda inginkan sebelum daftar konsep yang tidak anda inginkan.
Kekurangan dari model boolean adalah :
- Hasil pencaria dokumen berupa himpunan, sehingga tidak dapat dikenali dokumen-dokumen yang relevan atu agak relevan (partial match).
- Query dalam ekspresi boolean dapat menyulitkan pengguna yang tidak mengerti tentang ekspresi boolean.
Sistem temu kembali informasi dengan bahasa alami
Bahasa alami adalah bahasa dari dolumen yang di indeks biasanya bahasa tersebut merupakan bahasa yang tidak terkendali (uncontrolled vocabullary). Bahasa alami ini umumnya digunakan pada komunikasi dan penulisan ilmiah, yang banyak dipakai oleh pengarang. Bahasa alami dan kosa kata terkonterol adalah dua bahasa hasil dari pengindeksan yang sama-sama dapat dipergunakan sebagai respresentsi dokumen.
Kelebihan bahasa alami dalam penelusuran:
1. Bahasa alami dapat dengan mudah dimengerti oleh pengguna tanpa harus memerlukan pelatihan khusus, dan berbagai nuansa makna dapat direpresentasikan dengan lebih leluasa.
2. Bahasa alami memiliki spesifikasi yang tinggi. Spesifikasi istilah ini muncul karena dapat menggunakan seluruh istilah yang terdapat dalam setiap judul dan subjek sebagai query. Spesifikasi istilah akan memudahkan pencarian untuk mendapatkan ketepatan (prcision) yang tinggi. Semakin tinggi spesifikasi istilah yang digunakan dalam penelusuran, maka akan semakin tinggi spesifikasi istilah yang digunkana dalam penelusuran, maka akan semakin tinggi ketepatan (precison) sedangkan perolehan (recall) akan semakin rendah.
3. Bahasa lamiah memiliki kedalaman yang tinggi, artinya banyak tema atau subjek baru yang dihasilkan dokumen yang dapat dijadikan sebagai istilah baru dalam penelusuran.
4. Penelusuran yang merupakan praktisi dalam bidangnnya dapat mel;akukan penelusuran dengan bahasa alamiah yang dengan lebih selektif.
Kekurangan bahasa alamiah adalah :
1. Bahasa alamiah kurang ringkas. Query yang digunakan penelusuran sering berupa kata atau istilah tidak standar sehingga sering terjadi kehilangan informasi saat penelusuran
2. Mempunyai ambiguitas yang tinggi. Ambiguitas adalah kata atau istilah yang dapat memiliki lebih dari satu arti sehingga mengakibatkan kerancuan. Ambiguitas dapat terjadi karena sinonim atau homograf.
3. Ketidak mampuan komputer untuk menyerap atau menangkap makn dari suatu pernyataan.
Penelusuran yang ideal dan ketepatan pencarian
Setelah kita mengetahui kelebihan dan kekurangan melakukan penelusuran menggunakan pendekatan bahasa alamiah dan operasi boolean logic sebagaimana dijelaskan diatas maka permasalahannya adalah pendekatan yang bagaimana dalam penelusuran informasi katalog online. Rata-rata ketepatan query bahasa alami menampilkan hasil yang lebih baik dari pada query boolean secara keseluruhan tetapi sedikit pada tingkatan pemanggilan (turtle.1994) meskipun bahasa alami menampilkan hasil yang lebih baik dalam pencarian, bahasa bolean tidak dapat dihilangkan. Untuk beberapa query atau beberapa material teknik boolean menghasilkan hasil yang lebih baik. Selanjutnya, beberapa pengguna lebih memilih untuk menggunakan boolean query. Sistem komersial akan memerlukan dukungan tipe query supaya dapat menghasilkan hasil yang baik. Pada saat yang sama, bahasa alami rata-rata, memberikan hasil yang lebih baik dari pada bolean query.
Kesimpulan
Pada dasarnya kekurangan dan kelebihan dari sistem temu kembali informasi bergantung kepada seberapa tepat kita dalam mencari istilah yang sesuai terhadap data yang kita inginkan sehingga memperoleh hasil yang relevan.
Bahasa alami (nature language) mempunyai relevansi yang tinggi terhadap hasil temu kembali informasi secara keseluruhan dan mudah dipahami dari pada operasi boolean logic karena struktur kata kuncinya ada lah bahasa sehari-hari sehingga mudah untuk diterapkan.
Daftar Pustaka
Jurusan Ilmu Fisika ITB. 2005. Sistem temu balik informasi. Dalam http://mahasiswa.if.itb.ac.id/~if11016/STBI/vektor.pdf, tanggal 6 mei 2006; pukul 20.00
Pscytinfo. Search Tips: A Primer on Boolean Logic http://www.apa.org/psycinfo/training/boolean.html.. Tanggal 6 mei 2006; pukul 19:04
Turtle, Haward.1994. Natural language vs. Boolean query evaluation: a comparison of retrieval performance. New york: Springer-Verlag New York, Inc
Wichita University Library.http://library.wichita.edu/reference/images/PDF/keyword-boolean.pdf. keyword search using boolean logic. Tanggal 6 mei 2006; pukul 20.30
written by: Budhi Santoso
14 komentar
mahasiswa informatika ITB 2004, minta ijin menggunakan tulisan anda sebagai referensi tugas makalah ya.
terima kasih
Imam Budi