Deary Koesoema: Review Pertanyaan

Nama/NIM: I Gede Kusuma Ary Jaya/1204505034

Jurusan/Fakultas/Universitas: Teknologi Informasi/Teknik/Universitas Udayana

Mata Kuliah: Sistem Temu Kembali Informasi

Dosen: I Putu Agus Eka Pratama, S.T., M.T.

Kali ini saya akan membahas salah satu pertanyaan teman pada mata kuliah Sistem Temu Kembali Informasi. Pertanyaannya adalah bagaimana cara kerja search engine melakukan proses pencarian sesuai dengan keyword? Saya akan menjawab sesuai pemahaman dan juga dari referensi yang sudah saya dapatkan.

Saat user mengetikkan keyword di kotak pencarian search engine misalnya google, maka apa yang user ketikkan itu akan terkirim dan diproses di sistem search engine. Search engie akan bekerja mencari petunjuk-petunjuk untuk memahami apa yang user inginkan, dan di sini ada 6 proses, yaitu:

- Ejaan, untuk menilai apakah ejaan anda sudah benar, dan jika salah maka Google akan memberi saran.

- Autocomplete, di mana Google memperkirakan apa yang kira-kira dicari dengan berbagai variasi makna lainnya.

- Sinonim, Google berusaha melihat dokumen-dokumen lain yang mengandung kata-kata yang sinonim dengan pencarian user.

- Metode Pencarian, Google juga menyediakan data lain dalam format tertentu seperti video, atau gambar yang berkaitan dengan kata kunci tersebut.

- Google Instant, yang berusaha menampilkan hasil secepat mungkin kepada user.

Dari semua petunjuk yang dikumpulkan di atas Google akan menarik data dari tempat penyimpanannya yang disebut index, kemudian data akan ditampilkan. Proses menampilkan data ini (ranking) harus melalui algoritma Google, yaitu:

1. Kualitas Situs dan Halaman

Algoritma Google akan bekerja untuk mengenali seberapa terpercaya, bereputasi, dan berotoritasnya suatu sumber dengan menggunakan beberapa parameter. Salah satu di antara parameter itu adalah page rank.

2. Kesegaran

Google juga memandang penting untuk mempertimbangkan informasi-informasi terbaru untuk ditampilkan dalam hasil pencariannya.

3. Pencarian Aman

Google sebisa mungkin mengurangi hasil pencarian yang berkonten dewasa dari hasil pencarian user (kecuali user memang mencari konten dewasa). Jadi kalau user bukan mencari situs konten dewasa, tapi memasang iklan yang menuju situs yang mengandung konten dewasa, maka kemungkinan user untuk ranking akan berkurang.

4. Konteks Pengguna

Google juga akan melihat posisi geografis kita dan cookie pada komputer untuk menentukan ranking halaman yang ditampilkannya.

5. Bahasa

Google juga akan menggolongkan hasil pencarian berdasarkan bahasa dan negara.

6. Konten Umum

Ini seperti gambar, video, berita, peta, dan lain-lain yang juga akan diikutsertakan dalam halaman hasil pencarian.

Semua proses di atas berlangsung dalam 1/8 detik sebelum dikirimkan ke layar user.

Algoritma Search Engine

Search engine menggunakan beberapa macam algoritma pencarian, yaitu sebagai berikut.

1. List Search

Algoritma ini bekerja dengan cara mencari secara berurutan. Kita bisa membayangkannya seperti saat kita ingin mencari seseorang dalam sebuah antrian. Maka kita mencarinya dengan cara memeriksa satu persatu, dari awal antrian hingga kita menemukan orang yang ingin kita cari. Cara atau algoritma seperti ini biasanya digunakan saat kita ingin mencari dengan menggunakan satu faktor atau satu kunci saja sebagai penentu. Untuk antrian yang pendek, cara ini mungkin cukup efektif dan efisien. Tapi untuk mencari sebuah kata dari milyaran web page yang ada di internet, maka akan membutuhkan waktu yang sangat lama.

2. Tree Search

Bayangkan sebuah pohon! Bayangkan mulai dari akar, batang, cabang, kemudian ranting-rantingnya. Begitulah cara kerja dari algoritma ini. Algoritma ini akan bekerja dengan cara mencarinya dari yang paling mendekati hingga ke yang paling tidak mendekati. Atau bisa juga dikatakan dari yang paling umum hingga ke yang paling spesifik, atau sebaliknya. Algoritma ini mirip dengan cara yang digunakan orang untuk mengatur internet. Seperti yang kita tahu, setiap situs yang ada di internet itu mempunyai keterkaitan antara satu dengan yang lainnya. Kita bisa menelusuri keterkaitan ini dengan cara memulai dari tingkat yang paling kecil dulu, kemudian ke tingkat yang paling besar, atau sebaliknya.

Tree searches adalah cara yang ampuh digunakan untuk melakukan pencarian di internet, akan tetapi cara ini tidak selalu memberikan hasil yang memuaskan.

3. SQL Search

Diambil dari kata sequel. Satu kelemahan saat melakukan pencarian menggunakan metode Tree Search yaitu pencarian dilakukan dengan cara dari point ke point, atau dari satu titik ke titik. Itu artinya data harus dicari secara hirarki, dari besar ke kecil atau sebaliknya. Dan kelemahan ini bisa teratasi dengan menggunakan SQL search.

4. Informed Search

Algoritma informed search bekerja dengan cara mencari solusi yang spesifik atau khusus dari sebuah dataset yang bercabang-cabang (tree dataset). Sesuai dengan namanya, algoritma ini tidak selalu cocok digunakan untuk melakukan pencarian di internet. Karena algoritma ini cuma cocok digunakan untuk pemecahan masalah-masalah yang spesifik atau khusus saja. Sedangkan kita seringkali ingin mencari pemecahan untuk masalah-masalah yang bersifat umum atau luas.

5. Adversarial Search

Adversarial search bekerja dengan cara mencari berbagai kemungkinan solusi atas sebuah masalah. Ini seperti saat kita melakukan permainan rolex atau gambling, dimana semua kemungkinan akan kita coba. Algoritma ini sulit digunakan untuk melakukan pencarian di internet, sebab berapa banyak kemungkinan yang akan di dapat untuk mencari sebuah kata di internet? Nyaris tak terhingga.

6. Constraint Satisfaction Search

Saat kita mencari suatu kata/kalimat di internet, maka algoritma constraint satisfaction search ini sepertinya adalah metode yang paling mendekati atau sesuai dengan keinginan mu. Algoritma pencarian jenis ini, akan mencari solusi dengan cara memberikan berbagai alternatif pilihan. Algoritma ini akan mencari dengan berbagai cara, dan tidak harus dengan cara yang berurutan.

Cara Kerja Information Retrieval

Information Retrieval memiliki cara kerja seperti berikut.

1. Tokenisasi (tokenizing) atau word token

Tokenisasi (tokenizing) atau word token adlaah pemisahan deret kata dalam kalimat, paragrap menjadi potongan kata tunggal (termed word) serta menghilangkan karakter-karakter dalam tanda baca dan mengubah kumpulan termed menjadi huruf kecil (lower case). Contoh : "saya belajar Information Retrieval" maka akan dihasilkan : "saya", "belajar", "information", "retrieval".

2. Stopword removal atau seleksi / penyaringan (filtration)

Stopword removal atau seleksi / penyaringan (filtration) adalah tahapan untuk mempersentasikan suatu dokumen dapat mendeskripsikan isi dari suatu dokumen untuk membedakan isi dokumen lain, dalam suatu istilah (term) akan mencari jumlah dokumen yang diangap paling relevan didalam suatu inputan (query), suatu term yang sering ditampilkan atau digunakan diangap sebagai stopword. Contoh : Operator Logika and, or, not, dan sebaginya. Maka stopword tersebut akan menghapus, karna frekuwnsi dari kemunculan trem terlalu sering.

3. Pembuatan kata dasar (stemming)

Stemming konversi dari trem ke bentuk akar (root) atau bentuk umum, biasanya dalam dokumen yang mirip atau sama (sinonim) atau bisa menemukan kata-kata yang terkait dalam sebuah dokumen. Contoh : kita memasukan kata "menemukan" maka query akan merekomendasikan, "memperoleh", "mengetahui", "memiliki", "mendapatkan" dan setrusnya.

4. Proses pembobotan setiap term dalam dokumen (term weighting)

Term weighting yaitu dalam tahapan pembobotan term skema dalam pembobotan dipilih berdasarkan pembobotan lokal, global atau kedua-duanya (term frequency dan global inverse document frequency).

Ada tiga hal yang menjadi dasar cara kerja mesin IR yaitu Proses Crawling, Proses Indexing dan Proses Surving.

a. Proses Crawling

Crawling adalah suatu pekerjaan yang dilakukan oleh googlebot (biasa dikenal juga dengan istilah robot, atau spider bisa di sebut juga crawler) dalam menjelajahi halaman-halaman website untuk di indeks pada google server.

Googlebot terdiri dari set komputer yang berjumlah besar yang memang difungsikan untuk meng-crawling website-website. Dalam melakukan tugasnya, googlebot menggunakan suatu algoritma komputer dalam menentukan situs apa saja yang akan di crawling, seberapa sering, dan berapa banyak halaman yang akan di indeks.

Proses crawling dalam suatu website dimulai dari mendata seluruh url dari website, menelusurinya satu-persatu, kemudian memasukkannya dalam daftar halaman pada google indeks, sehingga setiap kali ada perubahan pada website, akan terupdate secara otomatis.

b. Proses Indexing

Indexing adalah proses pengumpulan kata-kata atau kalimat pada suatu halaman web oleh googlebot yang telah ter-crawling sebelumnya. Dalam prosesnya, konten inilah yang digunakan oleh google sebagai sumber pencarian untuk selanjutnya ditampilkan sebagai hasil pencarian berdasarkan kata kunci (keywords) yang kita cari.

Namun perlu diingat bahwa tidak semua konten dapat diproses oleh googlebot ini. Umumnya konten tersebut adalah link url, judul, tag, nama file, tipe file, isi halaman (tidak semua) dan beberapa informasi halaman lainnya.

c. Proses Surving

Surving adalah suatu proses dalam menampilkan suatu halaman tertentu merujuk kepada kata kunci yang dimasukkan oleh pengguna. Keterhubungan antara bagaimana hasil akan ditampilkan dengan kata kunci ditentukan oleh kurang lebih 200 faktor.

Salah satu faktor penentu yang terkenal yang digunakan untuk menampilkan hasil pencarian adalah page rank. Dengan page rank, suatu halaman ditampilkan sesuai dengan urutan dengan cara “halaman yang terbanyak di akses ditampilkan pertama“.

Ketiga proses tersebut di atas dilakukan dalam waktu yang sangat cepat dan disajikan kepada pengguna ditambah dengan penjelasan jumlah penemuan dll.

Referensi

http://superblogpedia.blogspot.com/2014/05/cara-kerja-search-engine-google.html

http://trikmudahseo.blogspot.com/2014/01/cara-kerja-search-engine-google.html

http://suyatmobng.blogspot.com/2013/03/pengertian-cara-kerja-dan-masa-depan.html

Deary Koesoema

Pages

Selasa, 17 Maret 2015

Review Pertanyaan

0 komentar:

Posting Komentar

ChatBox

Pengikut

Blog Archive

Total Tayangan Halaman

Pages - Menu

Popular Posts

Mengenai Saya

Blogroll

About

Blogger templates

Blogger news