Selasa, 17 Maret 2015
Nama/NIM: I Gede Kusuma Ary Jaya/1204505034
Jurusan/Fakultas/Universitas: Teknologi Informasi/Teknik/Universitas Udayana
Mata Kuliah: Sistem Temu Kembali Informasi
Dosen: I Putu Agus Eka Pratama, S.T., M.T.
Kali ini saya akan membahas salah satu pertanyaan teman pada
mata kuliah Sistem Temu Kembali Informasi. Pertanyaannya adalah bagaimana cara
kerja search engine melakukan proses pencarian sesuai dengan keyword? Saya akan
menjawab sesuai pemahaman dan juga dari referensi yang sudah saya dapatkan.
Saat user mengetikkan keyword di kotak pencarian search
engine misalnya google, maka apa yang user ketikkan itu akan terkirim dan
diproses di sistem search engine. Search engie akan bekerja mencari
petunjuk-petunjuk untuk memahami apa yang user inginkan, dan di sini ada 6
proses, yaitu:
- Ejaan, untuk menilai apakah ejaan anda sudah benar, dan
jika salah maka Google akan memberi saran.
- Autocomplete, di mana Google memperkirakan apa yang
kira-kira dicari dengan berbagai variasi makna lainnya.
- Sinonim, Google berusaha melihat dokumen-dokumen lain yang
mengandung kata-kata yang sinonim dengan pencarian user.
- Metode Pencarian, Google juga menyediakan data lain dalam
format tertentu seperti video, atau gambar yang berkaitan dengan kata kunci
tersebut.
- Google Instant, yang berusaha menampilkan hasil secepat
mungkin kepada user.
Dari semua petunjuk yang dikumpulkan di atas Google akan
menarik data dari tempat penyimpanannya yang disebut index, kemudian data akan
ditampilkan. Proses menampilkan data ini (ranking) harus melalui algoritma
Google, yaitu:
1. Kualitas Situs dan Halaman
Algoritma Google akan bekerja untuk mengenali seberapa
terpercaya, bereputasi, dan berotoritasnya suatu sumber dengan menggunakan
beberapa parameter. Salah satu di antara parameter itu adalah page rank.
2. Kesegaran
Google juga memandang penting untuk mempertimbangkan
informasi-informasi terbaru untuk ditampilkan dalam hasil pencariannya.
3. Pencarian Aman
Google sebisa mungkin mengurangi hasil pencarian yang
berkonten dewasa dari hasil pencarian user (kecuali user memang mencari konten
dewasa). Jadi kalau user bukan mencari situs konten dewasa, tapi memasang iklan
yang menuju situs yang mengandung konten dewasa, maka kemungkinan user untuk
ranking akan berkurang.
4. Konteks Pengguna
Google juga akan melihat posisi geografis kita dan cookie
pada komputer untuk menentukan ranking halaman yang ditampilkannya.
5. Bahasa
Google juga akan menggolongkan hasil pencarian berdasarkan
bahasa dan negara.
6. Konten Umum
Ini seperti gambar, video, berita, peta, dan lain-lain yang
juga akan diikutsertakan dalam halaman hasil pencarian.
Semua proses di atas berlangsung dalam 1/8 detik sebelum
dikirimkan ke layar user.
Algoritma Search Engine
Search engine menggunakan beberapa macam algoritma
pencarian, yaitu sebagai berikut.
1. List Search
Algoritma ini bekerja dengan cara mencari secara berurutan.
Kita bisa membayangkannya seperti saat kita ingin mencari seseorang dalam
sebuah antrian. Maka kita mencarinya dengan cara memeriksa satu persatu, dari
awal antrian hingga kita menemukan orang yang ingin kita cari. Cara atau algoritma seperti ini biasanya digunakan saat kita
ingin mencari dengan menggunakan satu faktor atau satu kunci saja sebagai
penentu. Untuk antrian yang pendek, cara ini mungkin cukup efektif dan efisien.
Tapi untuk mencari sebuah kata dari milyaran web page yang ada di internet,
maka akan membutuhkan waktu yang sangat lama.
2. Tree Search
Bayangkan sebuah pohon! Bayangkan mulai dari akar, batang,
cabang, kemudian ranting-rantingnya. Begitulah cara kerja dari algoritma ini.
Algoritma ini akan bekerja dengan cara mencarinya dari yang paling mendekati
hingga ke yang paling tidak mendekati. Atau bisa juga dikatakan dari yang
paling umum hingga ke yang paling spesifik, atau sebaliknya. Algoritma ini mirip dengan cara yang digunakan orang untuk
mengatur internet. Seperti yang kita tahu, setiap situs yang ada di internet
itu mempunyai keterkaitan antara satu dengan yang lainnya. Kita bisa menelusuri
keterkaitan ini dengan cara memulai dari tingkat yang paling kecil dulu,
kemudian ke tingkat yang paling besar, atau sebaliknya.
Tree searches adalah cara yang ampuh digunakan untuk
melakukan pencarian di internet, akan tetapi cara ini tidak selalu memberikan
hasil yang memuaskan.
3. SQL Search
Diambil dari kata sequel. Satu kelemahan saat melakukan
pencarian menggunakan metode Tree Search yaitu pencarian dilakukan dengan cara
dari point ke point, atau dari satu titik ke titik. Itu artinya data harus
dicari secara hirarki, dari besar ke kecil atau sebaliknya. Dan kelemahan ini
bisa teratasi dengan menggunakan SQL search.
4. Informed Search
Algoritma informed search bekerja dengan cara mencari solusi
yang spesifik atau khusus dari sebuah dataset yang bercabang-cabang (tree
dataset). Sesuai dengan namanya, algoritma ini tidak selalu cocok digunakan
untuk melakukan pencarian di internet. Karena algoritma ini cuma cocok
digunakan untuk pemecahan masalah-masalah yang spesifik atau khusus saja.
Sedangkan kita seringkali ingin mencari pemecahan untuk masalah-masalah yang
bersifat umum atau luas.
5. Adversarial Search
Adversarial search bekerja dengan cara mencari berbagai
kemungkinan solusi atas sebuah masalah. Ini seperti saat kita melakukan
permainan rolex atau gambling, dimana semua kemungkinan akan kita coba.
Algoritma ini sulit digunakan untuk melakukan pencarian di internet, sebab
berapa banyak kemungkinan yang akan di dapat untuk mencari sebuah kata di
internet? Nyaris tak terhingga.
6. Constraint
Satisfaction Search
Saat kita mencari suatu kata/kalimat di internet, maka
algoritma constraint satisfaction search ini sepertinya adalah metode yang
paling mendekati atau sesuai dengan keinginan mu. Algoritma pencarian jenis
ini, akan mencari solusi dengan cara memberikan berbagai alternatif pilihan.
Algoritma ini akan mencari dengan berbagai cara, dan tidak harus dengan cara
yang berurutan.
Cara Kerja Information
Retrieval
Information Retrieval memiliki cara kerja seperti berikut.
1. Tokenisasi (tokenizing)
atau word token
Tokenisasi (tokenizing) atau word token adlaah pemisahan
deret kata dalam kalimat, paragrap menjadi potongan kata tunggal (termed word)
serta menghilangkan karakter-karakter dalam tanda baca dan mengubah kumpulan
termed menjadi huruf kecil (lower case). Contoh : "saya belajar
Information Retrieval" maka akan dihasilkan : "saya",
"belajar", "information", "retrieval".
2. Stopword removal atau
seleksi / penyaringan (filtration)
Stopword removal atau seleksi / penyaringan (filtration) adalah
tahapan untuk mempersentasikan suatu dokumen dapat mendeskripsikan isi dari
suatu dokumen untuk membedakan isi dokumen lain, dalam suatu istilah (term)
akan mencari jumlah dokumen yang diangap paling relevan didalam suatu inputan
(query), suatu term yang sering ditampilkan atau digunakan diangap sebagai
stopword. Contoh : Operator Logika and, or, not, dan sebaginya. Maka stopword
tersebut akan menghapus, karna frekuwnsi dari kemunculan trem terlalu sering.
3. Pembuatan kata dasar (stemming)
Stemming konversi dari trem ke bentuk akar (root) atau
bentuk umum, biasanya dalam dokumen yang mirip atau sama (sinonim) atau bisa
menemukan kata-kata yang terkait dalam sebuah dokumen. Contoh : kita memasukan
kata "menemukan" maka query akan merekomendasikan,
"memperoleh", "mengetahui", "memiliki",
"mendapatkan" dan setrusnya.
4. Proses pembobotan setiap term dalam dokumen (term weighting)
Term weighting yaitu dalam tahapan pembobotan term skema dalam
pembobotan dipilih berdasarkan pembobotan lokal, global atau kedua-duanya (term
frequency dan global inverse document frequency).
Ada tiga hal yang menjadi dasar cara kerja mesin IR yaitu
Proses Crawling, Proses Indexing dan Proses Surving.
a. Proses Crawling
Crawling adalah suatu pekerjaan yang dilakukan oleh
googlebot (biasa dikenal juga dengan istilah robot, atau spider bisa di sebut
juga crawler) dalam menjelajahi halaman-halaman website untuk di indeks pada
google server.
Googlebot terdiri dari set komputer yang berjumlah besar
yang memang difungsikan untuk meng-crawling website-website. Dalam melakukan
tugasnya, googlebot menggunakan suatu algoritma komputer dalam menentukan situs
apa saja yang akan di crawling, seberapa sering, dan berapa banyak halaman yang
akan di indeks.
Proses crawling dalam suatu website dimulai dari mendata
seluruh url dari website, menelusurinya satu-persatu, kemudian memasukkannya
dalam daftar halaman pada google indeks, sehingga setiap kali ada perubahan pada
website, akan terupdate secara otomatis.
b. Proses Indexing
Indexing adalah proses pengumpulan kata-kata atau kalimat
pada suatu halaman web oleh googlebot yang telah ter-crawling sebelumnya. Dalam
prosesnya, konten inilah yang digunakan oleh google sebagai sumber pencarian
untuk selanjutnya ditampilkan sebagai hasil pencarian berdasarkan kata kunci
(keywords) yang kita cari.
Namun perlu diingat bahwa tidak semua konten dapat diproses
oleh googlebot ini. Umumnya konten tersebut adalah link url, judul, tag, nama
file, tipe file, isi halaman (tidak semua) dan beberapa informasi halaman
lainnya.
c. Proses Surving
Surving adalah suatu proses dalam menampilkan suatu halaman
tertentu merujuk kepada kata kunci yang dimasukkan oleh pengguna. Keterhubungan
antara bagaimana hasil akan ditampilkan dengan kata kunci ditentukan oleh
kurang lebih 200 faktor.
Salah satu faktor penentu yang terkenal yang digunakan untuk
menampilkan hasil pencarian adalah page rank. Dengan page rank, suatu halaman
ditampilkan sesuai dengan urutan dengan cara “halaman yang terbanyak di akses
ditampilkan pertama“.
Ketiga proses tersebut di atas dilakukan dalam waktu yang
sangat cepat dan disajikan kepada pengguna ditambah dengan penjelasan jumlah
penemuan dll.
Referensi
http://superblogpedia.blogspot.com/2014/05/cara-kerja-search-engine-google.html
http://trikmudahseo.blogspot.com/2014/01/cara-kerja-search-engine-google.html
http://suyatmobng.blogspot.com/2013/03/pengertian-cara-kerja-dan-masa-depan.html
Langganan:
Posting Komentar (Atom)
0 komentar:
Posting Komentar