Selasa, 17 September 2013

Search Enggine

Bagaimana Mesin Pencari Bekerja?

Mesin pencari tidak sederhana. Mereka termasuk memproses dengan metodologi sangat rinci, dan diperbarui setiap saat. Ini adalah bagaimana mesin pencari bekerja untuk mengambil hasil penelusuran. Semua mesin pencari pergi dengan proses dasar ketika melakukan proses pencarian, namun karena ada perbedaan di search engine, ada pasti menjadi hasil berbeda tergantung pada mesin yang kita gunakan.
Jenis pencari permintaan ke mesin pencari.
Software mesin pencari cepat macam melalui jutaan halaman di database-nya untuk menemukan yang cocok untuk pertanyaan pengguna.
Hasil pencarian mesin ditampilkan dalam peringkat urutan relevansi.

Berikut beberapa search engine yang popular digunakan oleh user.

1.      Google.


Bagaimana mungkin seorang pengguna internet tidak mengetahui tentang google. Salah satu mesin pencari yang handal dan digunakan oleh hampir 2/3 orang di muka bumi. Hal itu terbukti ketika beberapa waktu lalu server google sempat down. Dan aktivitas internet di dunia ini menurun hingga kurang lebih 2/3 dari total penggunaan biasanya.


Google berjalan pada jaringan terdistribusi dari ribuan komputer murah dan karena itu dapat melaksanakan pemrosesan paralel cepat. Pemrosesan paralel adalah metode perhitungan di mana banyak perhitungan dapat dilakukan secara simultan, secara signifikan mempercepat pengolahan data. Google memiliki tiga bagian yang berbeda:

Googlebot, web crawler yang menemukan dan menjemput halaman web.
Pengindeks bahwa macam setiap kata pada setiap halaman dan menyimpan indeks yang dihasilkan kata dalam database yang besar.
Permintaan prosesor, yang membandingkan permintaan pencarian Anda ke indeks dan merekomendasikan dokumen yang dianggap paling relevan.
Mari kita melihat lebih dekat pada setiap bagian.

1. Googlebot, Google Web Crawler
Googlebot adalah robot merangkak web Google, yang menemukan dan mengambil halaman di web dan tangan mereka ke pengindeks Google. Sangat mudah untuk membayangkan Googlebot sebagai spider sedikit bergegas di helai dunia maya, tetapi dalam kenyataannya Googlebot tidak melintasi web sama sekali. Ini berfungsi seperti web browser Anda, dengan mengirimkan permintaan ke server web untuk halaman web, men-download seluruh halaman, kemudian menyerahkannya ke pengindeks Google.

Googlebot terdiri dari banyak komputer meminta dan mengambil halaman jauh lebih cepat dari yang Anda bisa dengan browser web Anda. Bahkan, Googlebot dapat meminta ribuan halaman yang berbeda secara bersamaan. Untuk menghindari web server yang luar biasa, atau permintaan crowding out dari pengguna manusia, Googlebot sengaja membuat permintaan dari masing-masing individu web server lebih lambat dari itu mampu melakukan.

2 . Indexer Google
Googlebot memberikan pengindeks teks lengkap dari halaman yang ditemukan. Halaman ini disimpan dalam database indeks Google . Indeks ini diurutkan abjad dengan istilah pencarian , dengan masing-masing entri indeks menyimpan daftar dokumen di mana istilah itu muncul dan lokasi dalam teks di mana itu terjadi . Struktur data memungkinkan akses cepat ke dokumen yang berisi istilah kueri pengguna .

Untuk meningkatkan kinerja pencarian , Google mengabaikan ( tidak indeks ) kata umum yang disebut kata berhenti ( seperti , yang , pada , atau , dari , bagaimana, mengapa , serta digit tunggal tertentu dan huruf tunggal ) . Hentikan kata-kata begitu umum bahwa mereka berbuat banyak untuk mempersempit pencarian , dan karena itu mereka dengan aman bisa dibuang . Pengindeks juga mengabaikan beberapa tanda baca dan beberapa ruang , serta mengkonversi semua huruf menjadi huruf kecil , untuk meningkatkan kinerja Google .

3 . Query Processor Google
Prosesor query memiliki beberapa bagian , termasuk user interface ( kotak pencarian ) , "mesin " yang mengevaluasi permintaan dan pertandingan mereka untuk dokumen yang relevan , dan hasil pemasangan.

PageRank adalah Sistem Google untuk halaman web peringkat . Sebuah halaman dengan PageRank lebih tinggi dianggap lebih penting dan lebih mungkin untuk dicatatkan di atas halaman dengan PageRank rendah .

Google menganggap lebih dari seratus faktor dalam komputasi PageRank dan menentukan dokumen yang paling relevan dengan query , termasuk popularitas halaman , posisi dan ukuran istilah pencarian di dalam halaman , dan kedekatan istilah pencarian satu dengan yang lain pada halaman . Sebuah aplikasi paten membahas faktor-faktor lain yang dipertimbangkan ketika Google peringkat halaman . Kunjungi laporan SEOmoz.org itu untuk menafsirkan konsep dan aplikasi praktis yang terkandung dalam aplikasi paten Google .

Google juga berlaku mesin-belajar teknik untuk meningkatkan kinerja secara otomatis oleh hubungan dan asosiasi belajar dalam data yang tersimpan . Sebagai contoh, sistem ejaan - mengoreksi menggunakan teknik tersebut untuk mengetahui ejaan alternatif kemungkinan . Google erat penjaga menggunakan rumus untuk menghitung relevansi , mereka tweak untuk meningkatkan kualitas dan kinerja, dan untuk mengecoh teknik licik terbaru yang digunakan oleh spammer .

Pengindeksan teks lengkap dari web memungkinkan Google melampaui hanya pencocokan istilah pencarian tunggal. Google memberikan prioritas untuk halaman yang memiliki istilah pencarian dekat satu sama lain dan dalam urutan yang sama seperti query . Google juga bisa mencocokkan multi- frasa kata dan kalimat . Sejak Google indeks kode HTML di samping teks pada halaman , pengguna dapat membatasi pencarian berdasarkan kata mana permintaan muncul, misalnya , dalam judul , dalam URL , di dalam tubuh , dan di link ke halaman , pilihan yang ditawarkan dengan Advanced Search Form Google dan Menggunakan Operator Pencarian ( Operator Lanjutan ) .


2.      Yahoo


Yahoo menyediakan pengguna dengan listing yang datang dari berbagai sumber data. Halaman hasil pencarian Yahoo didominasi listing editorial yang berasal dari google. Namun, penempatan iklan dibayar dari Overture yang ditawarkan dan pilihan untuk melihat sendiri hasil bertenaga manusia Yahoo juga hadir. Selain itu, Yahoo bisa mengarahkan pengguna untuk konten portal sendiri, seperti Yahoo Cakupan Penuh atau daerah perbelanjaan Yahoo.

Halaman-halaman yang tercantum di bawah ini akan menjelaskan bagaimana muncul dalam sumber data utama yang Yahoo gunakan untuk hasil pencarian. Jika Anda baru untuk Yahoo, itu sangat dianjurkan untuk membaca semua halaman di bagian Reading penting. Halaman-halaman yang terdaftar di bawah Informasi lain menyediakan bantuan tambahan

Kecuali disebutkan dalam halaman tersebut mencakup situs utama Yahoo.com, yang terutama ditujukan untuk mereka yang mencari situs di Amerika Serikat atau untuk situs berbahasa Inggris yang menarik bagi pemirsa di seluruh dunia. Beberapa informasi terbatas tentang edisi non-AS dari Yahoo tidak muncul pada halaman Situs Negara Yahoo.

Akhirnya, jika Anda membaca halaman ini sebelum 14 Oktober 2002, Anda mungkin melihat beberapa kesalahan ketik kecil pada mereka. Mengingat perubahan Yahoo baru-baru ini, saya ingin mengintegrasikan semua informasi baru dan posting mereka secepat mungkin. Saya berharap untuk menyelesaikan sepenuhnya pemeriksaan halaman oleh 14 Oktober.

Essential Reading

 -          Web Matches
Menjelaskan bagaimana Yahoo mendapatkan utama " Web Matches
" hasilnya ditampilkan pada halaman hasil pencariannya.

 -          Sponsor Matches
 Menjelaskan bagaimana memiliki peringkat teratas di dalam " Sponsor Matches
" area halaman hasil pencarian Yahoo.

 -          The Yahoo Directory
Menjelaskan bagaimana Yahoo memiliki sendiri " Directory " nya situs web dan bagaimana berada di direktori Yahoo dapat membantu Anda ditemukan melalui daerah Pertandingan Kategori halaman hasil pencarian Yahoo.


3.      Bing


Bing : Mesin pengambil keputusan

Microsoft menyebut Bing sebagai " mesin pengambil keputusan. " Dengan hampir 240 juta situs Web di Internet pada Juli 2009, Anda bisa membayangkan betapa pentingnya metode pencarian yang efektif dapat untuk keberhasilan setiap mesin pencari [sumber : Netcraft ] .
Jadi ada perbedaan antara mesin pencari dan mesin keputusan.  Mungkin itu filosofis . Menurut Microsoft , Bing dirancang untuk meminimalkan jumlah sampah yang Anda dapatkan ketika Anda melakukan pencarian dan untuk membantu menyederhanakan tugas-tugas sehingga Anda dapat membuat keputusan paling informatif .
Bing berfokus pada empat bidang target: belanja, wisata , dan kesehatan setempat . Tujuan yang mendasarinya dinyatakan adalah untuk menyederhanakan pencarian . Dimulai dengan homepage Bing , yang menampilkan kotak pencarian di tengah gambar berwarna-warni dan baris link yang jelas di sebelah kiri halaman yang membawa hasil untuk video , berita , belanja , gambar , atau peta perjalanan . Setelah Anda memulai pencarian Anda , Bing memiliki fitur Autosuggest yang merekomendasikan kata berdasarkan beberapa huruf pertama anda ketik , kemudian daftar mereka untuk Anda untuk memilih jika harus memenuhi pencocokan Anda. Sesuai mirip dengan autosuggest - ia menawarkan Anda apa Bing percaya adalah pertandingan yang paling cocok .
Bing bertujuan untuk mengatur pencarian dalam cara yang mudah bagi pengguna untuk menavigasi .
Jadi bagaimana sebuah program komputer melakukan semua ini ? Jawabannya adalah dalam kode pemrograman . Sama seperti pesaing Google lakukan , Bing mempekerjakan maju set aturan atau petunjuk bahwa setiap pencari pergi melalui dalam rangka untuk mempersempit dan menyaring hasil terbaik . Ini set aturan yang dikenal sebagai algoritma , dan sama seperti ayam restoran cepat saji tertentu itu resep rahasia , Microsoft tidak bersedia untuk berbagi nuansa bagaimana otak Bing bekerja di sebuah forum publik. Beberapa rahasia bing masih dirahasiakan .
Sekarang bahwa Anda telah belajar apa Bing tawarkan.

http://computer.howstuffworks.com/internet/basics/microsoft-bing1.htm

Artikel NoSQL

NoSQL singkatan Not Only SQL . Hal ini diucapkan sebagai noseequel . Ini adalah salah satu jenis lain dari penyimpanan data selain database yang digunakan sebelumnya. Jenis database ini digunakan untuk menyimpan sejumlah besar penyimpanan data seperti data dalam facebook yang terus meningkat dari hari ke hari . 

NoSQL adalah sistem manajemen database non-relasional, pengambilan informasi yang cepat dari database dan portabel . NoSQL pada dasarnya berasal dari sistem database RDB . Database ini  biasanya berinteraksi dengan sistem operasi UNIX . Database NoSQL database adalah mereka yang non - relasional ,open source , didistribusikan di dunia,  serta memiliki kinerja tinggi dengan cara linear yang terukur . Database nonrelational tidak mengatur data dalam tabel terkait ( yaitu , data disimpan dalam cara non -normalisasi ) . database NoSQL adalah open source , sehingga setiap orang dapat melihat source code secara bebas , memperbaruinya sesuai dengan kebutuhannya dan kompilasi . didistribusikan berarti data menyebarkan ke perangkat yang berbeda dan dikelola oleh perangkat yang berbeda, jadi di sini menggunakan konsep data replikasi . NoSQL mungkin secara simbolis direpresentasikan sebagai ditunjukkan pada gambar 1 :

 
Gambar 1 : representasi simbolik NoSQL
Gambar 1 menyatakan query ke database tanpa interaksi atau antarmuka bahasa SQL . Garis Miring dalam gambar menunjukkan penggunaan database tanpa menggunakan SQL ( Structured Query Language ) . Jadi , untuk mengakses database tersebut kita dapat menggunakan beberapa format lainnya seperti XML untuk menyimpan dan mengambil informasi dari database .
Dengan munculnya situs jejaring sosial seperti facebook dan twitter , permintaan teknologi baru yang dapat menangani jumlah data yang besar telah menyebabkan munculnya berbagai teknologi baru dan salah satu yang menonjol adalah NoSQL yang cukup membantu dalam penyimpanan segudang data. NoSQL ( non - relasional ) relatif lebih cepat dari database relasional .. Sebelumnya , di SQL menggunakan bahasa Query untuk mengambil serta menyimpan data , kalau di  NoSQL menyimpan entitas data besar dengan menggunakan dokumen XML ( eXtensible Mark up Language ) format . Bahasa XML pada dasarnya digunakan untuk menyimpan data dalam bentuk terstruktur yang dibaca manusia.

Aoksiomatik dari  NoSQL

A. ASAM free
ACID singkatan Atomicity , Konsistensi , Isolasi dan Daya Tahan . Konsep ACID pada dasarnya berasal dari lingkungan SQL. Tapi dalam NoSQL tidak akan menggunakan konsep ACID karena fitur Konsistensi SQL. Dalam artikel ini akan melihat bagaimana konsep ACID menciptakan masalah untuk NoSQL . Seperti dalam lingkungan terdistribusi , data menyebar ke mesin yang berbeda , setiap mesin menyimpan data dan pemeliharaan diperlukan konsistensi. Misalnya, jika ada perubahan dalam satu tupple table maka perubahan yang diperlukan dalam setiap enggine dimana data tertentu berada .

B. BASE
BASE kebalikan dari ACID [ 1 ] . database NoSQL dibagi antara jalan dari ACID ke BASIS .
Fokus utama menuju belakang BASE adalah ketersediaan permanen [ 6 ] .
Misalnya, berpikir tentang database di bank, jika dua orang yang mengakses akun sama di kota yang berbeda maka perubahan data yang  diperlukan bukan hanya dalam waktu yang sama tetapi membutuhkan beberapa database real time juga. Perubahan harus sering dilakukan pada semua mesin . Beberapa contoh lebih banyak reservasi kereta api online, perdagangan buku online, dll

C. CAP
CAP singkatan Konsistensi , Ketersediaan dan Partisi toleransi . CAP pada dasarnya adalah sebuah teorema yang mengikuti tiga prinsip.

( 1 ) Data yang ada pada semua mesin harus sama dalam segala hal dan perubahan data yang konsisten harus dilakukan pada semua mesin atau consistent data.
( 2 ) Data harus tersedia secara permanen dan harus diakses setiap waktu atau availability.
( 3 ) Selama kegagalan mesin atau kesalahan dalam mesin database yang akan bekerja dengan baik tanpa berhenti kerja atau partition
Tolerance


Peranan data dan Arsitektur di NoSQL
Ada empat komponen dalam blok bangunan nya.

[1.] Modelling Language: Ini menggambarkan struktur database dan juga mendefinisikan skema yang itu didasarkan. data adalahyang disimpan dalam bentuk baris dan kolom menggunakan XML format. Dan setiap data (nilai) sesuai dengan itu ditugaskan kunci yang unik. Untuk akses data lebih cepat, model dibangun di lingkungan yang sesuai.
[2.] Database Struktur: Setiap basis data sementara bangunan menggunakan struktur data sendiri, dan menyimpan data menggunakan perangkat penyimpanan permanen.
[3.] Database bahasa Query: Semua operasi yang dilakukan pada database yang membuat, merubah, membaca dan menghapus.
[. 4] Transaksi: Dalam setiap transaksi dalam data, mungkin ada jenis kesalahan atau kegagalan, kemudian, mesin tidak akan berhenti kerja.

Jenis penyimpan data NoSQL.
Atas dasar teorema CAP,  database NoSQL dibagi menjadi beberapa jumlah database . Ada empat jenis penyimpan data dalam NoSQL .

1 . Key value databases
Key value databases nama itu sendiri menyatakan bahwa itu adalah kombinasi dari dua hal yang merupakan kunci dan nilai . Ini adalah salah satu low profile sistem database ( tradisional) . Key Value database ( KV ) adalah ibu dari semua database NoSQL .
 Key adalah sebuah identifikasi unik untuk entri data tertentu. Kunci tidak harus diulang jika digunakan.
 Value adalah jenis data yang ditunjuk oleh kunci.



2 . Document Stores Databases
Document Stores Databases adalah mereka database NoSQL yang menggunakan catatan sebagai dokumen. Jenis Document Stores Databases terstruktur (teks ) atau semi - terstruktur ( XML ) dokumen yang biasanya hirarki di nature . Di sini setiap dokumen terdiri
dari satu set kunci dan nilai-nilai yang hampir sama seperti ada dalam database Key Value . Setiap database yang berada di Document Stores Databases dipindahkan ke field dengan menggunakan pointer dengan menggunakan teknik hashing . Document Stores Databases adalah skema bebas dan tidak tetap di nature .
Struktur Document Stores Databases  digambarkan pada Gambar di bawah ini.




 Angka tersebut menggambarkan bahwa itu terdiri dari jumlah di Document Stores Databases dokumen seperti database 1,2,3,4 dan memiliki id nya A , B , C , D yang berada di dalamnya yang menunjuk ke database-nya yang memiliki beberapa kaitannya dengan hal itu . Database menunjukkan nilai menggunakan beberapa kunci unik yang berada di perusahaan Database . Ini terdiri dari sebuah array dari database (yaitu berupa ember ) . Ini akan lebih jelas setelah mengambil contoh dibahas di bawah ini .

3 . Columnar Database
Columnar Database juga dikenal sebagai database keluarga kolom karena mereka adalah database berorientasi kolom .
Ada dua jenis database berorientasi kolom yang detail seperti yang diberikan di bawah ini :

( 1 ) Wide-Column data stores:
Ini adalah salah satu jenis database NoSQL . Menyimpan data Kolom lebar adalah mereka database yang digunakan untuk pengolahan web ,streaming data dan dokumen .


( 2 ) Column oriented databases:
Untuk memahami database berorientasi kolom mari kita mengambil contoh database bank yang diberikan dalam gambar 9 yang bidang atribut adalah EmpID , Gaji dan penunjukan dan nilai-nilai sesuai dengan itu adalah seperti yang digambarkan dalam database .



4 . Graph databases.
Database Grafik didasarkan pada teori graf . Secara umum, kita melihat grafik yang biasanya terdiri dari node \ , sifat dan tepi .
Database NoSQL Grafik terdiri dari :
( 1 ) Node mewakili entitas
( 2 ) Properti merupakan atribut
( 3 ) Tepi mewakili hubungan [ 6 ] .
Struktur Graph databases adalah sebagai berikut:


KARAKTERISTIK NoSQL

 NoSQL tidak menggunakan model data relasional dengan demikian tidak menggunakan bahasa SQL .
 NoSQL toko volume data yang besar .
 Dalam lingkungan terdistribusi (data menyebar ke mesin yang berbeda ) , kita menggunakan NoSQL tanpa ketidaksesuaian .
 Jika ada kesalahan atau kegagalan ada di setiap mesin , maka dalam hal ini tidak akan ada penghentian pekerjaan .
 NoSQL adalah database open source, yaitu kode sumbernya tersedia untuk semua orang dan bebas menggunakannya tanpa
overhead .
 memungkinkan data NoSQL untuk menyimpan dalam catatan yang tidak memiliki apapun skema tetap.
 NoSQL tidak menggunakan konsep ACID properti .
 NoSQL adalah horizontal scalable menyebabkan kinerja tinggi dalam cara linear .
 Hal ini memiliki struktur yang lebih fleksibel.


KESIMPULAN

Artikel ini diharapkan memberikan gambaran tentang database NoSQL , tentang bagaimana ia menolak dominasi SQL ,dengan latar belakang dan karakteristik . Ini juga menggambarkan fundamental yang membentuk dasar dari database NoSQL sepertiACID , BASE dan CAP teorema . Properti ACID tidak digunakan dalam database NoSQL database karena konsistensi data sehingga kita mengenal bagaimana SQL tertinggal konsistensi data . Kemudian, atas dasar teorema CAP kita dijelaskan berbagai jenis Database NoSQL yang kunci - nilai database , Document Toko Database , database yang berbasis Columnar , dan database Grafik dengan bantuan sebuah contoh . Selain semua ini kita juga telah menggambarkan karakteristik mereka , kompleksitas dan kinerja . Penelitian lebih lanjut sedang terjadi di teknologi baru yang timbul untuk NoSQL .


Best regrads,
Nugraha Santosa