Pengukuran Web - Crawler - Search Engine - Web Archive


Anggota Kelompok Softskill :
Singgih Prima Dhasa
Nicholas Bima N.P
Fadli H.A
Taufik Hidayatullah
Muhammad Fadli

2IA16



PENGUKURAN WEB

Di bawah ini ada beberapa tools yang digunakan untuk mengeukur website dari segi kecepatan akses dan performanya, serta mengukut banyaknya pengunjung suatu website, berikut ini penjelasan mengenai beberapa tools yang digunakan untuk mengukur kecepatan akses website.

1. Pingdom Tools merupakan sebuah alat ukur kecepatan website dapat di akses, nilai dari sebuah website, dan berapa ukuran dari sebuah website tersebut.
Beberapa kelebihannya di kategorikan sebagai berikut  :
Performance Grade : melihat nilai kecepatan performa halaman web, dari akses DNS, browser cache, combine external css dan lain-lain.
Waterfall : melihat detail kecepatan akses ketika membuka halaman web, dari gambar bahkan sampai seberapa cepat script tersebut dapat di akses.
Page Analysis : melihat detail analisa halaman web.
History : melihat detail akses dari beberapa hari lalu. 
Kekurangan yang terdapat pada tools ini, sama seperti tools alat ukur akses web pada umumnya yaitu Membutuhkan akses internet yang stabil, karena tidak mungkin kita bisa mengukur kecepatan akses suatu website kalau akses internet kita terhadap website tersebut tidak stabil/berjalan dengan baik.

2. GTmetrix adalah website untuk menganalisa kecepatan web yang tersedia secara gratis, dengan menggunakan google page speed dan Yahoo Yslow sebagai analyze engine dan untuk menampilkan hasil serta rekomendasi yang harus dilakukan.
Dengan GTmetrix juga dapat membandingkan beberapa URL sekaligus dan jika mendaftar sebagai anggota maka dapat:
-          Melihat tes sebelumnya untuk membandingkan hasilnya
-          Menjadwalkan cek website secara otomatis
-          Menyimpan laporan
-          Memilih hasil laporan untuk ditampilkan kepublic atau tidak
Kelebihan GTmetrix :
-          Dapat menggunakan google page speed dan YSLOW sebagai analyze engine
-          Dapat membandingkan beberapa URL sekaligus
-          Menjadwalkan cek website secara otomatis
-          Dapat menyimpan laporan
-          Memilih hasil laporan untuk ditampilkan kepublic atau tidak.
Kekurangan GTmetrix :
-          Jika menggunakan GTmetrix harus menggunakan internet yang cepat.

3. Alexa Rank 
Alexa Internet, Inc. adalah perusahaan yang berbasis di California yang mengoperasikan situs yang menyediakan informasi mengenai banyaknya pengunjung suatu situs dan urutannya. Alexa Internet didirikan pada tahun 1996 oleh Brewster Kahle dan Bruce Gilliat. Cara kerja Alexa rank Alexa memberikan peringkat ke sebuah situs berdasarkan jumlah pengunjung unik. Semakin rendah alexarank dari situs berarti situs memiliki sedikit pengunjung unik.Jadi jika Anda bisa mendapatkan lebih banyak traffic ke situs Anda, Anda akan mendapatkan lebih rendah alexa rank.
 Kelemahan Alexa:
1. Jika pengguna internet (pengakses situs anda tidak menginstal Alexa Toolbar di browsernya) maka sekalipun ada 1000 pengunjung situs anda dalam sehari, Alexa akan tetap menilai situs anda tidak ada pengunjungnya.
2. Jika dalam sehari ada yang mengakses situs anda 20 kali dengan alamat IP (Internet protocol) yang sama, maka akan dianggap situs anda hanya dikunjungi oleh 1 satu orang hanya dapat poin 1, akan berbeda jika situs anda dikunjungi oleh 20 orang dengan alamat IP berbeda (unik) maka situs anda akan memperoleh nilai 20 (nilai ini hanya pengandaian, Alexa mempunyai formula sendiri dalam menentukan nilai sebuah web) .
Kelebihan Alexa :
1. Alexa rank akan menampilkan tingkat popularitas dari sebuah situs web yang dibandingkan dengan web milik kita,termasuk jangkauan,tampilan halaman,dan masih banyak lagi.
2. Pencarian analisa akan menampilkan kepada kita yang merupakan syarat untuk kita untuk berkompetisi untuk mendapatkan sebuah traffic 3.Data pengunjung akan menampilkan kepada kita apa yang menarik dari website kita yang dilihat oleh pengunjun – pengunjung website kita 4.Data clickstream akan menampilkan kepada kita sebagai pemilik website dimana dalam mendapatkan traffic dari program keanggotaan dan kemitraan.


CRAWLER

Crawler bertugas untuk mengindeks, membuat rangking, menyusun dan menata halaman dalam bentuk indeks terstruktur agar bisa dicari dalam waktu yang sangat cepat.
Obyek dari crawler adalah isi halaman, file, folder dan direktori web, sedangkan subyek dari robots.txt adalah mesin pencari/search engine crawler.
Crawler ini penting dipahami untuk SEO.
Crawler akan berhadapan dengan robotsg.txt yang akan memandu mesin pencari/search engine seperti google, yahoo dan bing untuk mengindeks sebuat blog atau website, sehingga crawler akan tahu mana halaman, folder atau file yang boleh diindeks atau tidak, semakin lengkap sebuah panduan dalam robots.txt akan lebih baik, dengan demikian robot crawler akan dengan cepat mengindeks isi website, kebanyakan halaman situs berisi link ke halaman lain.
Sebuah spider dapat memulai dari manapun, apabila ia melihat sebuah link kepada halaman lain, maka ia akan segera menuju ke sana dan mengambilnya.
Search engine seperti Alta vista mempunyai banyak spider yang bekerja secara pararel. Sangat direkomendasikan untuk tidak menggunakan javascript pada menu utama, gunakanlah tag noscript, hyal ini dikarenakan javascript tidak bisa diambil oleh spider untuk search engine, dan semua link yang mengandung javascript akan ditolak sebagai halaman teks.

Crawlers Pada Search Engine
Berikut ini adalah contoh-contoh dari Crawler:

1.Teleport Pro
Salah satu software web crawler untuk keperluan offline browsing. Software ini sudah cukup lama popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com.
2.HTTrack
Ditulis dengan menggunakan C, seperti juga Teleport Pro, HTTrack merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk anda, agar dapat dilihat secara offline. Yang menarik software ini free dan dapat di download pada website resminya di http://www.httrack.com
3.Googlebot
Merupakan web crawler untuk membangun index pencarian yang digunakan oleh search engine Google. Kalau website anda ditemukan orang melalui Google, bisa jadi itu merupakan jasa dari Googlebot. Walau konsekuensinya, sebagian bandwidth anda akan tersita karena proses crawling ini.
4.Yahoo!Slurp
Kalau Googlebot adalah web crawler andalan Google, maka search engine Yahoo mengandalkan Yahoo!Slurp. Teknologinya dikembangkan oleh Inktomi Corporation yang diakuisisi oleh Yahoo!.
5.YaCy
Sedikit berbeda dengan web crawler  lainnya di atas, YaCy dibangun atas prinsip jaringan P2P (peer-to-peer), di develop dengan menggunakan java, dan didistribusikan pada beberapa ratus mesin computer (disebut YaCy peers). Tiap-tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central.
Contoh search engine yang menggunakan YaCy adalah Sciencenet (http://sciencenet.fzk.de) untuk pencarian dokumen di bidang sains.

Cara Kerja Web Crawler
Web crawler atau yang dikenal juga dengan istilah web spider bertugas untuk mengumpulkan semua informasi yang ada di dalam halaman web. Web crawler bekerja secara otomatis dengan cara memberikan sejumlah alamat website untuk dikunjungi serta menyimpan semua informasi yang terkandung didalamnya. Setiap kali web crawler mengunjungi sebuah website, maka web crawler tersebut akan mendata semua link yang ada dihalaman yang dikunjunginya itu untuk kemudian di kunjungi lagi satu persatu. Proses web crawler dalam mengunjungi setiap dokumen web disebut dengan web crawling atau spidering. Beberapa websites, khususnya yang berhubungan dengan pencarian menggunakan proses spidering untuk memperbaharui data data mereka. Web crawler biasa digunakan untuk membuat salinan secara sebagian atau keseluruhan halaman web yang telah dikunjunginya agar dapat di proses lebih lanjut oleh system pengindexan. Crawler dapat juga digunakan untuk proses pemeliharaan sebuah website, seperti memvalidasi kode html sebuah web, dan crawler juga digunakan untuk memperoleh data yang khusus seperti mengumpulkan alamat e-mail.
Web crawler termasuk kedalam bagian software agent atau yang lebih dikenal dengan istilah program bot. Secara umum crawler memulai prosesnya dengan memberikan daftar sejumlah alamat website untuk dikunjungi, disebut sebagai seeds. Setiap kali sebuah halaman web dikunjungi, crawler akan mencari alamat yang lain yang terdapat didalamnya dan menambahkan kedalam daftar seeds sebelumnya

Cara Supaya Halaman Web Kita Masuk Dalam Google Crawlers

Tips Agar Sering didatangi oleh Google Crawlers pertama :
Membuat sitemap dan atau daftar isi
Sitemap (peta situs) blog berfungsi membantu search engine bot menjelajahi, menemukan dan mengindeks konten blog kita. Jika blog anda berplatform wordpress.org, cara paling mudah membuat sitemap adalah dengan memasang plugin bernama Google XML sitemaps. Sitemap sebenarnya hampir sama dengan halaman daftar isi yang sering kita buat di blog, hanya sitemap berisi kode-kode HTML yang dibaca oleh bot sedangkan daftar isi untuk dibaca oleh manusia. Jika anda ingin sitemap yang juga berfungsi sebagai daftar isi, gunakan plugin bernamaDagon Sitemap Generator. Beberapa themes seperti GoBlog Themes sudah menyediakan sitemap secara default seperti ini: Sitemap.

Tips Agar Sering didatangi oleh Google Crawlers kedua :
Mendaftarkan sitemap di Google Webmaster Tools
Sitemap blog anda perlu didaftarkan di Google Webmaster Tools. Google webmaster sendiri penting diikuti oleh semua pemilik blog agar anda dapat menganalisa semua data yang berkenaan dengan blog anda. Melalui uji sitemap, kita bisa mengetahui konten mana di blog yang belum terindeks Google. Daftarkan dulu blog anda di Google Webmaster Tools, lihat caranya disini
Setelah terdaftar, masuk ke bagian “pengoptimalan” >> “peta situs” dan masukkan nama sitemap blog anda.
Kolom yang perlu diisi disamping URL blog kita adalah: sitemap.xml, jadi lengkapnya adalah: namabloganda.com/sitemap.xml

Tips Agar Sering didatangi oleh Google Crawlers ketiga :
Internal link
Internal link merupakan teknik onpage optimization, yaitu salah satu cara yang digunakan dalam SEO untuk meningkatkan online visibility dari sebuah blog. Internal link adalah link yang mengarah ke dalam blog kita sendiri. Buatlah link tersebut relevan dengan topik yang sedang dibahas. Berapa banyak internal link yang perlu ditambahkan dalam 1 artikel ? Tidak ada patokan, namun buatlah minimal 2 saja. Satu link mengarah ke homepage dan 1 link mengarah ke artikel lain yang kategorinya sejenis atau bahkan mengarah ke artikelnya itu sendiri. Internal link ini sama fungsinya seperti sitemap yaitu memudahkan Google Crawlers menjelajahi blog kita


SEARCH ENGINE

Mesin pencari (search engine) adalah salah satu program komputer yang di rancang khusus untuk membantu seseorang menemukan file-file yang disimpan dalam computer, misalnya dalam sebuah web server umum di web (www) atau komputer sendiri. Mesin pencari memungkinkan kita untuk meminta content media dengan criteria yang spesifik ( biasanya berisikan prase atau kata yang kita inginkan) dan memperoleh daftar file yang memenuhi kriteria tersebut.

Cara Kerja Search Engine
Mesin pencari web bekerja dengan cara menyimpan informasi tertang banyak halaman web, yang diambil secara langsung dari www. Halaman ini di ambil dengan web crawler-browsewr web yang otomatis mengikuti setiap pranala yang di lihatnya. Isi setiap halaman lalu dianalisis untuk menentukan cara mengindeksnya (misalnya kata-kata di ambil dari judul, subjudul, atau field khusus yang di sebut meta tag ).
Data tentang halaman web disimpan dalam sebuah database indeks untuk di gunakan dalam pencarian selanjutnya. Sebagian mesin pencari seperti Google, menyimpan seluruh atau sebagian halaman sumber ( yang di sebut cache) maupun informasi tentang halaman web itu sendiri. Ketika seorang pengguna menggunakan mesin pencari dan memasukin query, biasanya dengan memasukan kata kunci, mesin mencari akan mengindeks dan memberikan daftar halaman web yang paling sesuai dengan kriterianya. Daftar ini biasanya di sertai ringkasan singkat mengenai judul dokumen dan terkadang sebagian teks dari hasil pencarian yang kita cari.

Pengelompokan Search Engine
Search Engine dikelompokkan ke dalam tiga kelompok utama. Yaitu, primer, sekunder, dan targeted. Yuk kita bahas satu-satu :

Search Engine Primer
Search engine primer adalah jenis search engine yang umum kite kenal salama ini, yaitu Google, Yahoo!, dan MSN.

Google
The King of Search Engine, itulah julukan yang diberikan untuk Google. Julukan itu memang pantas diberikan kepada Google. sebab Google memberikan tingkat ke-akurat-an yang bisa memuaskan banyak pihak. Seperti juga Yahoo!, Google memang memberikan berbagai fasilitas tambahan kepada mereka yang menginginkannya. Seperti dalam pencariannya memuat foto, video dan file yang bersangkutan, dapat menterjemahkan halaman berbahasa asing, misalkan halaman berbahasa Inggris dapat diterjemahkan menjadi berbahasa Indonesia, dll..
Tapi sekali lagi ditekankan bahwa, fasilitas tambahan itu bukanlah penyebab utama kepopuleran Google. Keakuratan lah yang menyebabkan Google begitu populer. Keakuratan ini mulai dikembangkan saat para pendesign Google mulai menambahkan faktor link popularity kedalam teknik perangkingannya.
Kombinasi antara keyword dan link popularity ini, memberikan tingkat keakuratan yang tinggi jika dibanding hanya menggunakan keyword saja. Namun perlu diingat juga bahwa, link popularity dan keyword hanyalah dua dari sekian banyak faktor yang diperhitungkan saat Google merangking tingkat relevansi dari suatu web page terhadap suatu topik.

Yahoo!
Yahoo! adalah sebuah search engine. Tapi selain search engine, Yahoo! juga memiliki apa yang disebut dengan Web Directory. Jika kamu belum mengetahui apa yang dimaksud dengan Web Directory itu, berikut gambarannya secara umum.
Web Directory adalah kumpulan dari web page yang ada di internet. Web page-web page itu dikelompokkan kedalam beberapa kategori utama. Dari beberapa kategori utama ini, dipecah atau dibagi-bagi lagi mencari sub katergori yang lebih spesifik.
Web directory ini fungsinya mirip dengan search engine, yaitu untuk mencari, mengelompokkan, kemudian merangking atau mengindex berbagai web page yang ada di internet. Jadi kita bisa menggunakan web directory ini untuk mencari web page berdasarkan kategori yang kita inginkan.
Yahoo! sebenarnya pada awal pembuatannya adalah sebuah web directory. Untuk lebih jelasnya, kamu bisa membaca mengenai sejarah Yahoo!. S eiring perkembangannya, Yahoo! akhirnya dikenal juga sebagai search engine. Namun tidak seperti Google, dalam upayanya menyediakan fasilitas web search, Yahoo! tidak bekerja sendirian. Yahoo! bekerjasama dan menggunakan jasa dari pihak ketiga, misalnya Inktomi, AllTheWeb, AltaVista, Overture, dan juga Google.

Bing
BING mesin pencari yang baru dari Microsoft, telah datang dan mengambil perhatian banyak orang dengan cepat. Bing ini merupakan bentuk reinkarnasi yang dilakukan Microsoft terhadap ketiga mesin pencari produksinya terdahulu, yakni Live Search, Windows Live Search, dan MSN Search. Produk mesin pencari yang baru ini secara resmi dilucurkan pada tanggal 3 Juni 2009 menggantikan mesin pencari sebelumnya, yaitu Live Search. Bing diciptakan dengan menggunakan suatu teknologi, yakni teknologi PowerSet.
Teknologi ini memungkinkan pengguna untuk memperoleh hasil pencarian yang lebih akurat. Di samping itu, Bing dilengkapi dengan kemampuan untuk menyimpan dan membagi historis pencarian melalui Windows Skydrive, Facebook, dan e-mail. Bing mengelompokkan pencarian berdasarkan empat kategori, yaitu : pencarian halaman situs atau website, pencarian gambar, pencarian berita, pencarian siapa dan apa yang paling banyak dicari oleh pengguna Bing.

Search Engine Sekunder
Mereka disebut search engine sekunder karena mereka mempunyai audience atau user yang lebih spesifik. Search engine yang masuk kedalam kelompok search engine sekunder ini biasanya memang dibuat dan ditujukan khusus untuk kalangan tertentu saja. Misalnya untuk pengguna dari negara-negara tertentu saja.
Search engine sekunder mungkin memang tidak memberikan traffik sebanyak search engine primer. Antara lain itu disebabkan oleh keterbatasan seperti yang sudah disebutkan diatas.
Search engine sekunder dibuat dan ditujukan untuk kalangan spesifik, yang artinya mereka punya audience atau user yang spesifik pula. Jika kebetulan search engine tersebut memiliki audience yang sama dengan audience yang menjadi target kita maka traffic yang kita dapatkan dari search engine sekunder ini adalah memang traffik yang menjadi target utama kita. Itu artinya kita tidak perlu repot-repot lagi mencari orang-orang yang menjadi target utama kita. Kita cukup memfokuskan diri pada search engine sekunder yang mempunyai audience yang sama dengan audience yang menjadi target dari usaha SEO yang kita lakukan.
Seperti juga search engine yang termasuk dalam kelompok primer, search engine sekunder ini juga mempunyai algoritma yang berbeda dalam hal merangking. Mereka mempunyai penekanan pada kriteria yang berbeda-beda dalam hal penentuan rangking. Ada yang lebih menekankan pada penggunaan keyword, sementara yang lain lebih menekankan pada link, dan seterusnya.
Search engine sekunder ini tidak bisa kita abaikan saat kita mulai membuat perencanaan SEO. Seperti yang sudah dikatakan tadi, walau mungkin traffic yang mereka berikan tidak sebanyak traffik dari search engine primer, namun traffik tetaplah traffik. Lycos, Miva, LookSmart, Ask.com, dan Espotting adalah contoh-contoh search engine yang termasuk dalam kelompok sekunder.

Targeted Search Engine
Targeted search engine terkadang disebut juga topical search engine. Yaitu search engine yang lebih spesifik dari yang spesifik. Search engine ini biasanya dibuat untuk melayani user-user yang mempunyai ketertarikan pada topik-topik yang tertentu. Topik-topik ini biasanya bersifat umum, misalnya masalah kesehatan, bisnis, pendidikan, teknologi, dan sejenisnya.
Contoh-contoh search engine targeted ini misalnya, CitySearch, Yahoo! Travel, dan MusicSearch. Seperti juga search engine sekunder yang kita bicarakan diatas, traffik yang ke atau dari search engine kelompok targeted ini adalah traffik yang benar-benar spesifik. Carilah search engine targeted yang mempunyai relevansi dengan topik yang menjadi target usaha SEO yang kita lakukan.







WEB ARCHIVING

Definisi Web Archiving
Pengarsipan web (Web Archiving) adalah proses mengumpulkan bagian dari WWW dan memastikan koleksi tersebut diawetkan dalam suatu arsip, misalnya situs arsip, untuk diakses peneliti, sejarawan, dan masyarakat umum pada masa datang.

Cara Kerja Web Archiving
Yang paling umum web pengarsipan teknik menggunakan web crawler untuk mengotomatisasi proses pengumpulan halaman web. Web crawler biasanya mengakses halaman web dengan cara yang sama dengan yang dilakukan user yang menggunakan web browser untuk menemukan website yang ingin dicari.

Contoh-contoh Web Archiving
Berikut Ini adalah Beberapa Contoh Layanan yg melayani jasa Web Archiving:

Archive-it : Sebuah Layanan Pengarsipan Web Berlangganan yang memperbolehkan sebuah institusi Untuk Membangun, Me-Manage, dan Mecari Arsip web Institusi itu sendiri

Archive.is : Sebuah Layanan Pengarsipan Web Gratis Untuk menyimpan Halaman dan berikut juga Gambar dari sebuah website tertentu. Dan bias menyimpan halaman dari Web 2.0.

Iterasi : Sebuah Layanan Pengarsipan Web yang khusus untuk agensi pemerintahan, organisasi Finansial, brand heritage Dll.




Sumber :

http://www.seputarseo.com/tag/periksa-skor-google-page-speed-dan-yahoo-yslow

http://kafegue.com/kabar-gembira-ekstensi-yslow-kini-hadir-di-google-chrome/
http://www.kaskus.us/showthread.php?t=12936390
http://www.statshow.com
http://www.iwebtool.com/speed_test
http://sengineku.blogspot.com/2010/10/arti-dan-fungsi-crawler.html
http://blog.um.ac.id/corianna/2011/12/14/search-engine-web-crawler/
http://ahmadfaza.com/cara-kerja-web-crawler.html
http://annunaki.me/2012/12/25/tips-agar-sering-didatangi-oleh-google-crawlers/
http://mediarie.blogspot.com/2011/07/melihat-perbedaan-search-engine_12.html
http://en.wikipedia.org/wiki/Web_archiving

0 komentar:

Posting Komentar

Followers

Diberdayakan oleh Blogger.

Copyright © 2012 Reality BreakerTemplate by : UrangkuraiPowered by Blogger.Please upgrade to a Modern Browser.