Sejak era world wide web (WWW) terus berkembang pesat dalam hal ukuran data dan kualitasnya, pebisnis dan analis data banyak mencari cara untuk mengekstrak dan memperoleh data dari website.
Saat ini, ada banyak cara untuk menggali data dari berbagai website sesuai preferensi kita.
Ada yang diperuntukkan untuk hobi, ada juga yang skala perusahaan besar atau enterprise.
Salah satu jenisnya adalah DIY web scraping software, yang juga akan dibahas kali ini.
Kalau kamu butuh data dari website tertentu untuk keperluan riset atau proyek kecil-kecilan, aplikasi web scraper di bawah ini sudah lebih dari cukup.
DIY web scraping tools jauh lebih mudah digunakan dibanding ngoding web scraper sendiri. Berikut ini beberapa aplikasi web scraper terbaik yang bisa kamu gunakan.
Aplikasi Web Scraper Terbaik
Web Scraper
Web Scraper (Chrome Extension) adalah alternatif lain dari Outwit Hub, terutama kalau kamu menggunakan Google Chrome sebagai browser utama.
Ya, Web Scraper merupakan aplikasi berwujud ekstensi Chrome yang, tentu saja, bisa kamu download di Chrome Web Store.
Cara kerjanya adalah, kamu bisa membuat sitemap (plan) tentang bagaimana sebuah website dinavigasi dan data apa saja yang harus diekstrak.
Aplikasi ini dapat melakukan scrape beberapa laman website dalam satu waktu dan juga mampu mengekstraksi data yang bersifat dinamis.
Web Scraper juga bisa menangani website yang menggunakan JavaScript dan Ajax, membuatnya semakin powerful.
Setelah selesai scraping data, data yang telah diekstrak bisa diekspor ke sebuah file CSV.
Mungkin yang menjadi kelemahan ekstensi Web Scraper adalah kurangnya fitur-fitur otomasi. Lebih jelasnya, kamu bisa membaca cara penggunaan Web Scraper untuk ekstraksi data.
Spinn3r
Spinn3r adalah pilihan tepat untuk scrape seluruh data dari blog, situs berita, media sosial, dan RSS feed.
Spinn3r menggunakan Firehose API (95% proses crawling dan indexing website dilakukan oleh mereka).
Dengan aplikasi ini, kamu bisa menyaring (filter) data yang akan di-scrape menggunakan kata kunci (keywords) sehingga membantu meminimalisir konten yang kurang relevan.
Sistem indexing pada Spinn3r mirip dengan Google, data disimpan dalam format JSON.
Spinn3r bekerja dengan terus-menerus memindai website dan memperbarui data set. Disertai dengan admin console yang memiliki fitur dimana kamu bisa melakukan pencarian pada data mentah (raw data).
Spinn3r merupakan solusi ideal apabila data yang hendak kamu scrape terbatas pada website dengan banyak media.
Fminer
Fminer merupakan salah satu aplikasi web scraping yang paling mudah digunakan, tapi juga memiliki banyak fitur.
Dasbor visualnya membuat proses ekstraksi data dari website menjadi sederhana dan intuitif.
Baik scrape data dari laman website sederhana atau proyek pengumpulan data kompleks yang membutuhkan daftar proxy server, ajax handling, dan multi-layered crawls, semua bisa dilakukan dengan Fminer.
Kalau kamu hendak melakukan web scraping yang cukup kompleks, Fminer merupakan pilihan tepat.
Dexi.io
Dexi.io adalah aplikasi scraping berbasis website. Artinya, tidak perlu download aplikasi untuk bisa mulai scraping web.
Kamu bisa menyiapkan crawlers dan fetch data secara real-time.
Dexi.io juga memiliki fitur dimana kamu bisa menyimpan data yang telah di-scrape pada cloud seperti Box.net dan Google Drive.
Penyimpanan juga bisa dilakukan secara konvensional dengan ekspor menjadi file JSON atau CSV.
Scraping data juga dapat dilakukan secara anonim dengan memanfaatkan proxy.
Data yang kamu scrape akan tersimpan dalam server mereka hingga 2 minggu sebelum diarsipkan.
ParseHub
ParseHub adalah aplikasi web scraping yang mendukung ekstraksi data kompleks dari website yang menggunakan AJAX, JavaScript, redirects, dan cookies.
Dilengkapi dengan teknologi machine learning yang bisa membaca dan menganalisis dokumen pada website untuk menghasilkan data yang relevan.
ParseHub berupa aplikasi desktop yang tersedia untuk Windows, Mac, dan Linux.
Ada juga versi web app yang bisa kamu akses via browser.
Kamu bisa menyimpan hingga 5 proyek crawl data secara gratis di ParseHub.
Octoparse
Octoparse adalah aplikasi web scraping visual yang mudah digunakan.
Antarmuka point and click mempermudah kita untuk mengarahkan scraper dan mengekstraksi fields dari sebuah website.
Aplikasi ini akan menirukan kebiasaan human user saat mengunjungi dan scraping data dari website.
Octoparse memberikan pilihan untuk menjalankan proses ekstraksi pada cloud atau pada komputer lokal kita.
Data hasil scraping bisa diekspor ke dalam format TXT, CSV, HTML, atau Excel.
1Outwit Hub [tidak tersedia]
Outwit Hub adalah ekstensi Firefox yang bisa dengan mudah di-download di store add-ons Firefox.
Setelah diinstall dan diaktifkan, browser Firefox-mu bakal bisa scraping data-data dari website.
Untuk mempermudah proses pengumpulan data yang kamu lakukan, disediakan fitur data points recognition.
Mengekstrak data dari situs-situs menggunakan Outwit Hub tidak membutuhkan keahlian programming.
Cara penggunaannya juga sudah didokumentasikan dan mudah dipahami.
Salah satunya, kamu bisa baca-baca cara menggunakan Outwit Hub sampai bisa scraping web menggunakan tool ini.
Aplikasi ini gratis kok. Meski gratis, aplikasi ini bisa dijadikan opsi utama kapanpun kamu butuh scrape data dari web dengan cepat.
Aplikasi web scraper vs. Penyedia layanan scraping
Meski aplikasi web scraping dapat menangani keperluan ekstraksi data sederhana hingga sedang, tetap tidak direkomendasikan apabila kamu termasuk pebisnis atau enterprise yang hendak memperoleh data untuk riset pasar maupun analisis Competitive Intelligence (CI).
Ketika kebutuhannya sudah skala besar dan/atau sangat kompleks, aplikasi di atas tidak jarang menghasilkan data yang tidak sesuai ekspektasi.
Aplikasi di atas cocok digunakan saat data yang hendak diekstraksi terbatas dan situs yang hendak di-scrape tidak begitu rumit.
Apabila kamu membutuhkan data sekelas enterprise, outsource-kan saja ke perusahaan penyedia jasa DaaS (Data-as-a-Service).
Layanan dedicated web scraping akan lebih maksimal dalam akuisisi data dan akan memberikan luaran data sesuai dengan kebutuhanmu.
Apabila kebutuhan datamu membutuhkan faktor-faktor kustomisasi yang rumit, aplikasi DIY di atas bukan solusi terbaik.
Contohnya nih, kamu butuh data-data produk paling laris di untuk frekuensi tertentu, harusnya kamu mengkonsultasikan kepada penyedia layanan web scraping ketimbang scraping sendiri menggunakan software (gratisan).
Dengan menggunakan software, opsi kustomisasinya sangat terbatas dan jarang yang support scraping secara otomatis.
Aplikasi juga memiliki keterbatasan terutama dalam hal maintenance.
Lain halnya jika menggunakan jasa pihak ketiga, website target akan dimonitor selalu dan setup saat scraping akan terus dipantau. Aliran data pun menjadi lebih lancar dan konsisten saat menggunakan layanan scraping data pihak ketiga.
Jadi, karena data sangatlah sensitif, bijaklah dalam memilih layanan saat hendak melakukan ekstraksi data ya! :D
Klu yg berbayar sih banyak …dan yg free trial juga ada….bisa coba juga GINEE …lg ada promo…tp 7 hari free trial juga masih bisa dipakai..atau yg bayar tp agak murah DUTCHBOT…cm utk scrapping ajah uploadnya tdk ada bisa pakai upload massal di marketplace spt shopee… Jd gak menyalahi aturan ….
Halo gan. Saat pake add in web scraper di chrome pas mau download csv nya gak muncul. Di klik refresh gak bisa. Sudah berulang kali. Kira2 kenapa ya gan ? Mksh
Sekarang masih work nggak?
Masih gan silahkan di cek saja ke situs nya
bisa untuk scrape google maps gak gan?
Saya belum tahu apakah ini bisa digunakan untuk scrape maps? tapi saya pikir semua aplikasi pada daftar ini belum bisa digunakan untuk itu
bisa untuk scrape marketplace nggak gan?
Bisa gan
Paling rekomen buat scrape marketplace menurut agan yg mana gan ?
saya rekomendasikan dexi.io
terima kasih gan atas informasinya
dexi.io ini free ya bang? Via android
Berbayar, namun ada “free trialnya”