pawsomestamps.com – Perplexity, sebuah perusahaan yang menggunakan web crawler untuk mengumpulkan data dari berbagai situs, dilaporkan melanggar ketentuan yang ada. Menurut laporan terbaru dari Cloudflare, web crawlers milik Perplexity diduga melakukan “stealth crawling” dengan menyamarkan identitas mereka untuk menghindari blokir dari file robots.txt dan firewall yang diterapkan oleh sejumlah situs web.
File robots.txt merupakan sebuah dokumen penting yang memberikan instruksi kepada web crawlers mengenai konten yang boleh atau tidak boleh diambil dari sebuah situs. Perplexity menggunakan bot bernama “PerplexityBot” dan “Perplexity-User”. Namun, dalam pengujian yang dilakukan oleh Cloudflare, bot-bot ini tetap mampu mengakses konten dari situs baru yang belum diindeks, meskipun diblokir oleh robots.txt. Hal ini juga terjadi pada situs dengan aturan Web Application Firewall (WAF) yang membatasi akses para web crawler.
Cloudflare mencatat bahwa Perplexity tampaknya mengakali pembatasan ini dengan memanfaatkan browser generik yang meniru tampilan Google Chrome di macOS. Selain itu, mereka juga diduga mengganti alamat IP yang tidak terdaftar dalam rentang resmi Perplexity untuk menembus firewall. Dalam laporan tersebut, Cloudflare mencurigai Perplexity beralih antar nomer sistem otonom (ASN) yang mengidentifikasi alamat IP yang akan memberikannya akses ke puluhan ribu domain dengan jutaan permintaan setiap harinya.
Cloudflare telah menghapus bot-bot Perplexity dari daftar bot terverifikasi mereka dan berusaha menerapkan metode untuk mengenali serta memblokir crawler yang licik ini. Sementara itu, upaya untuk mencegah perusahaan lain mengumpulkan konten dari web tampaknya akan terus menjadi tantangan. Informasi terbaru dari situs web sangat penting untuk mengembangkan model AI, mengingat Perplexity kini juga berfungsi sebagai alternatif mesin pencari.