5 Cara Menggunakan File Log untuk SEO dengan Gerry White
Diterbitkan: 2023-02-08Bagaimana Anda memanfaatkan file log untuk meningkatkan SEO Anda?
Itulah yang akan kita bicarakan hari ini dengan seorang pria dengan pengalaman lebih dari 20 tahun di industri SEO yang bekerja di merek dan agensi, termasuk BBC, Just Eat, dan Rise at Seven. Sambutan hangat untuk podcast SEO Dalam Penelusuran, Gerry White.
Pada episode kali ini, Gerry membagikan lima cara menggunakan logfiles untuk SEO, antara lain:
- Melihat bagaimana tampilan Google di situs Anda
- Parameter
- Apakah ada subdomain yang menghabiskan anggaran perayapan Anda
- file JavaScript dan CSS
- Kode respons
Gerry: Hei, senang berada di sini.
D: Baik untuk memiliki Anda. Anda dapat menemukan Gerry dengan mencari Gerry White di LinkedIn. Jadi Gerry, haruskah setiap SEO menggunakan file log?
G: Tidak, saya tahu kedengarannya kontroversial ketika saya mengatakan bahwa file log, kami memiliki banyak sekali informasi. Tapi sejujurnya, sering kali pengembaliannya semakin berkurang. Dan seringkali Anda biasanya dapat menemukan banyak informasi sebelum masuk ke file log. Yang saya maksud adalah, jika Anda melihat informasi Google Search Console, ada banyak sekali informasi di sana. Saat saya melihat ke dalam file log, saat itulah saya pertama kali menghabiskan banyak tempat lain terlebih dahulu. Saya selalu menyarankan untuk merayapi situs menggunakan sesuatu seperti Screaming Frog atau perayap desktop apa pun yang Anda miliki, lalu melihat Google Search Console sebelum mulai melihat file log.
Alasan saya mengatakan itu, dan alasan saya terdengar hampir anti-logfile ketika saya akan berbicara tentang betapa bergunanya mereka, adalah kenyataan bahwa mereka sebenarnya cukup menantang untuk dikerjakan pada awalnya. Dan memang dibutuhkan sedikit keterampilan, pengetahuan, dan pengalaman untuk benar-benar menguasainya, dan bahkan untuk mendapatkan akses ke sana. Tapi satu hal hebat tentang hari ini adalah kenyataan bahwa sekarang, kami sebenarnya memiliki lebih banyak akses ke file log daripada sebelumnya. Awalnya, saat saya memulai, kami tidak memiliki Google Analytics atau perangkat lunak analitik apa pun seperti yang kami miliki saat ini. Analisis file log adalah cara kami melihat cara orang mengunjungi situs web. Sekarang, kami jarang melihat file log tentang cara orang melihat situs web, kecuali jika kami melakukan sesuatu dengan InfoSec. Atau kami melakukan sesuatu untuk mendiagnosis sesuatu yang sangat aneh dan luar biasa.
Namun sebenarnya, sering kali, kami memiliki perangkat lunak analitik yang jauh lebih baik. Ini mungkin berubah karena sebenarnya, satu hal yang aneh adalah kenyataan bahwa banyak situs web tidak dapat melacak berapa banyak orang yang membuka halaman 404, karena sering kali, Anda tidak pernah mengeklik bahwa Anda akan menerima cookie di halaman 404 . Tiba-tiba, file log kembali lagi untuk menjawab beberapa pertanyaan yang sangat aneh seperti itu.
Tetapi alasan utama saya berbicara tentang file log hari ini adalah untuk tujuan SEO. Jadi ya, jika Anda memiliki masalah dengan situs besar, jika Anda memiliki situs web e-niaga besar, jika Anda memiliki situs internasional, multibahasa, besar dengan navigasi segi, maka file log adalah sesuatu yang harus diambil. diperhitungkan dan pasti harus melihat ke bawah garis sesegera mungkin.
D: Jadi hari ini, Anda membagikan lima cara SEO harus menggunakan file log. Mulai dengan nomor satu, lihat bagaimana tampilan Google di situs Anda.
1. Melihat Bagaimana Google Melihat Situs Anda
G: Ya, Google memang tidak bisa ditebak, hampir seperti anak nakal. Ini aneh karena meskipun saya katakan kita dapat melihat situs dan kita dapat menggunakan alat perayapan untuk melihat bagaimana Google seharusnya melihat situs tersebut, kita sering terkejut saat mengetahui bahwa Google terobsesi dengan satu set halaman atau pergi menyusuri beberapa rute aneh di suatu tempat. Atau baru-baru ini, saya telah bekerja selama setahun terakhir untuk sebuah supermarket bernama Odor, dan salah satu hal yang kami temukan adalah bahwa bot Google telah melihat sangat banyak jenis konfigurasi analitik dan membuat tautan buatan dari situ. Google menemukan tautan yang rusak. Dan untuk waktu yang lama, saya mencoba mencari tahu mengapa menemukan puluhan 1000-an dari 404 yang tidak ada di halaman sama sekali. Tapi ternyata sudah melihat konfigurasi analitik dan membuat tautan dari situ. Jadi kami melihat seberapa besar dampaknya. Dan jika kita melihat fakta bahwa Google menemukan semua 404 ini, itu mungkin bukan masalah besar. Namun sekarang yang ingin kami ketahui adalah berapa banyak waktu yang dihabiskan untuk 404 itu, dan jika kami memperbaiki satu masalah kecil ini, apakah itu berarti perayapan situs lainnya akan meningkat sebesar 20-30%? Apa peluangnya jika kita memperbaikinya di sana? Ini semua tentang melihat mengapa Google melihat situs seperti itu, dan apa yang ditemukannya yang seharusnya tidak ditemukan.
2. Parameter
Hal lain yang sering kita perhatikan adalah parameter. Saya tidak tahu apakah Anda tahu, tetapi orang-orang SEO selalu menautkan ke versi kanonis halaman. Yang saya maksud adalah, seringkali ada beberapa versi halaman yang terkadang memiliki semacam pelacakan internal atau pelacakan eksternal. Ada begitu banyak cara di mana kita dapat menautkan ke halaman dan seringkali sebuah produk, misalnya, dapat duduk di banyak tempat di sebuah situs. Contoh bagusnya adalah saya bekerja di sebuah situs, yaitu Magento. Dan setiap produk tampaknya berada di bawah setiap kategori, jadi sungguh menakjubkan ketika kami mengetahui bahwa ada sekitar 20 versi dari setiap produk, dan setiap produk dapat dirayapi. Jadi dari sana, kami tahu bahwa Google juga menghabiskan banyak waktu untuk menjelajahi situs. Dan yang menarik adalah, jika Anda menghapus suatu produk, Google akan berkata "Oh, tapi saya punya 19 versi lain dari produk ini" jadi perlu beberapa saat agar halaman yang sebenarnya hampir hilang jika Anda menggunakan 404 atau sesuatu seperti itu karena cara kerja Google. Google akan melihat bahwa ini adalah versi kanonis dari halaman ini. Tetapi jika Anda menghapus versi kanonis, maka itu akan mulai menggunakan yang berbeda. Dan ini adalah jenisnya informasi yang diberikan logfile kepada kami Kemampuan bagi kami untuk melihat situs seperti Google.
Dan itu juga memungkinkan kita untuk melihat hal-hal seperti kode status. Contoh bagusnya adalah ada kode status yang mengatakan saya belum dimodifikasi. Dan untuk kehidupan saya saat ini, saya tidak dapat memikirkan apa itu, saya seharusnya menulis ini sebelum podcast ini. Namun pada dasarnya, "Saya belum dimodifikasi" secara besar-besaran meningkatkan tingkat perayapan situs web. Dan ketika saya mengetahui bahwa ini adalah sesuatu yang Google hormati, yang dapat saya lakukan adalah dengan semua gambar, semua produk , dan semua bagian ini yang tidak dimodifikasi secara teratur, jika kita dapat menggunakan not modified, dan kita dapat meningkatkan kecepatan perayapan Google, meningkatkan efektivitas, dan mengurangi beban di server, kita dapat kemudian secara signifikan meningkatkan cara Google menemukan semua produk yang berbeda.
Cara Google melihat hal-hal, yang kami inginkan, yang diinginkan admin server, dan yang diinginkan semua orang, adalah server menjadi secepat dan seefisien mungkin. Sekali lagi, kembali ke sisi file log, saat ini, kami tidak dapat menggunakan file log sama sekali secara efektif, selama bertahun-tahun. Karena dengan CDN, Anda sering menemukan bahwa ada banyak tempat di mana sebuah halaman akan terkena. Dan CDN seringkali tidak memiliki file log itu sendiri. Jadi kita akan melihat semua tempat yang berbeda ini dan melihat berapa banyak muatan yang ada di server ini dan berapa banyak muatan di server itu. Dan kami mencoba menyatukan semuanya dan file log akan berada dalam format yang berbeda. Sekarang dengan CDN, kita sebenarnya bisa mulai memahami keefektifan CDN. Tiba-tiba, hal-hal seperti PageSpeed secara besar-besaran dipengaruhi dan ditingkatkan oleh fakta bahwa jika kita menggunakan file log, kita dapat mulai memahami fakta bahwa gambar tersebut, misalnya, dengan kanonikalisasi gambar, jadi jika ada satu gambar yang digunakan di beberapa halaman, seperti selama URL konsisten, CDN berfungsi, dan Google merayapinya dengan lebih baik. Ya, ada begitu banyak cara berbeda di mana file log membantu meningkatkan PageSpeed, menyimpan cache, dan melayani pengguna dan mesin telusur dengan jauh lebih efisien.
D: Saya sedang meninjau lima poin Anda yang akan Anda bagikan. Dan ada beberapa elemen berbeda yang sudah Anda bagikan. Anda mengingatkan saya pada seseorang yang hanya bisa saya ajukan satu pertanyaan dan mereka memberi saya episode podcast 15 menit tanpa mengajukan pertanyaan lebih lanjut. Jadi ada satu orang yang mungkin bisa melakukannya, bahkan lebih dari Anda. Dan itu mungkin Duane Forrester. Duane dan saya bercanda tentang dia melakukan itu saya hanya menanyakan satu pertanyaan dan saya berjalan pergi dan meninggalkan dia untuk membagikan konten untuk sisa episode. Tapi Anda berbicara tentang parameter sedikit. Saya tidak tahu apakah Anda menyentuh poin nomor tiga, yaitu menemukan jika ada subdomain yang menghabiskan anggaran perayapan, sebagaimana seharusnya.
3. Apakah ada subdomain yang menghabiskan anggaran perayapan Anda?
G: Ini sebenarnya kembali ke Just Eat. Pada satu titik, kami menemukan bahwa situs web tersebut direplikasi di beberapa subdomain yang berbeda, dan semuanya dapat dirayapi. Menariknya, ini tidak memiliki visibilitas menurut alat seperti Citrix. Dan alasan mengapa mereka tidak melakukannya adalah karena semuanya dikanonikalisasi. Jadi ketika kami mengetahui bahwa meskipun duplikat ini ada di luar sana, Google menghabiskan kurang lebih 60 hingga 70% dari anggarannya untuk merayapi subdomain ini. Dan karena cara ini tidak di-cache dengan cara yang sama karena CDN dan teknologi lainnya, ini sebenarnya membuat banyak beban server. Jadi itu adalah sesuatu yang menarik bagi kami, karena kami mengabaikan ini sebagai masalah yang perlu diperbaiki di masa mendatang. Karena kami tahu masalahnya. Kami tahu ada semacam masalah, dan saya telah membicarakannya. Tapi saya menurunkan prioritasnya sampai kami mulai melihat file log.
Kami melihat bahwa Google menghabiskan banyak energi, waktu, dan sumber daya di sini. Berapa banyak beban server yang dibuatnya? Seberapa besar dampaknya? Dan kami tidak dapat memahami berapa banyak beban server karena cara server tidak dapat menginterpretasikan sumber yang berbeda. Jadi sangat menarik bahwa ketika kami mendapatkan file log, kami dapat meningkatkan keandalan situs web dengan jumlah yang cukup besar. Jadi kami tahu tentang subdomain, kami hanya tidak tahu seberapa besar masalahnya sampai kami mulai melihat ke dalam file log. Dan tiba-tiba, kami melihat bahwa ini perlu diperbaiki secepatnya. Itu adalah salah satu hal yang kami tahu cara memperbaikinya, itu hanya prioritas. Itu ada di bagian bawah antrian dan dinaikkan ke nomor dua.
4. File JavaScript dan CSS
D: Anda menyinggung tentang kanonikalisasi tetapi Anda juga mengatakan bahwa, khususnya, file JavaScript dan CSS dapat menjadi masalah. Mengapa demikian?
G: Salah satu hal yang sering kita lakukan adalah membongkar cache dengan menambahkan parameter pada file CSS. Alasan kami melakukan ini adalah apa yang terjadi jika Anda menggunakan CDN atau yang serupa, adalah setiap kali Anda memperbarui CSS, Anda membuat halaman baru, atau sesuatu, maka masalahnya adalah Anda memiliki file CSS yang di-cache dan halaman baru tidak akan dapat menggunakannya. Dan kami memiliki waktu cache yang lama pada semua file JavaScript dan CSS yang berbeda ini. Jadi di dalam halaman, segera setelah kami menambahkan sesuatu yang memerlukan pembaruan JavaScript atau CSS, Anda cukup mengubah sedikit parameter di dalamnya. Dari sana, yang harus kami pastikan adalah semua server yang berbeda menggunakan versi parameter yang sama di masa mendatang. Dan itu adalah sesuatu di mana jika Anda bekerja di beberapa tim yang berbeda, beberapa situs web yang berbeda, JavaScript yang lebih baik yang menggerakkan semuanya, kami selalu memastikan itu adalah versi yang tepat. Dan file log adalah salah satu cara kami memastikan bahwa semua halaman yang berbeda secara konsisten mencapai versi JavaScript yang tepat karena mungkin kami harus memperbarui kunci API atau yang serupa. Ada begitu banyak cara berbeda yang harus kami lakukan. Dan ini adalah sesuatu yang merupakan tugas besar bagi para pengembang.
Salah satu hal yang kami lihat di file log adalah, apakah yang lama dipukul, dari mana asalnya, dan dapatkah kami memperbaikinya? Kami juga menemukan bahwa ada banyak cara berbeda di mana Anda dapat menulis jalur ke file JavaScript. Misalnya, di subdomain apakah kami menggunakan nama host yang berbeda, karena, menariknya, jika Anda bekerja di beberapa situs web yang berbeda, Anda sering menemukan bahwa ada URL berbeda atau nama domain berbeda yang sebenarnya mengakses server yang sama. Dan seringkali jika Anda menggunakan CDN atau menggunakan subdirektori, terkadang itu bisa sangat tidak konsisten. Dan dari sudut pandang pengguna, jika Anda membuka file JavaScript yang sama dengan enam atau tujuh cara berbeda dalam satu perjalanan, maka Anda memuatnya dengan enam atau tujuh cara berbeda. Dan meskipun itu mungkin tidak terlihat banyak, secara kumulatif, itu menambahkan beberapa megabita ke perjalanan Anda. Dan itu, tentu saja, memperlambat keseluruhan pengalaman, dan membuat server menjadi kurang efisien. Dan masih banyak lagi. Jadi pastikan bahwa versi yang tepat dari JavaScript, CSS, dan potongan-potongan lainnya selalu berhasil. Dan juga pastikan bahwa tidak ada alasan untuk menyembunyikan JavaScript dengan parameter atau semacamnya. Ada begitu banyak cara di mana perangkap laba-laba dapat dibuat, termasuk file JavaScript, di mana, misalnya, ada sesuatu yang ditandai ke dalamnya, di mana mungkin mereka tidak menggunakan referensi absolut yang benar ke JavaScript. Jadi itu terletak di direktori yang berbeda dengan waktu lainnya. Mengejutkan semua cara berbeda yang dapat Anda temukan saat JavaScript dimuat sedikit berbeda oleh beberapa halaman berbeda. Jadi ya, ini sangat sederhana. Tapi itu mengejutkan mahal ketika datang ke analisis.
5. Kode respons
D: Juga memastikan bahwa kode respons dikirimkan dengan cara yang Anda inginkan. Contohnya adalah melalui TOS terkadang dilihat atau tidak dilihat oleh Google yang seharusnya atau tidak seharusnya. Jadi mengapa itu bisa terjadi?
G: Sekali lagi, kami selalu mengunjungi halaman web menggunakan browser yang sama, teknologi yang sama, pengalaman yang sama, dan segalanya. Saya mencoba untuk memastikan bahwa saya menggunakan alat lain selain yang biasa saya gunakan, karena semua orang melakukan audit Screaming Frog, jadi saya mencoba menggunakan segala macam bagian. Tapi kami selalu berpura-pura bahwa kami seperti komputer. Jadi kami tidak pernah berpura-pura menjadi Googlebot, kami tidak pernah berpura-pura bahwa kami adalah semua hal yang berbeda ini. Jadi jika Anda melihat bagaimana bot Google mengakses file tertentu dari alamat IP yang berbeda… banyak teknologi seperti CloudFlare, jika Anda berpura-pura menjadi Googlebot, dan Anda mencoba mengaksesnya menggunakan Screaming Frog, ia tahu Anda bukan Googlebot, kamu sebenarnya ini. Jadi itu memperlakukan Anda secara berbeda dengan cara Anda memperlakukan Googlebot. Dan seringkali, server dikonfigurasikan untuk melakukan pra-render untuk melakukan semua bagian. Dan itu hanya memastikan bahwa setiap orang mendapatkan kode respons yang tepat dari server pada saat itu.
Dan tampaknya cukup sederhana tetapi ketika Anda meningkatkan skala internasional… Ketika Anda memiliki pengalihan geografis, jika pengguna atau mesin telusur tidak dapat mengakses halaman tertentu karena seseorang memasukkan pengalihan geografis untuk mengatakan bahwa jika Anda mengunjungi ini situs web dari Spanyol, lalu buka dan muat subdirektori ini... Oleh karena itu tidak dapat melihat versi root atau versi alternatif. Itu sebabnya hal-hal seperti kode respons yang benar sangatlah penting. Dan sungguh mengejutkan seberapa sering Anda melewati hal-hal ini dan menganggap semuanya sudah diatur dengan benar. Karena berkali-kali, kami tahu bagaimana itu harus diatur. Kami memberikan ini kepada seseorang, seseorang menafsirkannya, orang lain mengimplementasikannya, dan orang lain menjalaninya. Dan kemudian orang lain mengklik tombol di CDN, yang berbunyi, "Oh, kita dapat melakukan geolokasi seseorang di tempat khusus ini." Bukan fakta bahwa seseorang telah melakukan kesalahan begitu banyak sehingga ada sesuatu di rantai yang secara efektif telah merusaknya sedikit.
Acar Pareto - Buah yang Menggantung Rendah
D: Mari kita akhiri dengan Pareto Pickle. Pareto mengatakan bahwa Anda bisa mendapatkan 80% hasil dari 20% usaha Anda. Apa satu aktivitas SEO yang akan Anda rekomendasikan yang memberikan hasil luar biasa untuk tingkat usaha yang sederhana?
G: Hal favorit saya saat ini adalah saya memiliki dasbor Google Data Studio yang sangat mendasar, yang memungkinkan saya untuk melihat apa yang saya sebut buah yang menggantung rendah. Sekarang, semua orang membenci bingo kata kunci. Tapi ini adalah hal saya di mana saya melihat hal-hal yang tidak cukup berperingkat sebagaimana mestinya. Saya melihat semua kata kunci di mana peringkatnya untuk kumpulan halaman tertentu, atau resep, atau produk, atau sesuatu. Contoh yang bagus adalah, saat ini, saya mengerjakan puluhan dari 1000 produk, saya melihat semua halaman yang memiliki impresi tinggi, tetapi mungkin ada di posisi enam, dan saya dapat mengerjakannya hingga posisi 3. Dan sembilan dari sepuluh Anda dapat melakukan ini hanya dengan memastikan tag judul ditingkatkan dan tautan internal ditingkatkan. Hal yang sangat sederhana untuk mengetahui kata kunci mana dengan volume pencarian tinggi yang dapat ditingkatkan sedikit lagi untuk meningkatkan rasio klik-tayang.
D: Saya pernah menjadi tuan rumah Anda, David Bain. Anda dapat menemukan Gerry dengan mencari Gerry White di LinkedIn. Gerry, terima kasih banyak telah hadir di podcast In Search SEO.
G: Dengan senang hati. Terima kasih atas waktu Anda.
D: Dan terima kasih telah mendengarkan. Lihat semua episode sebelumnya dan daftar untuk uji coba gratis platform Rank Ranger.