Oficjalne wytyczne dotyczące crawl budget w przewodniku Google

Strony Internetowe Warszawa | http://mizzo.pl Strony Internetowe Warszawa | http://mizzo.pl

Na stronie Google Search Central opublikowano przewodnik po zarządzaniu budżetem indeksowania, czyli tak zwanym Crawl budget. Tekst jest dedykowany właścicielom dużych serwisów internetowych lub stron często aktualizowanych.

Google Multitask Unified Model (MUM)

Google Multitask Unified Model (MUM)

Podczas Google’s I/O...   czytaj więcej »

W związku z tym, poza przytoczeniem założeń zawartych w przewodniku, dopisałem podstawowe kwestie odnośnie Crawl budget. Zarówno przewodnik, jak i generalnie kwestie odnośnie limitów indeksowania stron przez roboty Google dotyczą głównie domen z dużą ilością unikalnych stron, które są aktualizowane stosunkowo często. Przewodnik określa stosunkowo w taki sposób:   

  • ponad milion unikalnych stron z treścią aktualizowaną raz w tygodniu
  • ponad 10 tys. Unikalnych stron z treścią aktualizowane codzienne

Powyższe ramy są założone w przybliżeniu.

Co to jest crawl budget? W tym crawl capacity limit i crawl demand

Aby strona znalazła się w wynikach wyszukiwania, musi być zaindeksowana przez daną wyszukiwarkę. To zadanie botów indeksujących, tzw. crawlerów które regularnie przeszukują sieć w celu znalezienia nowych lub zaktualizowanych treści. Przez „indeksowanie” mam na myśli nie tylko docieranie do nowopowstałych stron, ale również ponowne wizyty, aby zaktualizować bazę danych.

„Roboty analizują strony internetowe i otwierają zawarte w nich linki, p

Sposób poruszania się „crawlerów”, czyli przez linki po sieci, budzi skojarzenia z pająkami, stąd też tak są określane oraz wizualizowane. Tak samo jak Google inne wyszukiwarki takie jak Bing, Baidu czy Yandex również delegują swojego bota indeksującego. Lista wyszukiwarek i ich "crawlerów" poniżej:

Googlebot (Google), Bingbot (Bing) ,Baiduspider (Baidu), YandexBot (YandexBot), DuckDuckBot (DuckDuckGo), Slurp Bot (Yahoo)

Co to jest Crawl Budget?

Crawl Budget, czyli budżet indeksowania, to w uproszczeniu zasoby, które Google może skierować na indeksowanie danej strony (crawl limit) na tyle, ile jest to potrzebne w ich mniemaniu (crawl demand). Na to wszystko przeznacza określony z góry czas.

Crawl limit, czyli limit wydajności indeksowania odnosi się przede wszystkim do ograniczeń technicznych serwerów, zarówno po stronie Google jak i właścicieli stron.

Internet jest przeogromny, a googlebot nie jest wszechmocny, dlatego Google dedykuje "crawlowaniu" określone zasoby ze względów logistycznych (i zapewne ekonomicznych), a które może zmienić w dowolnym momencie (np. w wypadku awarii).

Druga strona medalu to kwestia wydajności serwera na którym trzymasz witrynę. Googlebot zdąży wykonać więcej pracy na szybko wczytującej się stronie, to logiczne. Wtedy tez zwiększa się limit, a gdy serwer jest awaryjny i wolny, limit się zmniejsza.

Ponadto boty indeksujące w zamyśle nie powinny doprowadzić do przeciążenia łączy serwera, wiec już na tych mniej wydajnych, np. na współdzielonych hostingach (shared hosting) limit jest niższy. Jeśli dochodzi do przeciążenia serwera i wiesz, że powodem jest googlebot, możesz samodzielnie ustawić limit w Google Search Console.

odobnie jak użytkownicy przeglądający treści w internecie. Przechodzą od linku do linku i przesyłają dane o stronach internetowych na serwery Google.”

 

Fakty i mity dotyczące Crawl budget

W ostatniej części przewodnika rozliczono się z powszechnymi opiniami odnośnie budżetu indeksowania.

Nieprawdziwe jest, że:

  • Skompresowane mapy witryny zwiększą limit indeksowania
  • Częściej aktualizowane strony lub przeciwnie, stare treści są lepiej oceniane przez Google
  • Parametry i generalnie skomplikowane adresy URL mogą stanowić problem
  • Mniejsze strony są rzadziej „crawlowane” bez względu na częstotliwość aktualizacji treści
  • Kwestie indeksowania stanowią czynnik rankingowy
  • Polecenie opóźnienia indeksowania (crawl delay) w robots.txt jest przetwarzane przez googlebota

Natomiast prawdziwe jest to, że:

  • Strony bliżej strony głównej są częściej indeksowane
  • Im szybciej wczytuje się strona, tym większy crawl limit oraz im więcej błędów serwera, tym mniejszy crawl limit
  • Alternatywne adresy URL (np. z parametrem hreflang) są uwzględnione w crawl budget
  • Użycie tag nofollow w linku sprawi, że boty indeksujące nie trafią do danej podstrony, aczkolwiek nie oznacza to, że nie dotrze do niej z innego linku niezawierającego dyrektywy nofollow

Pozostałe informacje

Znamy datę aktualizacji Page Experience Signals

Znamy datę aktualizacji Page Experience Signals

Aktualizacja "Page Experience Signals" - czym...   czytaj więcej »
December 2020 Core Update - pełne wdrożenie

December 2020 Core Update - pełne wdrożenie

Wczoraj, 16 grudnia 2020 r., Google oficjalni...   czytaj więcej »
Google potwierdza aktualizację algorytmu między 12 a 13 marca

Google potwierdza aktualizację algorytmu między 12 a 13 marca

Ostatnie kilka dni to spore zmiany w pozycjach str...   czytaj więcej »
Koniec jest bliski. Społecznościówka Google Plus do odstrzału

Koniec jest bliski. Społecznościówka Google Plus do odstrzału

Google Plus (Google+) miał być nawet czymś więcej ...   czytaj więcej »
Co tak naprawdę potrafi asystent Google?

Co tak naprawdę potrafi asystent Google?

John Mueller poruszył ostatnio kwestię prawdopodob...   czytaj więcej »
Zakończone testy BETA najnowszej wersji Search Console

Zakończone testy BETA najnowszej wersji Search Console

Zakończone testy BETA najnowszej wersji Search Con...   czytaj więcej »
Kary od Google | Bezpośrednie kopiowanie treści czy też maskowanie.

Kary od Google | Bezpośrednie kopiowanie treści czy też maskowanie.

Firma Google może nakładać sankcje na administrato...   czytaj więcej »
Twoja strona padła ofiarą hackerów? Google usunie ją z indeksu!

Twoja strona padła ofiarą hackerów? Google usunie ją z indeksu!

Na blogu Google pojawił się interesujący wpis doty...   czytaj więcej »
Aktualizacja algorytmu wyników lokalnych – „Possum Proximity Filter"

Aktualizacja algorytmu wyników lokalnych – „Possum Proximity Filter"

Possum to algorytm odpowiedzialny za lokalne wynik...   czytaj więcej »
Google aktualizuje wytyczne w zakresie oceny jakości

Google aktualizuje wytyczne w zakresie oceny jakości

Google po raz kolejny nas zaskakuje i wprowadza no...   czytaj więcej »

Artykuły

 

 

Projektowanie stron internetowych Warszawa 

- Najnowsze realizacje -

Usługi PPOŻ. | szkolenia BHP | usługi BHP
Bieg Banku BNP Paribas „Podaj zmianę
Ekoklimat - producent wózków sklepowych
Centrum Medyczne DECCLINIC
Mawawo - Depilacja Laserowa
Keemple - Technologia pracująca za Ciebie
PISKP - Polska Izba Stacji Kontroli Pojazdów
Wizytówka Tj-Gazy - Sprzedaż butli gazowych Rzeszów
Tj-Gazy - Sprzedaż butli gazowych Rzeszów
SPA - Klinika Urody Laura
Centrum medycyny Holistycznej | gd-med.pl
Apl Print - Drukarnia Online
Fitmuscle Shop - Sklep z Suplementami diety
Dynamic Motion Systems

Klienci

 

adamed        escada         podkarpackie logo            dom       grycan      champion-eu.com orange mitcar patti domtrybuna  stanica przygoda      Dr Mołas