Co je to crafling

15/02/2021

Crawling, crawler

Pojem Crawling nebo také crawler není ve světě SEO nic neznámého. Pokud hovoříme o crawlingu, mluvíme o procesu shromažďování informací pomocí Crawlera. Tím se myslí program, respektive bot nebo prohledávací robot procházející internet, sbírající data navštívených webových stránek a dokumentů na nich. Tento robot plní databáze webových stránek internetových vyhledávačů. Jeho úkolem je tak aktualizovat už dříve uložený obsah.

Nejznámější crawler (robot) je samozřejmě od Google, ale používají ho i další firmy, které potřebují analyzovat a shromažďovat data. Svého robota má třeba i oblíbený nástroj SEO specialistů od Ahrefs a jiné nástroje.

Pokud jste se někdy ptali, kdo stojí za procházením miliardy webových stránek a jejich ukládáním do indexu, nyní znáte odpověď.

Jak Crawler funguje

Všechno to začíná u seznamu URL adres, které má robot navštívit. Seznam prohledá a přes HTTP protokol uloží důležitá data o jednotlivých webových stránkách. Uloží si tak data například z obsahu, také metadata či změny, ke kterým došlo od poslední návštěvy. Identifikuje veškeré odkazy a přidává je do seznamu URL adres, které bude kontrolovat a projíždět zase příště.

Veškerá data, která tento prohledávací robot zjišťuje, se ukládají na pevné disky o vysokých kapacitách. Slouží poté pro příští návštěvy. Jelikož je na internetu nekonečné množství webových stránek, není možné, aby Crawler stáhnul data ze všech během pár okamžiků. Crawler se řídí výběrovou politikou, která nastavují jistá pravidla.

Zdroj obrázku: https://www.seobility.net/en/wiki/Search_Engine_Crawlers

Jak se chová Crawler

Prohledávací robot se však neřídí jen výhradně výběrovou politikou, která určuje stránky ke stažení, ale je to kombinace vícero zásad. Například se řídí politikou opětovaných návštěv, která určí, v jakých intervalech se změny na stránkách budou prohledávat. Také se bere v potaz zdvořilostní politika, která určí, jak se robot bude chovat, aby nedošlo k přetížení serveru. A nakonec se bere v potaz také politika paralelního zpracování, která zase vypomáhá s koordinací distribuovaných webových vyhledávání.

Jak se říká dále crawleru?

  • web crawler
  • spider
  • internetový bot
  • robot
  • vyhledávací robot
  • prolízač
  • pavouk
  • shomažďovač

 

Článek aktualizován dne: 15.2.2021
Autor článku:
Tomáš Stýskala
SEO specialista a konzultant