Как да управлявате бюджета за обхождане на големи сайтове

Съдържание

Интернет е постоянно развиваща се виртуална вселена с над 1,1 милиарда уебсайтове.

Смятате ли, че Google може да прегледа всеки уебсайт в света?

Дори с всички ресурси, пари и центрове за данни, с които разполага Google, тя не може да обхожда цялата мрежа – нито пък иска да го прави.

Какво представлява бюджетът за обхождане и важен ли е той?

Бюджет за пълзене се отнася до количеството време и ресурси, които Googlebot изразходва за обхождане на уеб страници в даден домейн.

Важно е да оптимизирате сайта си, така че Google да намира съдържанието ви по-бързо и да го индексира, което може да помогне на сайта ви да получи по-добра видимост и трафик.

Ако имате голям сайт с милиони уеб страници, е особено важно да управлявате бюджета си за обхождане, за да помогнете на Google да обхожда най-важните ви страници и да разбере по-добре съдържанието ви.

Google заявява, че:

Ако сайтът ви не съдържа голям брой страници, които се променят бързо, или ако изглежда, че страниците ви се обхождат в същия ден, в който са публикувани, актуализиране на картата на сайта и проверка на покритието на вашия индекс редовно е достатъчно. Google също така заявява, че всяка страница трябва да бъде прегледана, консолидирана и оценена, за да се определи къде ще бъде индексирана след обхождане.

Бюджетът за обхождане се определя от два основни елемента: ограничение на капацитета за обхождане и търсене на обхождане.

Търсенето на обхождане е колко много Google иска да обхожда вашия уебсайт. По-популярните страници, т.е. популярна история от CNN и страници, които претърпяват значителни промени, ще бъдат обхождани повече.

Googlebot иска да обхожда сайта ви, без да претоварва сървърите ви. За да предотврати това, Googlebot изчислява ограничение на капацитета за обхождане, което представлява максималният брой едновременни паралелни връзки, които Googlebot може да използва за обхождане на даден сайт, както и закъснението между извличанията.

Вземайки предвид капацитета за обхождане и търсенето на обхождане, Google определя бюджета за обхождане на даден сайт като набор от URL адреси, които Googlebot може и иска да обходи. Дори ако лимитът на капацитета за обхождане не е достигнат, ако търсенето на обхождане е ниско, Googlebot ще обхожда сайта ви по-малко.

Ето 12-те най-добри съвета за управление на бюджета за обхождане за големи и средни сайтове с 10 хил. до милиони URL адреси.

1. Определете кои страници са важни и кои не трябва да се обхождат

Определете кои страници са важни и кои страници не са толкова важни за обхождане (и следователно Google ги посещава по-рядко).

След като определите това чрез анализ, можете да видите кои страници от сайта ви си струва да бъдат обхождани и кои страници от сайта ви не си струва да бъдат обхождани и да ги изключите от обхождане.

Например, Macys.com има над 2 милиона страници, които са индексирани.

Страници на Macys.com
Той управлява бюджета си за обхождане, като информира Google да не обхожда определени страници на сайта, тъй като е ограничил Googlebot да обхожда определени URL адреси във файла robots.txt.

Googlebot може да реши, че не си заслужава да преглежда останалата част от сайта ви или да увеличи бюджета за обхождане. Уверете се, че Фасетни навигация и идентификатори на сесии: са блокирани чрез robots.txt

2. Управление на дублиращо се съдържание

Въпреки че Google не налага наказание за наличие на дублиращо се съдържание, искате да предоставите на Googlebot оригинална и уникална информация, която задоволява информационните нужди на крайния потребител и е подходяща и полезна. Уверете се, че използвате файла robots.txt.

Google заяви, че не трябва да се използва no index, тъй като той все пак ще поиска, но след това ще се откаже.

3. Блокиране на обхождането на маловажни URL адреси с помощта на Robots.txt и казване на Google кои страници може да обхожда

За корпоративен сайт с милиони страници Google препоръчва да се блокира обхождането на маловажни URL адреси с помощта на robots.txt.

Също така искате да се уверите, че важните ви страници, директориите, в които се съхранява златното ви съдържание, и страниците за пари са разрешени за обхождане от Googlebot и други търсачки.

Robots.txt

4. Дълги вериги за пренасочване

Ако можете, ограничете броя на пренасочванията до малък брой. Твърде многото пренасочвания или вериги от пренасочвания могат да объркат Google и да намалят лимита за обхождане.

Google заявява, че дългите вериги от пренасочвания могат да имат отрицателен ефект върху обхождането.

5. Използвайте HTML

Използването на HTML увеличава шансовете за посещение на вашия уебсайт от търсачка.

Въпреки че ботовете на Google са се подобрили, когато става въпрос за обхождане и индексиране на JavaScript, обхождащите машини на други търсачки не са толкова усъвършенствани като Google и могат да имат проблеми с други езици, различни от HTML.

6. Уверете се, че уеб страниците ви се зареждат бързо и предлагат добро потребителско изживяване

Направете така, че сайтът ви да е оптимизиран за Core Web Vitals.

Колкото по-бързо се зарежда съдържанието ви – т.е. под три секунди – толкова по-бързо Google може да предостави информация на крайните потребители. Ако то им хареса, Google ще продължи да индексира съдържанието ви, защото сайтът ви ще демонстрира здравето на обхождането на Google, което може да накара лимита ви за обхождане да се увеличи.

7. Имайте полезно съдържание

Според Google съдържанието се оценява по качество, независимо от възрастта. Създавайте и актуализирайте съдържанието си, когато е необходимо, но няма допълнителна стойност в това да правите страниците изкуствено да изглеждат свежи, като правите тривиални промени и актуализирате датата на страницата.

Ако съдържанието ви задоволява нуждите на крайните потребители и, т.е. е полезно и подходящо, няма значение дали е старо или ново.

Ако потребителите не намират вашето съдържание за полезно и подходящо, тогава ви препоръчвам да актуализирате и освежавате съдържанието си, за да бъде свежо, подходящо и полезно, и да го популяризирате чрез социалните медии.

Освен това свързвайте страниците си директно към началната страница, която може да се разглежда като по-важна и да се обхожда по-често.

8. Внимавайте за грешки при обхождане

Ако сте изтрили някои страници на сайта си, уверете се, че URL адресът връща статус 404 или 410 за трайно премахнати страници. Кодът на състоянието 404 е силен сигнал да не се обхожда отново този URL адрес.

Блокираните URL адреси обаче ще останат част от опашката за обхождане много по-дълго и ще бъдат обходени отново, когато блокът бъде премахнат.

  • Също така Google заявява да премахнете всички меки 404 страници, които ще продължат да бъдат обхождани и ще изразходват бюджета ви за обхождане. За да проверите това, влезте в GSC и прегледайте вашите Отчет за покритието на индекса за меки грешки 404.

Ако сайтът ви има много 5xx кодове за състоянието на HTTP отговора (грешки на сървъра) или прекъсвания на връзката сигнализират за обратното – пълзенето се забавя. Google препоръчва да се обръща внимание на отчета Crawl Stats в Search Console и да се сведе до минимум броят на сървърните грешки.

Между другото, Google не уважава и не се придържа към нестандартното правило “crawl-delay” в robots.txt.

Дори и да използвате атрибута nofollow, страницата все пак може да бъде обходена и да се изразходва бюджетът за обхождане, ако друга страница на вашия сайт или която и да е друга страница в мрежата не обозначи връзката като nofollow.

9. Поддържайте актуални карти на сайта

XML картите на сайта са важни, за да помогнат на Google да намери съдържанието ви и да ускори работата.

Изключително важно е да актуализирате URL адресите на картите на сайта, да използвате тага <lastmod> за актуализирано съдържание и да следвате най-добрите практики за SEO, включително, но не само, следното.

  • Включете само URL адресите, които искате да бъдат индексирани от търсачките.
  • Включете само URL адреси, които връщат код за състояние 200.
  • Уверете се, че един файл с карта на сайта е по-малък от 50 MB или 50 000 URL адреса, а ако решите да използвате няколко карти на сайта, създайте индексна карта на сайта който ще ги изброи всички.
  • Уверете се, че картата на сайта ви е UTF-8 кодирана.
  • Включете Връзки към локализирана(и) версия(и) на всеки URL адрес. (Вж. документация от Google.)
  • Поддържайте картата на сайта си актуална, т.е. актуализирайте я всеки път, когато се появи нов URL адрес или стар URL адрес бъде актуализиран или изтрит.

10. Изграждане на добра структура на сайта

Като добра структура на сайта е важна за ефективността на SEO оптимизацията, за индексирането и потребителското изживяване.

Структурата на сайта може да повлияе на резултатите от страниците с резултати на търсачките (SERP) по редица начини, включително обхождаемост, процент на кликвания и потребителско изживяване.

Наличието на ясна и линейна структура на сайта ви може да използва ефективно бюджета за обхождане, което ще помогне на Googlebot да намери всяко ново или актуализирано съдържание.

Винаги помнете правилото за три кликвания, т.е. всеки потребител трябва да може да стигне от всяка страница на сайта ви до друга с максимум три кликвания.

11. Вътрешно свързване

Колкото по-лесно можете да улесните търсачките да обхождат и навигират в сайта ви, толкова по-лесно те могат да идентифицират вашата структура, контекст и важно съдържание.

Наличието на вътрешни връзки, сочещи към дадена уебстраница, може да информира Google, че тази страница е важна, да помогне за установяването на информационна йерархия за дадения уебсайт и да помогне за разпространението на собствения капитал от връзки в целия ви сайт.

12. Винаги следете статистиките за обхождане

Винаги преглеждайте и наблюдавайте GSC, за да видите дали сайтът ви има някакви проблеми по време на обхождането и да потърсите начини да направите обхождането по-ефективно.

Можете да използвате Отчет за статистиките на обхождане за да видите дали Googlebot има проблеми с обхождането на сайта ви.

Ако в GSC са отчетени грешки или предупреждения за наличност за вашия сайт, потърсете случаи в наличност на хоста графики, в които заявките на Googlebot са надхвърлили червената гранична линия, кликнете върху графиката, за да видите кои URL адреси са били неуспешни, и се опитайте да ги свържете с проблемите на вашия сайт.

Също така можете да използвате Инструмент за проверка на URL за да тествате няколко URL адреса на сайта си.

Ако инструментът за проверка на URL адреси връща предупреждения за натоварване на хоста, това означава, че Googlebot не може да обхожда толкова URL адреси от сайта ви, колкото е открил.

Приключване

Оптимизацията на бюджета за обхождане е от решаващо значение за големите сайтове поради техния голям размер и сложност.

С многобройните страници и динамичното съдържание, обхождащите машини за търсене се сблъскват с предизвикателства при ефективното и ефикасно обхождане и индексиране на съдържанието на сайта.

Като оптимизират бюджета си за обхождане, собствениците на сайтове могат да определят приоритети при обхождането и индексирането на важни и актуализирани страници, като гарантират, че търсачките изразходват ресурсите си разумно и ефективно.

Този процес на оптимизация включва техники като подобряване на архитектурата на сайта, управление на параметрите на URL адресите, задаване на приоритети за обхождане и премахване на дублиращото се съдържание, което води до по-добра видимост в търсачките, подобрено потребителско изживяване и увеличен органичен трафик за големи уебсайтове.