Indeksowalność

Blog tutorial Indeksowalność

Jak Google znajduje strony?

Strona ahrefs wskazuje, że ponad 90% treści w internecie nie uzyskuje ruchu z Google[2]. Jak to się zatem dzieje, że Google znajduje strony[3],[4]?

Zacznijmy od początku, czyli od skanowania (angielskie crawling). Google odwiedza podstrony serwisu za pomocą specjalnej aplikacji zwanej crawlerem lub spiderem, która pobiera stronę internetową. Następnie następuje indeksowanie, czyli zebranie, analiza i zapis danych ze stron[1]. Po wpisaniu zapytania następuje przeszukanie indeksu i wyszukiwarki wyświetlają najlepsze wyniki. Ciekawe informacje dotyczące działania Google znajdziesz tu i tu


Wskazówki do lepszego indeksowania strony


Crawl budget

Wyszukiwarki mają ograniczone zasoby do przeszukiwania stron. Webmasterzy, którzy przygotują szybkie strony z ciekawą treścią mogą liczyć na częstsze odwiedziny ze strony robotów Google. Crawl budget to ilość zasobów, którą wyszukiwarki mogą przeznaczyć do obsługi wybranej strony internetowej. Warto zadbać, aby był jak największy. Zaobserwowaliśmy znaczną poprawę:

  • w liczbie indeksowanych stron dziennie
  • w pozycjach (skok z pozycji 22-25 dla głównej hasła do pozycji 6)
po usunięciu ok. 70% treści niskiej jakości i przyspieszeniu strony. To jasny sygnał, że warto optymalizować crawl budget wyszukiwarek.

Czynniki wpływające na crawl budget:

  • szybkość działania strony - im szybsza strona, tym Google jest w stanie ją częściej odwiedzać
  • doklejanie identyfikatorów sesji
  • zduplikowana treść
  • zhakowana treść
  • niedziałające strony
  • spam
  • strony niskiej jakości
  • przekierowania (zwłaszcza kilka przekierowań następujących po sobie)
  • popularność stron
  • aktualność treści



Robots.txt

Plik robots.txt to jeden z pierwszych plików odwiedzanych podczas skanowania strony przez Google[5]. Powinien być dostępny w folderze głównym domeny, np.

https://www.medbiz.pl/robots.txt

treść przykładowego pliku robots.txt 

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/


W robots.txt wskazuje się strony, które mają być niedostępne dla robotów wyszukiwarek.


Nieprawidłowo skonstruowany plik robots.txt może powodować błędy indeksowania. Do częstych uchybień należą:

  • blokowanie dostępu do skryptów javascript[6]
  • blokowanie dostępu do grafik
  • blokowanie dostępu do plików CSS

Rekomendujemy umożliwienie dostępu do powyższych rodzajów plików[7] dla wszystkich wyszukiwarek.


Meta tag robots i X-Robots

Indeksowanie stron może być kontrolowane na poziomie podstrony. Służy do tego meta tag “robots” lub nagłówek X-Robots. Meta tag robots może mieć wiele wartości[9]. W kontekście tego artykułu, najistotniejszą wartością jest "noindex".

<link rel="stylesheet" href="/assets/layerslider/css/layerslider.css" type="text/css">
<meta name="robots" content="noindex, follow">  

<script type="text/javascript">


W przypadku napotkania w nagłówku X-Robots-Tag lub w meta tagu robots wartości “noindex” wyszukiwarki nie zaindeksują treści strony. Ta strona nie będzie widoczna w wynikach wyszukiwania. Atrybut noindex stosuje się w przypadku stron w budowie i w przypadku treści, których nie chcemy indeksować (np. zduplikowana treść). Najczęściej pozostawienie strony z parametrem “noindex” jest błędem. Warto sprawdzić, czy na pewno chcemy blokować dostęp wyszukiwarkom do danej strony!


Poziom linkowania

Poziom linkowania oznacza ile kliknięć wymaganych jest, żeby przejść ze strony głównej na wybraną podstronę. Odpowiednie przygotowanie struktury dużego serwisu to spore wyzwanie. Dla małych serwisów mających do kilkunastu podstron sprawa jest prosta. Ze strony głównej linkujemy do podstron i moc linków rozkłada się (w uproszczeniu) równomiernie. W przypadku większych serwisów jesteśmy w stanie umieścić na stronie głównej ograniczoną liczbę linków wewnętrznych. Część podstron nie będzie miała więc odnośników ze strony głównej, co przekłada się na przekazanie mniejszej mocy linków. Najczęściej strona główna ma najlepsze linki przychodzące i warto zaplanować strukturę strony tak, aby dało się przejść do ważnych podstron klikając możliwie mało razy.  Zalecamy dodanie linków do ważnych stron możliwie blisko strony głównej.


Hasła

Strony zabezpieczone hasłem nie będą indeksowane, gdyż wyszukiwarki nie znają haseł do stron. Stosowanie hasła dostępu do strony to dobry pomysł w przypadku strony internetowej w budowie. Jeśli strona ma być indeksowana warto upewnić się, że nie ma do niej hasła.


Podsumowanie

Wyszukiwarki pokazują w wynikach treść, którą są w stanie znaleźć i zaindeksować. Trzeba upewnić się, że strony internetowe będą dostępne dla Google, Bing, DuckDuckGo i pozostałych wyszukiwarek.

źródła:

  1. https://www.shoutmeloud.com/google-crawling-and-indexing.html
  2. https://ahrefs.com/blog/search-traffic-study/
  3. https://support.google.com/webmasters/answer/70897?hl=pl
  4. https://www.google.com/search/howsearchworks/
  5. https://support.google.com/webmasters/answer/6062608?hl=pl
  6. https://yoast.com/dont-block-css-and-js-files/
  7. https://searchengineland.com/google-search-console-warnings-issued-for-blocking-javascript-css-226227
  8. https://hostinghouse.pl/klient/knowledgebase/5/Bd-500-Internal-Server-Error---moliwe-przyczyny.html
  9. https://developers.google.com/search/reference/robots_meta_tag?hl=pl
  10. https://webmasters.googleblog.com/2017/01/what-crawl-budget-means-for-googlebot.html


Jacek Wieczorek jest współautorem Pulno. Od 2006 aktywnie zajmuje się pozyskiwaniem ruchu liczonego w setkach tysięcy użytkowników dziennie. 


Skontaktuj się:   



×

Sprawdź błędy na stronie

Zarejestruj się! Bezpłatny okres próbny

Poprawny adres strony jest wymagany
Poprawny e-mail jest wymagany
Akceptacja regulaminu jest wymagana.