Strona ahrefs wskazuje, że ponad 90% treści w internecie nie uzyskuje ruchu z Google[2]. Jak to się zatem dzieje, że Google znajduje strony[3],[4]?
Zacznijmy od początku, czyli od skanowania (angielskie crawling). Google odwiedza podstrony serwisu za pomocą specjalnej aplikacji zwanej crawlerem lub spiderem, która pobiera stronę internetową. Następnie następuje indeksowanie, czyli zebranie, analiza i zapis danych ze stron[1]. Po wpisaniu zapytania następuje przeszukanie indeksu i wyszukiwarki wyświetlają najlepsze wyniki. Ciekawe informacje dotyczące działania Google znajdziesz tu i tu.
Wyszukiwarki mają ograniczone zasoby do przeszukiwania stron. Webmasterzy, którzy przygotują szybkie strony z ciekawą treścią mogą liczyć na częstsze odwiedziny ze strony robotów Google. Crawl budget to ilość zasobów, którą wyszukiwarki mogą przeznaczyć do obsługi wybranej strony internetowej. Warto zadbać, aby był jak największy. Zaobserwowaliśmy znaczną poprawę:
Czynniki wpływające na crawl budget:
Plik robots.txt to jeden z pierwszych plików odwiedzanych podczas skanowania strony przez Google[5]. Powinien być dostępny w folderze głównym domeny, np.
https://www.medbiz.pl/robots.txt
treść przykładowego pliku robots.txt
User-agent: *Disallow: /administrator/Disallow: /bin/Disallow: /cache/Disallow: /cli/Disallow: /components/Disallow: /includes/Disallow: /installation/Disallow: /language/Disallow: /layouts/Disallow: /libraries/Disallow: /logs/Disallow: /modules/Disallow: /plugins/Disallow: /tmp/
W robots.txt wskazuje się strony, które mają być niedostępne dla robotów wyszukiwarek.
Nieprawidłowo skonstruowany plik robots.txt może powodować błędy indeksowania. Do częstych uchybień należą:
Rekomendujemy umożliwienie dostępu do powyższych rodzajów plików[7] dla wszystkich wyszukiwarek.
Indeksowanie stron może być kontrolowane na poziomie podstrony. Służy do tego meta tag “robots” lub nagłówek X-Robots. Meta tag robots może mieć wiele wartości[9]. W kontekście tego artykułu, najistotniejszą wartością jest "noindex".
<link rel="stylesheet" href="/assets/layerslider/css/layerslider.css" type="text/css"><meta name="robots" content="noindex, follow"><script type="text/javascript">
W przypadku napotkania w nagłówku X-Robots-Tag lub w meta tagu robots wartości “noindex” wyszukiwarki nie zaindeksują treści strony. Ta strona nie będzie widoczna w wynikach wyszukiwania. Atrybut noindex stosuje się w przypadku stron w budowie i w przypadku treści, których nie chcemy indeksować (np. zduplikowana treść). Najczęściej pozostawienie strony z parametrem “noindex” jest błędem. Warto sprawdzić, czy na pewno chcemy blokować dostęp wyszukiwarkom do danej strony!
Poziom linkowania oznacza ile kliknięć wymaganych jest, żeby przejść ze strony głównej na wybraną podstronę. Odpowiednie przygotowanie struktury dużego serwisu to spore wyzwanie. Dla małych serwisów mających do kilkunastu podstron sprawa jest prosta. Ze strony głównej linkujemy do podstron i moc linków rozkłada się (w uproszczeniu) równomiernie. W przypadku większych serwisów jesteśmy w stanie umieścić na stronie głównej ograniczoną liczbę linków wewnętrznych. Część podstron nie będzie miała więc odnośników ze strony głównej, co przekłada się na przekazanie mniejszej mocy linków. Najczęściej strona główna ma najlepsze linki przychodzące i warto zaplanować strukturę strony tak, aby dało się przejść do ważnych podstron klikając możliwie mało razy. Zalecamy dodanie linków do ważnych stron możliwie blisko strony głównej.
Strony zabezpieczone hasłem nie będą indeksowane, gdyż wyszukiwarki nie znają haseł do stron. Stosowanie hasła dostępu do strony to dobry pomysł w przypadku strony internetowej w budowie. Jeśli strona ma być indeksowana warto upewnić się, że nie ma do niej hasła. Inne powody braku widoczności strony w Google opisuję w tym artykule.
Wyszukiwarki pokazują w wynikach treść, którą są w stanie znaleźć i zaindeksować. Trzeba upewnić się, że strony internetowe będą dostępne dla Google, Bing, DuckDuckGo i pozostałych wyszukiwarek.
źródła:
Jacek Wieczorek jest współautorem Pulno. Od 2006 aktywnie zajmuje się pozyskiwaniem ruchu liczonego w setkach tysięcy użytkowników dziennie. |
23-12-2018
Zarejestruj się! Bezpłatny okres próbny