niedziela, 10 czerwca 2012

Robots.txt

Postanowiłem  podzielić się z wami kawałkiem podręcznika pdf w  zakresie

 Robots.txt


No wiec tak !

  Roboty wyszukiwarek indeksują wszystko jak leci, również rzeczy których nie chcemy aby były indeksowane.
Robot google- ten co indeksuje obrazki, potrafi nabić kilka GB transferu w ciągu miesiąca.
Do zapanowania nad tym wszystkim służy plik robots.txt.
W tymże pliku spisujemy ustawienia przeznaczone dla robotów. Ustawienia te precyzyjnie mówią co ma nie być indeksowane a co nie. Robot wchodząc na stronę pierwsze sprawdza zawartość pliku, a dopiero później zabiera się za indeksowanie.

Przykładowy plik robots.txt wygląda tak :

User-agent: *
Disallow: /admin/
Disallow: /adsense-pewnezarabianie/



Pierwsza linia mówi, jakich robotów tyczy się poniższy zapis (* oznacza wszystkie )- obecnie robotów jest coś około 30 i dla każdego możemy stworzyć zapis co ma omijać przy indeksacji.
Linie 2 i 3 to nic innego, jak konkretne katalogi na serwerze które maja zostać pominięte przy indeksacji- i tu uwaga, nie można tu stosować " * " - trzeba wszystko wypisać.

I Oto cala filozofia robots.txt...

Poniżej kilka przykładów :

Indeksuj wszystko- to samo jak jest pusty plik robots.txt, lub gdy go nie ma

User-agent: *
Allow:


Nie indeksuj niczego- przy czymś takim nie zobaczymy strony w żadnej wyszukiwarce

User-agent: *
Disallow: /



Webcrawler nie indeksuje niczego- reszta wszystko

User-agent: WebCrawler
Disallow: /



Pozwalamy na indeksacje tylko WebCrawlerowi

User-agent: WebCrawler
Disallow:

User-agent: *
Disallow: /


Niech google nie indeksuje obrazków- pozwala czasami zaoszczędzić transfer, kosztem braku obrazków w google images

User-agent: Googlebot-Image
Disallow: /obrazki/





To tylko kawałek  z podręcznika.  Jest o wiele wiecej tematów i sposobów  na dobry marketing.


 

Brak komentarzy:

Prześlij komentarz

PLEASE COMENNT