De meeste websites hebben een robots.txt bestand. Dit is een bestand dat enkel bedoelt is voor – hoe kan het ook anders – robots. Zoekrobots zoals die van Google kunnen er instructies in terugvinden. Meestal wordt dit bestand gebruikt om te vertellen welke pagina’s van je website opgenomen mogen worden in de zoekresultaten. In sommige robots.txt bestanden staat er ook de URL van deĀ sitemap.

Het bestand is meestal terug te vinden onder mijndomeinnaam.be/robots.txt. Als je de robots.txt van deze website raadpleegt zal je volgende lijntjes code zien:

User-agent: *
Disallow:

Erg veel is dit niet, maar voor de meeste websites is dit voldoende. Dit zegt tegen alle user agents (zoekrobots) dat alle URL’s mogen opgenomen worden. Mocht ik willen aangeven dat mijn contactpagina niet opgenomen mag worden in de zoekresultaten zou ik dit kunnen plaatsen:

User-agent: *
Disallow: /contact