Robots.txt is een bestand wat wordt opgeslagen in de hoofdmap van je website. Robots.txt wordt ook wel: Robots Exclusion Protocol genoemd. D.m.v. robots.txt is het mogelijk aan zoekmachines door te geven dat bepaalde pagina’s en bestanden (bijv. afbeeldingen, PDF-jes) binnen een website wel of juist niet geïndexeerd mogen worden.

Waarvoor gebruik je robots.txt

Zoekmachines zetten crawlers (ook wel: spiders, robots of bots genoemd) in om onophoudelijk het web af te speuren naar nieuwe informatie. Met robots.txt kun je dus invloed uitoefenen op wat wel of niet gevonden mag worden.

Maar let op: met uitsluitingen in robots.txt voorkom je niet 100% dat de pagina’s of bestanden dan niet geïndexeerd worden! De crawl-robotjes van zoekmachines zijn zo ‘sterk’ dat ze via links toch bestanden en pagina’s kunnen vinden die je via de robots.txt geblokkeerd denkt te hebben. Wil je voorkomen dat een pagina in de index van zoekmachines wordt opgenomen, dan is de Noindex-tag een betere optie.

Je kunt een robots.txt toevoegen aan je site als je bepaalde pagina’s van je website buiten de zoekresultaten wilt houden. Je gebruikt dan ‘Disallow: / /’. Je kunt ook aan de zoekmachines doorgeven dat ze juist wel bepaalde pagina’s, bestanden of hele directories mogen indexeren. Je geeft dan aan: ‘Allow: //’.

De XML Sitemap is overigens ook nog een manier om de crawlers enigszins te beïnvloeden door de pagina’s te vermelden die je wel graag gevonden wilt hebben.