Robots.txt er en tekstfil, der skal ligge i roden hos et website. Filen bruges til at kommunikere til søgerobotter angående crawling af sitet. Når en søgerobot (webcrawler) besøger dit website, vil de starte med, at kigge på din robots.txt. Heraf kan den finde frem til, de anvisninger du har givet dem i filen. Det er dog helt op til søgerobotterne, om de vil respektere disse regelsæt eller ej. Oftest vil søgerobotterne vælge at overholde dine anvisninger.
Det er vigtigt, at sider du ønsker skal kunne besøges af Google, også har mulighed for at blive crawlet. Heraf også filer der er med til at give den fulde forståelse af et html dokument: billeder, CSS og JavaScript.
Robots.txt er kun regelsæt for, hvordan dit website bør blive crawlet. Det er ikke det samme som indeksering. En side kan stadig blive indekseret selvom, du har frabedt dig crawling af den – her skal du i stedet bruge noindex.
Husk altid: Kontroller din robots.txt, er der nogle regelsæt der ikke bør være der?
Min robots.txt ligger her: stammer.dk/robots.txt.
I robots.txt bruger man normalt disse koder:
- User-agent: De regler man sætter under, vil være gældende for den respektive crawler – “*” betyder at reglen er gældende for alle
- Disallow: Det der kommer efter, må ikke crawles
- Allow: Det der kommer efter, må gerne crawles
- Sitemap: Henviser til URL’en på et XML sitemap
Hvis du ønsker at frabede crawling af hele dit website fra alle søgerobotter, kan du bruge denne kode:
User-agent: *
Disallow: /
Hvis du ønsker kun er en enkelt side, der må crawles kan du bruge denne:
User-agent: *
Disallow: /
Allow: /side.html