Hvad er robots.txt?

Robots.txt er en tekstfil, der skal ligge i roden hos et website. Filen bruges til at kommunikere til s√łgerobotter ang√•ende crawling af sitet. N√•r en s√łgerobot (webcrawler) bes√łger dit website, vil de starte med, at kigge p√• din robots.txt. Heraf kan den finde frem til, de anvisninger du har givet dem i filen. Det er dog helt op til s√łgerobotterne, om de vil respektere disse regels√¶t eller ej. Oftest vil s√łgerobotterne v√¶lge at overholde dine anvisninger.

Det er vigtigt, at sider du √łnsker skal kunne bes√łges af Google, ogs√• har mulighed for at blive crawlet. Heraf ogs√• filer der er med til at give den fulde forst√•else af et html dokument: billeder, CSS og JavaScript.

Robots.txt er kun regels√¶t for, hvordan dit website b√łr blive crawlet. Det er ikke det samme som indeksering. En side kan stadig blive indekseret selvom, du har frabedt dig crawling af den – her skal du i stedet bruge noindex.

Husk altid: Kontroller din robots.txt, er der nogle regels√¶t der ikke b√łr v√¶re der?

Min robots.txt ligger her: stammer.dk/robots.txt.

I robots.txt bruger man normalt disse koder:

  • User-agent: De regler man s√¶tter under, vil v√¶re g√¶ldende for den respektive crawler – “*” betyder at reglen er g√¶ldende for alle
  • Disallow: Det der kommer efter, m√• ikke crawles
  • Allow: Det der kommer efter, m√• gerne crawles
  • Sitemap: Henviser til URL’en p√• et XML sitemap

Hvis du √łnsker at frabede crawling af hele dit website fra alle s√łgerobotter, kan du bruge denne kode:

User-agent: *
Disallow: /

Hvis du √łnsker kun er en enkelt side, der m√• crawles kan du bruge denne:

User-agent: *
Disallow: /
Allow: /side.html