» Google ignorerer generelle indstillinger i robots.txt (Blog)
SEO spørgsmål? Ring på 7512 3636
Kontakt os om SEO

Google ignorerer generelle indstillinger i robots.txt

Skrevet af Grosen Friis | 2. januar 2008 |
Placeret i Dublicate content, Google


Hvad er robots.txt

Inden jeg lige går videre med det egentlige indhold i dette indlæg, så vil jeg lige kort fortælle hvad robots.txt er.

robots.txt er en lille tekst fil som man placerer i roden af sit website. Her kan man så indtaste de specifikke filer og/eller foldere som man ikke ønsker at søgemaskinerne skal gennemlæse og medtage i deres indeks.

Du kan læse mere om hvordan du opsætter en robots.txt fil korrekt på HTML.dk.

Specielle muligheder med at undgå indeksering i Google via robots.txt

Googles bot supporterer flere indstillinger i robots.txt filen end de andre store søgemaskiner gør, for eksempel understøtter Google brugen af wildcards (*).

Det betyder, at man overfor googlebot kan lave en meget mere korrekt og fyldestgørende opsætning af robots.txt, og det er godt, da Google i skrivende stund er den søgemaskine der:

  • gør mest for at undgå at få flere sider med identisk indhold i sit indeks, og
  • giver de hjemmesider en lavere troværdighed (Trust) hvor der ikke er gjort noget for at undgå identisk indhold på flere sider (URL’er)


Man kan meget let komme til at få flere sider der peger på identisk eller næsten identisk indhold, eksempelvis hvis man via en URL kan styre om et produkt skal vises med og uden moms. Hvis den eneste forskel i indholdet imellem 2 sider er en pris, så bliver den ene af de 2 sider med garanti filtreret fra og havner i Googles Supplemental Index (Læs skraldespand). Man kan også meget nemt komme til at få dobbelt indhold på en hjemmeside hvis man har en print-venlig-side funktion på sit website, som jeg tidligere har skrevet om (Brug førnævnte link).

Googlebot læser nu kun googlebot-specifikke indstillinger i robots.txt

Tidligere læste Googlebot både de generelle indstillinger, det vil sige de indstillinger der gælder for alle søgemaskiner, og derudover også de indstillinger, der kun er relevante for googlebot, for eksempel hvis man i nogle tilfælde har anvendt et wildcard.

Hvis man gerne vil undgå at en side bliver indekseret af Google, som bruges til eksempelvis print, ved at man i URL’en sætter en URL’parameter på, der hedder ‘printfriendly=true’. Det kunne være, at URL’en for en produktpræsentationsside for et fiskehjul ser således ud:

http://www.fiskegrejsshoppen.dk/fiskegrej-havhjul-multiplikatorhjul-abu.php

Mens URL’en til print ser således ud

http://www.fiskegrejsshoppen.dk/fiskegrej-havhjul-multiplikatorhjul-abu.php?printfriendly=true

Da Googles søgerobot understøtter brugen af wildcards, så kan man i sin robots.txt fil sætte den op til, at den skal ignorere alle de URL’er der ender med printfriendly=true, fx sådan her:


User-agent: googlebot
Disallow: /*printfriendly=true


User-agent: *
Disallow: /pdf/

Læg mærke til at der ovenfor ikke står Disallow: /pdf/ for googlebot. Det var ikke nødvendigt tidligere, for googlebot ville både læse de instillinger der var for alle søgemaskiner og de indstillinger der kun gælder for googlebot.

Men sådan er det ikke mere:

  • googlebot læser kun indstillingerne for alle søgemaskiner i robots.txt, såfremt der ingen specifikke indstillinger er for googlebot
  • hvis der er specifikke indstillinger er for googlebot i robots.txt, så ignoreres alle andre indstillinger, også dem der er generelle og gælder for alle søgemaskiner.

Derfor vil ovennævnte robots.txt fil fremover skulle se således ud:

User-agent: googlebot
Disallow: /*printfriendly=true
Disallow: /pdf/


User-agent: *
Disallow: /pdf/

Det man skal lægge mærke til her er at indstillingen (Linien) Disallow: /pdf/ nu figurerer i begge sektioner, både den for googlebot og den for alle søgemaskiner.
ellers vil Google bare begynde at indeksere alle de sider der er placeret i /pdf folderen fra ovennævnte eksempel.

Jeg opdagede at siderne fra kategorierne (/category) på min gamle blog (gBLOG) pludselig begyndte at optræde i Googles indeks, selvom jeg fra en start havde sat min robotx.txt op til at alle søgemaskiner ikke skulle indeksere kategorierne. Min robots.txt så således ud:

User-agent: googlebot
Disallow: /*/feed/
Disallow: /*/trackback/


User-agent: *
Disallow: /wp-login.php
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /category/
Disallow: /comments/
Disallow: /feed/
Disallow: /2007/
Disallow: /2008/
Disallow: /2009/
Disallow: /page/

Men fremover skal den se således ud så Google holder sig væk fra alle de foldere og sider jeg ikke ønsker indekseret. Årsagen til at jeg ikke ønsker en masse af siderne på min blog indekseret, skyldes, at jeg derved forebygger at få sider med identisk indhold her på bloggen. Dette har jeg også tidligere skrevet om (Brug førnævnte link).


User-agent: googlebot
Disallow: /*/feed/
Disallow: /*/trackback/
Disallow: /wp-login.php
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /category/
Disallow: /comments/
Disallow: /feed/
Disallow: /2007/
Disallow: /2008/
Disallow: /2009/
Disallow: /page/


User-agent: *
Disallow: /wp-login.php
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /category/
Disallow: /comments/
Disallow: /feed/
Disallow: /2007/
Disallow: /2008/
Disallow: /2009/
Disallow: /page/

/Grosen Friis



  1. 11 svar til “Google ignorerer generelle indstillinger i robots.txt”

  2. 1. kommentar til "Google ignorerer generelle indstillinger i robots.txt"

    Skrevet af Saugstrup d. 3. januar 2008

    Tak for meldingen, Grosen! Grundig artikel bygget på egne undersøgelser - meget bedre bliver det sgu ikke! :-)

  3. 2. kommentar til "Google ignorerer generelle indstillinger i robots.txt"

    Skrevet af Johny Iversen d. 3. januar 2008

    Tak for oplysningen, det var jeg heller ikke klar over.. :) Men har du nogen idé om hvorfor google pludselig har ændret taktik på det område?

    Mvh Johny Iversen

  4. 3. kommentar til "Google ignorerer generelle indstillinger i robots.txt"

    Skrevet af Grosen Friis d. 3. januar 2008

    Hej Johny

    Nej jeg ved det ikke, har blot konstateret det. Mit “gæt” er, at det jo er lettere for googlebot kun at skulle forholde sig til de generelle indstillinger eller kun sig selv og ikke skal forsøge at kombinere de 2 ting!

    /Grosen Friis

  5. 4. kommentar til "Google ignorerer generelle indstillinger i robots.txt"

    Skrevet af Grosen Friis d. 3. januar 2008

    Hej Saugstrup

    Det var så lidt, og det er kun godt hvis du har glæde af informationen!

    /Grosen Friis

  6. 5. kommentar til "Google ignorerer generelle indstillinger i robots.txt"

    Skrevet af Martin d. 17. januar 2008

    Hej Grosen

    Vi er i den situation at vi har nogle undermapper på vores domæne, som bliver brugt til nogle mini-sites for nogle kunder. Disse sites er lidt halv-hemmelige og skal ikke indekseres af robotter.

    Vi er 99% sikre på at kunden ikke har linket til dem nogle steder fra, hvor søgerobotter kan se links’ene. Der burde derfor ikke være nogen grund til at smide disse mapper ind i sin robots.txt, med mindre man vil være 100% sikker på at de ikke bliver indekseret.

    Problemet er jo så bare at alle har adgang til at se robots.txt og dermed også de halv-hemmelige mapper.

    Hvad er så bedst? Er det værd at offentliggøre adressen for alle i robots.txt, men være 100% sikre på at de ikke kommer på søgemaskinerne?

    Eller skal man undlade at skrive det ind i robots.txt med risiko for at siderne så dukker op i søgemaskinerne, hvorefter man jo er lige vidt.

    Jeg er selvfølgelig udemærket klar over at hvis man har noget hemmelig indhold kan man bare password-beskytte det, men hvis den løsning ikke duer, eller man ikke har mulighed for det?

    M

  7. 6. kommentar til "Google ignorerer generelle indstillinger i robots.txt"

    Skrevet af Grosen Friis d. 20. januar 2008

    Hej Martin

    Det var en lidt speciel situation at stå i…

    I har flere muligheder

    1) Den letteste og hurtigste er at få sat følgende META tags ind på alle de halv-hemmelige sider:

    < meta name="robots" content="noindex,nofollow" >
    < meta name="robots" content="noarchive" >
    < meta name="robots" content="nosnippet" >
    

    2) I kan abonnere på de lister over IP adresser man ved tilhører bots (Fx googlebot) og sørge for at bots altid møder en “404 Not Found”. En mere simpel men ikke helt sikker måde er også at sætte “404 Not Found” op for dem som ikke har aktiveret JavaScript (Det har bots ikke)

    3) Hvis kunderne har faste IP adresser, så kan I sætte det sådan op at alle andre end kunden og Jer møder et “404 Not Found”.

    Men ovennævnte er ikke nogen garanti for at en bot ikke kommer ind og får gennemlæst de sider du nævner. Det eneste der virker er effektiv passwordbeskyttelse
    ;-)

    /Grosen Friis

  8. 7. kommentar til "Google ignorerer generelle indstillinger i robots.txt"

    Skrevet af Chris d. 17. juli 2008

    Hey

    Tænkte på om man kunne sætte de 3 linier ind på EN CMS side, således at netop KUN denne side IKKE vil blive indexeret.

    Men bliver det så for hele sitet.. for så er det noget snavs (læs katastrofalt)

    Nogen der ved dette…
    /Chris

  9. 8. kommentar til "Google ignorerer generelle indstillinger i robots.txt"

    Skrevet af Grosen Friis d. 20. juli 2008

    >> Tænkte på om man kunne sætte de 3 linier ind på EN CMS side, således at netop KUN denne side IKKE vil blive indexeret.

    Hej Chris

    Hvis det er følgende 3 linier du referer til:

    < meta name="robots" content="noindex,nofollow" >
    < meta name="robots" content="noarchive" >
    < meta name="robots" content="nosnippet" >

    så er svaret ja, dem kan du sætte ind på en helt bestemt side du ikke ønsker bliver indekseret.

    >> Men bliver det så for hele sitet.. for så er det noget snavs (læs katastrofalt)

    Yep, man skal vide hvad man gør, man skal ikke sætte ovennævnte 3 META-tags ind i sin CMS skabelon så de pludselig optræder på alle siderne, det ville ende katastrofalt som du selv nævner.

    /Grosen Friis

  10. 9. kommentar til "Google ignorerer generelle indstillinger i robots.txt"

    Skrevet af Johnny Krogsgård d. 4. november 2008

    Hej Grosen,

    Du har helt ret i din iagtagelse, men Googlebog gør faktisk præcis det den skal.

    Så snart du tilføjer User-agent: googlebot afsnittet, begynder Google at indeksere webadresser, som ikke er nævnt i dette afsnit, selv om de er nævnt i User-agent: * afsnittet.

    Dette er nødvendigt, fordi du måske ønsker at give en anden spider flere “privilegier” end de unavngivne, og/eller modsat.

    Så husk, hvis du har et User-agent: googlebot afsnit, og du bruger den til kun at indføre yderligere restriktioner for Googlebot, så bliver du nødt til at gentage alle dine User-agent: * linjer i googlebot afsnittet også.

    Det blev lidt kringlet, men håber du/I forstår.

  11. 10. kommentar til "Google ignorerer generelle indstillinger i robots.txt"

    Skrevet af Grosen Friis d. 17. november 2008

    Hej Johnny Krogsgård

    Jeg synes godt begge dele kan give mening.

    a) Jeg kan godt se det fornuftige i, at man har nogle filtre, der er fælles for alle søgemaskiner, og så nogle der er unikke for hver enkelt søgemaskine.

    b) Det giver naturligvis også fint mening at en søgemaskine enten kun læser de fælles/generelle filtre eller kun læser sine egne filtre.

    Google gik fra situation a) og over til b) og det kan have store konsekvenser for mængden af dublicate content på et website, det havde det for mange websites, som jeg havde sat op, og derfor var det meget vigtigt at få kommunikeret ud.

    /Grosen Friis

  12. 11. kommentar til "Google ignorerer generelle indstillinger i robots.txt"

    Skrevet af Russland d. 30. april 2010

    That article helped me so much - you gave a really perfect example of the HTML code that should be written on the robots.txt file.
    Thanks!

Skriv en kommentar