SEO Scraping – 3 idéer til din SEO

af Dennis Stammerjohan | sep 5, 2019

Jeg har længe ville lave et indlæg, der gik lidt mere ind til benet på Web Scraping, og hvordan man kan bruge det til gavn for søgemaskineoptimering.

Hvis du ikke kender til scraping, går det kort fortalt ud på at indsamle data fra et website ved brug af et værktøj.

Formålene kan være forskellige, og nogle gange ulovlige – derfor er det vigtigt for mig at opfordre dig til at undersøge lovrammen for det, du måske senere vil anvende metoderne til.

Man må f.eks. ikke (som så meget andet ift. Ophavsretsloven) offentliggøre data fra andres website.

Så langt så godt.

Man bruger et værktøj til at finde informationerne og trække dem ud.

Det kan tage utrolig lang tid at gøre manuelt, så derfor kan man automatisere en lang række af indsamlingen ved at bruge scraping.

Af forskellige årsager, kan det være en god idé at anvende scraping på sit eget website, som et supplement til ens SEO.

Det er naturligvis mest relevant, hvis man har et større og mere komplekst website, hvor flere udfordringer kan opstå.

Du vil kunne bruge scraping til at finde informationer hurtigere, og derved eksekvere på dem.

Hvordan gør man så liiiige det?

Udover at få idéen til hvad der skal indsamles – er der også to essentielle begreber, du SKAL kende til for at kunne scrape noget på et website (i hvert fald med denne metode): XPath, og CSS Selectors.

Både XPath og CSS Selectors kan sammenlignes med Regular Expression (hvis man er bekendt med dét mønstersprog).
Du vil gerne have noget konkret information, og bruger en kode til at nå frem til det.

XPath

For at gøre det helt simpelt, er XPath et sprog der bliver brugt til at finde information i XML.

Lad os antage, jeg gerne ville trække datoerne på mine blogindlæg med, når jeg crawler mit website. Så ville jeg med koden definerer hvilket element (variabel), der indeholder den data (værdi), jeg gerne vil se.

Et eksempel på en XPath kode kunne derfor se således ud:

//*[@id="dslc-module-42"]/div/div/div/div[2]/div[2]/div[2]

Det er altså i dét element mine datoer er, og derfor slår værktøjet op hvilken værdi, der er i elementet og trækker det med ud.

CSS Selectors

Ligesom med XPath kan CSS Selectors bruges til at finde information, du ønsker at få fra bestemt sted på dit website. Forskellen er, at CSS Selectors bruger CSS (surprise) til at finde den information, man ønsker.

Et eksempel på en CSS Selector kunne se således ud:

#dslc-module-42 > div > div > div > div.dslc-post-main.dslc-blogpost-main >
 div.dslc-blog-post-meta > div.dslc-blog-post-meta-date

Bare rolig: Nu tænker du sikkert ”Jamen, det ser alt for bøvlet ud – skal jeg nu lære at kode to nye sprog? ”..

Nej, det er relativt nemt at finde frem til koden, når du inspicerer et element på en side i browseren.

Jeg har fået lov til at bruge Anton Hoelstads website som eksempel. Jeg vil hurtigt tilføje, det kan tage noget tid før GIF’erne renderer (det var umuligt for mig, at komprimere billederne ned i en mindre størrelse – sorry!)

Lad os antage, vi gerne vil se alle de steder på websitet, hvor kommentarer fremgår og heraf hvor mange der er. Se nedenstående animation for at se hvor let at finde koden. Til info er ”Copy selector” CSS Selector, og ”Copy XPath” er naturligvis XPath.

Sådan får vi koderne. Nu skal vi selvfølgelig crawle websitet med den kode vi har, så vi trækker dataen med. Til det bruger jeg værktøjet
Screaming Frog SEO Spider. Et crawling værktøj de fleste er bekendt med.

Jeg viser herunder endnu en animation til, hvordan du kopierer CSS Selectoren ind hos Screaming Frog, og derefter crawler sitet, så man får dataen med. Jeg brugte XPath i eksemplet, og derfor skal jeg naturligvis også angive, at det er dét sprog jeg anvender i Screaming Frog.

Nu ved du hvad Web Scraping nogenlunde dækker over, hvor ”relativt” nemt det kan være, og hvordan du også kan gøre (i hvert fald ift. Denne
metode).

Her har du slutteligt 3 idéer til hvordan, du kan bruge det metoden i dit arbejde med SEO.

Scraping af out of stock

Det er aldrig godt at have sider der ranker godt på Google, og får meget trafik, hvis produktet de besøgende kommer til er udsolgt.

Derfor er et godt tip løbende at scrape hvorvidt din webshops produkter er ”out of stock”, og kombinere den data med hvilke URL’er du ranker på. Hvis et søgeord f.eks. har meget volumen, og dit website ranker med et produkt der ofte er out of stock, så er det sandsynligt du vil falde i placeringer grundet den User Experience brugeren får.

Derfor kan det være en god idé, at scrape out of stock (eller hvad det kan hedde hos jer), og sammenlægge crawling dataen med hvilken URL, man ranker med på diverse søgeord.

Duplicate Content

Duplicate Content er en fætter, der ikke behøves nærmere introduktion. Er du blevet på siden, og læst hertil antager jeg, du ved hvad det er – ellers beklager jeg naturligvis, og anbefaler du gør dig klogere på emnet.

Du kan eksempelvis læse min guide om SEO her, og blive klogere på Duplicate Content.

Mange websites er præget af Duplicate Content, hvor det kan være fordelt på sidetyper, eller forskellige produkter der minder meget om hinanden. Det kan dog være svært at finde på rigtig store websites. Jeg har ofte brugt værktøjer til at finde ramte steder, men også foretaget stikprøver mm.

Pludselig kom jeg i tanke om, at jeg egentlig ville kunne fange duplicate content ved at anvende denne scraping metode.

Ved at bruge scraping kan man i mange tilfælde (særligt for webshops) trække teksterne med direkte i Screaming Frog. Det kan naturligvis bruges til at forbedre teksterne, teste om søgeordet er inkluderet i teksten, men formålet i dette tilfælde er selvfølgelig duplicate content.

Til sagens kerne: Du kan med metoden hurtigt opfange duplicate content – du scraper simpelthen det element, der indeholder teksten, og crawler sitet – og bum, så kan du se om du har duplicate content på ingen tid.

Hvilken forfatter der får flest links

Driver man en hjemmeside med nyheds/blogseksion og har flere forfattere ved skriveblokken? Så kan det være en god idé at følge op på, hvilken forfatter der modtager flest links til sine indlæg.

Til det kræver det naturligvis, at du har adgang til et linkværktøj. Her kan du enten scrape dataen med dit crawling værktøj, og via. en API integrere din linkdata. Du kan også blot sammenlægge dataen i et excel ark efter du har crawlet dataen.

Tak fordi du læste med. Jeg håber du kunne bruge indlægget til noget, såfremt du har andre idéer til, hvad man kan scrape i SEO-regi, så kom
gerne med dem herunder.