Den 29. januar 2019 ændrede Statstidende udseende. Alt fik en grundlæggende make-over. Vores mange skraber-robotter, der henter oplysninger om konkurser, rekonstruktioner, herreløse bank-konti og meget andet godt, virkede derfor ikke længere.
Medier bruger oplysningerne fra Statstidende både til konkrete nyhedshistorier og til avanceret research efter virksomheder og personer. Oplysninger benytter de også til analyser, for eksempel af udviklingen af tvangsauktioner i Danmark, og hvor der er sket flest tvangsauktioner i den seneste tid.
Ofte kan jeg relativt simpelt justere en robot, når en hjemmeside er ændret. Det meste kan som regel genbruges. Men ikke i tilfældet med Statstidende.
Kort fortalt var jeg nødt til at finde de interne dybe links, der åbner hver enkelt specialside. Konkursboer har for eksempel seks specialsider. Tvangsauktioner har tre specialsider, mens Rekonstruktioner har seks. I alt henter vi data fra 34 af Statstidendes mange specialsider.
De links, som fremgår af browseren under brug af Statstidende, henter i virkeligheden data via andre skjulte links, hvorefter oplysningene bliver vist på siden. For at få en robot til automatisk at hente data er man næsten altid nødt til at finde disse bagvedliggende, skjulte links og benytte dem.
Sådan lokaliseres et dybt link til specialside
I tilfældet med konkursboer finder jeg det dybe link til hver specialside på denne måde:
Jeg afklikker fire af de seks specialsider og har så Dekret og yderligere en aktiv. Jeg bruger et gratis værktøj, der er indbygget i browseren. Jeg bruger Google Chrome og højreklikker på området på websiden. I menuen, der kommer ved højreklik, vælger jeg Inspect (på engelsk – eller Undersøg på dansk). På skærmen ser jeg nu en tredelt webside med et væld af muligheder, bl.a. syv menupunkter, Elements, Console, Sources, Network etc. Jeg benytter Network, der starter i optagefunktion med en rød prik lysende, der viser, at den gemmer al aktivitet på hjemmesiden.
Når jeg derefter også afklikker den femte specialside, så kun Dekret er valgt, sender websiden en instruktion til den bagvedliggende database om kun at hente disse data.
Sådan kan jeg fortsætte for hver enkelt af de specialsider, som jeg er interesseret i, ligesom jeg kan se, hvad der sker, når jeg klikker på side 2 eller klikker ind på de detaljerede oplysninger om et konkursbo.
I webbrowserens adressefelt, ser det ud, som om det er én side, der loades, men det er i virkeligheden en anden side, der loades inde bagved. Og det er den bagvedliggende side, som indeholder informationen.
Prøv at se, hvordan data ser ud i datavisning (json).
Se hvordan de detaljerede oplysninger ser ud for det første firma på listen – også i datavisning.
Se her, hvordan data ser ud på den hjemmeside, offentligheden ser.
Herefter er det til selv at konstruere link, der fører til alle de sider, der skal hentes data fra. Hvis der for eksempel den 15. januar er 82 dekreter, der vises på ni sider, skal begge datofelter være 2019-01-15, mens der skal være ni link, hvor eneste variation er, at page går fra =0 til =8. Første side er page=0, mens side 9 er page=8.
Tvangsauktioner
Vores Statstidende-robot lå stille i to uger, efter at Statstidende havde ændret hjemmesiden. Nu er den i gang igen. I går hentede vi de data, vi ikke havde fået ud i de to uger. Alt er opdateret igen .
Tak for gode tips!