Artiklen er rettet 28. februar 2019. Der er ikke 1600 falske webshops, som vi oprindelig skrev – kun 70, oplyser DK-Hostmasters direktør Jakob Truelsen. Antallet i artiklen er derfor rettet, ligesom de to sidste afsnit er tilføjet. Statsadvokaten for Særlig Økonomisk og International Kriminalitet, SØIK, har gennem de seneste tre år sammen med DK-Hostmaster lukket […]
Arkiv | Web scraping
Brug af robotter til at samle data.
Inspect webside finder skjulte links – hos Statstidende
Den 29. januar 2019 ændrede Statstidende udseende. Alt fik en grundlæggende make-over. Vores mange skraber-robotter, der henter oplysninger om konkurser, rekonstruktioner, herreløse bank-konti og meget andet godt, virkede derfor ikke længere. Medier bruger oplysningerne fra Statstidende både til konkrete nyhedshistorier og til avanceret research efter virksomheder og personer. Oplysninger benytter de også til analyser, for […]
Op og ned med Monopolets helte
P4-programmet lørdag formiddag skulle måske snarere hedde Mads & Mads. I hvert fald er det livsstilseksperten Mads Christensen, som oftest har haft fornøjelsen af at sidde i “Monopolet” sammen med værten Mads Steffensen og to andre gæster, når DR lørdag formiddag fra 9 til 12 løser danskernes dilemmaer om skam, skyld, utroskab, almindelig pli samt […]
Sådan fandt Børsen skjulte skattetal
Værktøjet web inspector er indbygget i enhver browser. Her viser vi trin for trin, hvordan det kan være en hurtig og nem genvej til at finde de data, der er gemt i datapræsentationer. Da der i begyndelsen af maj omsider var politisk enighed om boligskatterne, blev sitet nye-ejendomsvurderinger.dk, der ejes af SKAT, opdateret med nye tal. […]
Hent og rens data – på den helt lette måde
Hvis vi vil hente data ud af hjemmesider, bruger vi ofte web scraping i en eller anden form. Normalt betyder det, at vi automatiserer vores data-udtræk, og vi bruger ofte robotter, som vi programmerer, eller vi bruger andet specialværktøj. Nogle gange kan vi dog nøjes med “håndværktøj” og lade det komplicerede grej ligge. Her følger et skridt-for-skridt-eksempel […]
Sådan trækker vi alle skattedata ud
Skat har nu for tredje år lagt oplysninger ud om virksomheders skatteforhold. Men data er vanskelige at bruge, fordi de indeholder mange fejl og løbende ændres uden forklaring fra Skats side. Kaas & Mulvads systematiske udtræk dokumenterer en række problemer med indholdet af de åbne skattelister. De åbne skattelister […]
Over halvdelen af udenlandske arbejdere inden for BAT-kartellet arbejder uden overenskomst
At få overblik over brugen af udenlandsk arbejdskraft i Danmark har længe mindet om at lægge et puslespil, hvor en stor del af brikkerne konstant skiftes ud. Det har været svært at danne sig et overordnet billede. Med assistance fra Kaas & Mulvad er BAT-kartellet i de seneste år kommet tættere på at kunne forstå, […]
Datajournalistik et stort skridt frem
Med næsten tusind deltagere på den seneste Nicar-konference i Baltimore er der sket mere end en tredobling af deltagertallet i løbet af fem år. Nicar-konferencen er i dag den vigtigste inden for datajournalistik – en metode, der nu er blevet hype i USA og også vokser i resten af verden. Det har affødt en række […]
Kvinderne mistede 45 pladser ved valget
Kønsuligheden er blevet mere udtalt i det kommunale Danmark efter valget. Især blå blok trækker i den forkerte retning. Mændene har snuppet 45 ekstra pladser fra kvinderne i de nye byråd. På landsplan betyder det, at andelen af kvinder, der efter valget i 2009 var 31,6 pct., nu er nede på 29,7 pct. Det generelle […]
Det jyske underskud – sådan gjorde vi
Især i det nord- og midtjyske ender skatteopgørelsen i en meget stor andel af virksomhederne med røde tal. Fx gælder det både i 9981 Jerup og 8765 Klovborg, at tre ud af fire selskaber ender med et minus i feltet “Skattepligtig indkomst for 2011”. På baggrund af en analyse fra Kaas & Mulvad gennemgår Ugebrevet […]