Fagbladet Journalisten bringer i dag et tema på tre sider, der handler om, hvor journaliststuderende søger hen i praktik. Her følger historien om, hvordan et ret fejlbehæftet datasæt blev behandlet, så Journalisten fx ud fra data kunne skrive historien: “Ulrik Haagerup har X-faktor”.
“Der findes ingen perfekte datasæt” er en påstand, vi ofte lufter, når vi taler om data og analyser på vores kurser. Også i dette eksempel viste det sig, at der var en del forhindringer, før journalist Jakob Albrech fra fagbladet Journalisten kunne “gå på opdagelse i tallene”, som han skriver i bladet. Fagbladet bad mig rense data og gøre tallene klar. Her kommer en trin-for-trin gennemgang.
På mediepraktik.dk ligger der for hvert år fra 2005 til 2011 lister over, hvor mange ansøgere der har været til samtlige praktikopslag. Listerne ligger i pdf-filer, som hver er på ca. 6 sider. Der er adskillige kolonner, men vigtigst er praktikstedets navn og antal ansøgere.
Første udfordring var at få adgang til dokumenterne, for da jeg skulle i gang, var sitet, som hører til på en af Journalist- og Mediehøjskolens servere, gået ned. Og det varede adskillige dage, før de fik serveren i luften igen.
Da det skete, downloadede jeg listerne fra forårets praktikansøgning, da der har var ansøgere fra alle tre uddannelser.
Nødvendig afklaring
Inden jeg kastede mig over tallene, var der nogle ting, som jeg måtte afklare med journalisten. Hvordan skulle vi forholde os til kombinationsstillinger og hvad med de stillinger, som var forbeholdt tv- og medietilrettelæggere?
Da disse ting var vendt, var udfordringen at få data fra pdf-listerne ind i et regneark. Der er flere måder, men da udseendet af dokumenterne var pænt, valgte jeg at bruge et OCR-program, som visuelt aflæser pdf-dokumenterne og kan gemme indholdet som eksempelvis et regneark. Jeg bruger selv OCR-programmet ABBYY FineReader.
Da jeg havde haft de syv pdf’er igennem, havde jeg nu syv regneark, som skulle forenes til ét dokument.
Dokumenterne havde alle samme struktur – jeg kunne nøjes med at koncentrere mig om “Ansøgere i alt” og skulle altså i denne omgang ikke kigge på ansøgningsmønstre fra de forskellige institutioner. Det kunne man også, men det så vi altså bort fra her.
For at kunne kende forskel på de enkelte år, når jeg om lidt ville forene de syv regneark til ét, tilføjede jeg i hvert ark en ny kolonne, der blot blev udfyldt med årstallet for det pågældende dokument.
Jeg kopierede nu arkenes indhold sammen i ét.
Pivottabellen
Det næste, jeg gør, når jeg kommer hertil, er at bruge Excels pivottabel-værktøj (mit yndlingsværktøj i Excel). Med den kan jeg tælle data sammen. Og ved at sortere data alfabetisk kan jeg samtidig se, om der er tilfælde, hvor det samme praktiksted optræder med forskellige navne. Det kunne være på grund af stave- eller slåfejl, eller måske bliver stedet kaldt forskellige ting. Nogle siger fx DR, andre siger Danmarks Radio. Og hvis jeg skal have computeren til at tælle op, må vi gøre teksten ensartet. Ellers går det ikke.
Det viste sig, at der var masser af tilfælde, hvor praktikstederne blev kaldt forskellige ting. Fx har DR gennem årene haft mange forskellige måder at benævne sine afdelinger. Her er et eksempel på, hvordan DR Sjælland optræder som praktiksted.
Efter en del rensearbejde kunne jeg tilsidst samle alt i én lang liste.
Og herefter kunne jeg i en ny pivottabel stille data op så jeg fik praktikstedet og til højre for kom så kolonnerne med antal ansøgere år for år.
Jeg brugte herefter nogle simple formler i Excel til – for hver praktiksted – at finde det højeste tal =maks() og det laveste tal =min(). Hvor mange ansøgere havde stedet højst og mindst fået de år, hvor stedet i det hele taget havde haft et opslag. Og en simpel subtraktion kunne så vise forskellen: Hvilket sted havde fx svinget mest i antal ansøgere.
I dette tilfælde tog Jakob Albrect over herfra. Resultatet kan ses i fagbladet Journalisten.
No comments yet.