Kamera i græsNoget af det, jeg er mest begejstret for, i min jagt på at kombinere offentlig data, er mulighederne i Wikipedia for at kombinere og strukturere informationer på kryds og tværs – med et mål, som ikke blot er teoretisk interessant, men praktisk brugbart.

Nyeste skud på stammen er en opdatering af Wikipedia-kortet, hvor man kan se artikler med koordinater tilknyttet, som mangler et billede.

Baggrunden var en snak på Wikipedias danske chat-kanal, hvor Thyge havde kommet på en idé om at lave et kort, hvor artikler, som folk savnede billeder til, var prikket ind, så man kunne se, om der var nogen i nærheden af sig selv, samt hvor, der lå klumper af steder og bygninger, der skulle tages billeder af. Målet var at have en struktureret tilgang til at kunne forbedre kvaliteten af den danske udgave af Wikipedia, som var til at tage og føle på.

Én af tankerne var at automatisere så mange processer som muligt, samt at gøre processen transparent for den almindelige Wikipedia-skribent. Formuleret på en anden måde:

Vi skal ikke løse et problem ved at øge kompleksiteten for den almindelige bruger.

Vi skal altså have lavet et værktøj, som kan hjælpe os, så vidt muligt uden at stille nye krav til alle frivillige skribenter. Så vi må tænke kreativt med udgangspunkt i, hvilke muligheder, vi i forvejen har til rådighed.

Du kan læse om de fire dele af processen her:

1. Oversigt over artikler, som mangler billede

ListeI første omgang skal vi starte et sted. På Wikipedia findes der en kategori ved navn Billede savnes, hvor man kan se hvilke artikler, som det ville være oplagt at have et billede på.

Det giver os en oversigt et samlet sted. Men det har krævet, at folk selv har føjet artikler til denne kategori. Det er et kedeligt og langsommeligt arbejde, og kan også give et skævt resultat ud fra, hvad folk tilfældigvis interesserer sig for.

2. Justering af skabeloner af steder, som inkluderer billeder

Skabelon i en byWikipedia benytter sig i høj grad af en række forskellige skabeloner. De mest udbredte er forskellige former for infobokse, som giver et konsistent udseende samt gør det lettere at indtaste grundlæggende informationer i artiklen, uden at skrive en masse tekst. Det er såmænd blot at udfylde nogle felter – så bliver tingene sat korrekt op.

Sammenlign infoboksen i højre side på artiklerne Roskilde Universitetscenter (RUC) og Copenhagen Business School (CBS). Begge artikler bruger skabelonen ved navn Skabelon:Universitet med informationer om året for grundlæggelsen, rektor, antal studerende og så fremdeles. Der er også et felt, hvor man kan henvise til et billede af universitetet. Det er der fx i RUC-artiklen, men ikke i CBS-artiklen.

Skabelonerne giver nogle tekniske muligheder under kølerhjelmen, som jeg har brugt i denne proces. Det er for eksempel muligt i den grundlæggende skabelon, som bl.a. både RUC og CBS bruger, at tjekke på, om der er angivet et billede. Hvis dette ikke er tilfældet, så sørger skabelonen for at artiklen bliver meldt ind i en kategori for manglende billeder.

Det er lige præcis, hvad jeg endte med at gøre. Har en artikel, som bruger Universitet-skabelonen, ikke angivet noget billede til skabelonen, bliver artiklen tilføjet til kategorien Universitetsbillede savnes. Ved et trylleslag er der så dukket en håndfuld universiteter op i den kategori – uden at jeg har rettet i en eneste artikel. Fremtidige artikler om universiteter, som bruger skabelonen (og som mangler billede), ryger så også tilsvarende i den kategori, uden at skribenten, der bruger skabelonen, overhovedet behøver at vide noget om den kategori. Retter man en artikel til og tilføjer et billede, bliver artiklen også uden videre fjernet fra kategorien igen. Det sker helt af sig selv og sikrer også, at kategorierne afspejler de faktiske forhold, i stedet for at kræve et vedligeholdesesarbejde med at folk selv skal huske at flytte artiklerne ud og ind af kategorierne, når der tilføjes og fjernes billeder.

Den proces fortsatte jeg så med for skabeloner for gymnasier, undervisningsinstitutioner, stadioner, biografer, lufthavne, søer, togstationer, vandløb, kirker og hoteller. Det tog blot et par timer (inklusive at sætte sig ind i skabelon-systemet), og er et arbejde, som kun skal udføres én gang for en skabelon.

Resultatet er flere hundrede eksisterende artikler, som nu automatisk er blevet markeret ind i kategorier for manglende billeder. Dertil kommer så mange nye artikler i fremtiden, samt rettelser af de eksisterende artikler, som endnu ikke bruger skabeloner.

Nu har vi et væsentligt bedre grundlag, samt en proces for at listerne vedligeholder sig selv, når der bliver tilføjet artikler og billeder.

3. Krydstjek med artikler med geografiske koordinater

Jorden i fotoThyges udgangspunkt var specifikt at finde de artikler, som både lå i kategorien Billede savnes og Geomærkede artikler. Dette ville give en liste af artikler, som lå på steder, der rent faktisk var lette at finde frem til. Det kan være et problem at finde et billede af en helt bestemt sommerfugl eller for den sags skyld en bestemt person. Til gengæld kræver det ikke meget mere end et kort eller GPS for at finde en kirke og tage et billede af den.

Ved at finde krydstjekke listen over artikler i de to kategorier (og underkategorier) nåede jeg frem til en liste over fælles artikler. Fællesmængden blev i første omgang lavet ved hjælp af et eksternt program til bl.a. at sammenligne kategorier, men målet er at udnytte Wikipedia-softwaren til automatisk at kunne lave et realtime-udtræk af denne fællesmængde for at eliminere den manuelle proces og for altid at have opdaterede lister.

Det er naturligvis stadigvæk muligt manuelt at tilføje en artikel til kategorien over manglende billeder, og endnu mere grund til at gøre det end før, idet tilknytningen til kategorien nu rent faktisk forædler den samlede oversigt

4. Grafisk visualisering af artikler på kort

Verden som puslespilLangt om længe kommer kortet ind i billedet. Alle kan nu se, hvor artiklerne med manglende billeder ligger henne i verden, og ikke mindst om der ligger nogen i nærheden af os selv, eller i nærheden af den by, vi alligevel skal besøge i weekenden. Vi kan også se, om der er “klumper” af artikler, som ligger i nærheden af hinanden. Hvis man alligevel er vej ud for at tage et billede af en bestemt bygning til Wikipedia, er det jo oplagt at tjekke, om der er andet på vejen, man alligevel kan slå et smut omkring.

Vi har altså i bedste Findvej-tradition vendt indgangsvinklen på hovedet. I stedet for at tage udgangspunkt i, om en bestemt artikel har et billede tilknyttet, og i så fald hvor vi skal hen i verden for at finde netop denne artikel, kigger vi i stedet på områder og ser, hvad der tilfældigvis befinder sig i området.

På længere sigt skal denne proces også automatiseres. På nuværende tidspunkt benytter Wikipedia-kortet sig af en statisk kopi af Wikipedia, som omtrent bliver opdateret en gang hver anden måned, og tilsvarende er udtrækket af datasættet manuelt. Men til en opgave som denne vil det være naturligt, at hvis man i første omgang bruger Wikipedia-kortet til at finde frem til artikler med manglende billeder, så skal artiklen ikke længere fremgå af kortet, når opgaven med at lægge et billede ind er løst.

Når alt dette er sagt, så kan jeg kun opfordre til at I får taget nogle billeder. I ved, hvor I skal starte henne