lør 23 aug 2008
Wikipedia, kvalitetsoffensiv og de manglende billeder
Skrevet af Peter Brodersen under Tanker , Teknik[19] kommentarer
Noget af det, jeg er mest begejstret for, i min jagt på at kombinere offentlig data, er mulighederne i Wikipedia for at kombinere og strukturere informationer på kryds og tværs – med et mål, som ikke blot er teoretisk interessant, men praktisk brugbart.
Nyeste skud på stammen er en opdatering af Wikipedia-kortet, hvor man kan se artikler med koordinater tilknyttet, som mangler et billede.
Baggrunden var en snak på Wikipedias danske chat-kanal, hvor Thyge havde kommet på en idé om at lave et kort, hvor artikler, som folk savnede billeder til, var prikket ind, så man kunne se, om der var nogen i nærheden af sig selv, samt hvor, der lå klumper af steder og bygninger, der skulle tages billeder af. Målet var at have en struktureret tilgang til at kunne forbedre kvaliteten af den danske udgave af Wikipedia, som var til at tage og føle på.
Én af tankerne var at automatisere så mange processer som muligt, samt at gøre processen transparent for den almindelige Wikipedia-skribent. Formuleret på en anden måde:
Vi skal ikke løse et problem ved at øge kompleksiteten for den almindelige bruger.
Vi skal altså have lavet et værktøj, som kan hjælpe os, så vidt muligt uden at stille nye krav til alle frivillige skribenter. Så vi må tænke kreativt med udgangspunkt i, hvilke muligheder, vi i forvejen har til rådighed.
Du kan læse om de fire dele af processen her:
1. Oversigt over artikler, som mangler billede
I første omgang skal vi starte et sted. På Wikipedia findes der en kategori ved navn Billede savnes, hvor man kan se hvilke artikler, som det ville være oplagt at have et billede på.
Det giver os en oversigt et samlet sted. Men det har krævet, at folk selv har føjet artikler til denne kategori. Det er et kedeligt og langsommeligt arbejde, og kan også give et skævt resultat ud fra, hvad folk tilfældigvis interesserer sig for.
2. Justering af skabeloner af steder, som inkluderer billeder
Wikipedia benytter sig i høj grad af en række forskellige skabeloner. De mest udbredte er forskellige former for infobokse, som giver et konsistent udseende samt gør det lettere at indtaste grundlæggende informationer i artiklen, uden at skrive en masse tekst. Det er såmænd blot at udfylde nogle felter – så bliver tingene sat korrekt op.
Sammenlign infoboksen i højre side på artiklerne Roskilde Universitetscenter (RUC) og Copenhagen Business School (CBS). Begge artikler bruger skabelonen ved navn Skabelon:Universitet med informationer om året for grundlæggelsen, rektor, antal studerende og så fremdeles. Der er også et felt, hvor man kan henvise til et billede af universitetet. Det er der fx i RUC-artiklen, men ikke i CBS-artiklen.
Skabelonerne giver nogle tekniske muligheder under kølerhjelmen, som jeg har brugt i denne proces. Det er for eksempel muligt i den grundlæggende skabelon, som bl.a. både RUC og CBS bruger, at tjekke på, om der er angivet et billede. Hvis dette ikke er tilfældet, så sørger skabelonen for at artiklen bliver meldt ind i en kategori for manglende billeder.
Det er lige præcis, hvad jeg endte med at gøre. Har en artikel, som bruger Universitet-skabelonen, ikke angivet noget billede til skabelonen, bliver artiklen tilføjet til kategorien Universitetsbillede savnes. Ved et trylleslag er der så dukket en håndfuld universiteter op i den kategori – uden at jeg har rettet i en eneste artikel. Fremtidige artikler om universiteter, som bruger skabelonen (og som mangler billede), ryger så også tilsvarende i den kategori, uden at skribenten, der bruger skabelonen, overhovedet behøver at vide noget om den kategori. Retter man en artikel til og tilføjer et billede, bliver artiklen også uden videre fjernet fra kategorien igen. Det sker helt af sig selv og sikrer også, at kategorierne afspejler de faktiske forhold, i stedet for at kræve et vedligeholdesesarbejde med at folk selv skal huske at flytte artiklerne ud og ind af kategorierne, når der tilføjes og fjernes billeder.
Den proces fortsatte jeg så med for skabeloner for gymnasier, undervisningsinstitutioner, stadioner, biografer, lufthavne, søer, togstationer, vandløb, kirker og hoteller. Det tog blot et par timer (inklusive at sætte sig ind i skabelon-systemet), og er et arbejde, som kun skal udføres én gang for en skabelon.
Resultatet er flere hundrede eksisterende artikler, som nu automatisk er blevet markeret ind i kategorier for manglende billeder. Dertil kommer så mange nye artikler i fremtiden, samt rettelser af de eksisterende artikler, som endnu ikke bruger skabeloner.
Nu har vi et væsentligt bedre grundlag, samt en proces for at listerne vedligeholder sig selv, når der bliver tilføjet artikler og billeder.
3. Krydstjek med artikler med geografiske koordinater
Thyges udgangspunkt var specifikt at finde de artikler, som både lå i kategorien Billede savnes og Geomærkede artikler. Dette ville give en liste af artikler, som lå på steder, der rent faktisk var lette at finde frem til. Det kan være et problem at finde et billede af en helt bestemt sommerfugl eller for den sags skyld en bestemt person. Til gengæld kræver det ikke meget mere end et kort eller GPS for at finde en kirke og tage et billede af den.
Ved at finde krydstjekke listen over artikler i de to kategorier (og underkategorier) nåede jeg frem til en liste over fælles artikler. Fællesmængden blev i første omgang lavet ved hjælp af et eksternt program til bl.a. at sammenligne kategorier, men målet er at udnytte Wikipedia-softwaren til automatisk at kunne lave et realtime-udtræk af denne fællesmængde for at eliminere den manuelle proces og for altid at have opdaterede lister.
Det er naturligvis stadigvæk muligt manuelt at tilføje en artikel til kategorien over manglende billeder, og endnu mere grund til at gøre det end før, idet tilknytningen til kategorien nu rent faktisk forædler den samlede oversigt
4. Grafisk visualisering af artikler på kort
Langt om længe kommer kortet ind i billedet. Alle kan nu se, hvor artiklerne med manglende billeder ligger henne i verden, og ikke mindst om der ligger nogen i nærheden af os selv, eller i nærheden af den by, vi alligevel skal besøge i weekenden. Vi kan også se, om der er “klumper” af artikler, som ligger i nærheden af hinanden. Hvis man alligevel er vej ud for at tage et billede af en bestemt bygning til Wikipedia, er det jo oplagt at tjekke, om der er andet på vejen, man alligevel kan slå et smut omkring.
Vi har altså i bedste Findvej-tradition vendt indgangsvinklen på hovedet. I stedet for at tage udgangspunkt i, om en bestemt artikel har et billede tilknyttet, og i så fald hvor vi skal hen i verden for at finde netop denne artikel, kigger vi i stedet på områder og ser, hvad der tilfældigvis befinder sig i området.
På længere sigt skal denne proces også automatiseres. På nuværende tidspunkt benytter Wikipedia-kortet sig af en statisk kopi af Wikipedia, som omtrent bliver opdateret en gang hver anden måned, og tilsvarende er udtrækket af datasættet manuelt. Men til en opgave som denne vil det være naturligt, at hvis man i første omgang bruger Wikipedia-kortet til at finde frem til artikler med manglende billeder, så skal artiklen ikke længere fremgå af kortet, når opgaven med at lægge et billede ind er løst.
Når alt dette er sagt, så kan jeg kun opfordre til at I får taget nogle billeder. I ved, hvor I skal starte henne
23. august 2008, 10:20 am
Flot arbejde! For nu at være lidt ekstra krævende: Kunne man trække at POI-arkiv ud, som er til at lægge ind i min Garmin?
23. august 2008, 4:37 pm
Det ville da helt sikkert være oplagt, ja.
Jeg har ikke dykket så meget ned i hvilke filer og formater, diverse GPS’er bruger. Jeg går næsten ud fra, at en GPX-fil vil være helt fint?
Jeg har også overvejet at lave en KML-fil til bl.a. Google Earth. Det interessante her er, at man kan “nøjes” med at angive en online-ressource, så hver gang, programmet startes op, henter den en opdateret udgave af KML-filen hjem, i tilfælde af at der er sket ændringer.
På længere sigt bliver det interessant, når GPS’er også har netforbindelse, så man kan konstant bruger dugfrisk data – og uden at man manuelt skal opdatere.
24. august 2008, 7:03 pm
GPX burde virke i de mange tilfælde. Nogle GPS’er er også tilfredse med komma-separerede filer, og slutteligt er der TomTom’s ov2 format, som er ret simpelt:
pack(“Cllla*”,$type=2,strlen($title)+14,$lang*100000,$long*100000,$title.”");
Dette burde virke (men jeg ejer dog ikke selv en af slagsen, så jeg kan ikke garantere noget). Så vidt jeg husker (det er noget lidt gammel kode jeg har liggende) er ovenstående baseret på dokumentation fra TomTom selv, så den burde være god nok.
24. august 2008, 7:06 pm
Øh, det ser ud til Wordpress møflede lidt med den php-kode. Alle quotes skal selvfølgelig være almindelige quotes, og så skal der en til sidst i strengen (det kan vist også klares i pack-kaldet).
24. august 2008, 7:31 pm
Heh, ja – Wordpress er nogle gange lidt for kæk for sit egets vedkommende
Men det ser jo dejligt simpelt ud. Tak for infoen.
Jeg har brugt aftenen på at smide teatre ind i skabeloner på Wikipedia, så dem er der også dukket nogle flere stykker op af på kortet. Jeg regner med at få kigget på GPS-eksport-mulighederne i næste uge.
25. august 2008, 12:15 am
Øh, det jeg mener er at der skal en NULL byte til sidst i strengen. Jøsses da. Og ov2 filer er bare en lang liste af punkter – der er ingen header.
26. august 2008, 10:00 am
Peter!
Jeg har fået lokket Therese med til at vi kører Fyn rundt på søndag med mit kamera!
1. september 2008, 11:11 am
Hmm.. der er da rigtig mange af Wikipedia-artiklerne fra dit kort, der har billeder på.
2. september 2008, 11:44 am
@Mads: På det overordnede Wikipedia-kort (med ca. 7.500 artikler markeret) er der rigtigt nok mange artikler med billeder, men på nopic-kortet, jeg henviser til i bloggen, er der meget få artikler med billede på?
Jeg gen-tjekkede lige en 20-30 stykker igennem, og fandt kun ét gammelt billede.
Jeg opdaterer i øvrigt med jævne mellemrum, så når fx Morten har kørt rundt i verden og taget billeder, så kan der lige være en kort periode, hvor kortet endnu ikke er blevet opdateret.
Formålet er naturligvis også at automatisere denne del, så kortet såvidt muligt hele tiden er up-to-date.
3. september 2008, 1:22 pm
Hej. som lastbil chauffør bruger jeg næsten dagli finvej.min gps er næsten ikke i bru mere men hvis man kunne overføre data fra pc til gps ville det blive godt. og hvis man på finvej også kunne prække sin ejn rute til min mc tur.
4. september 2008, 2:06 pm
Jeg har lige downloadet IE 8 beta’en og der er en meget lækker funktionalitet kaldet Accelerator, som gør, at man kan markere noget tekst og så strakts slå det op på et andet site – man kan tilmed få det vist i et “preview”-vindue. Google Maps gør det, og det ser ud til, at man med en lille xml-fil også ville kunne tilbyde det på findvej.dk. Var det en ide? Jeg ville i hvert fald elske at bruge findvej.dk fremfor Google/Live Maps.
7. september 2008, 8:03 pm
Jeg skriver til dig angående en anden blogpost, du har kommenteret på. Det handler om tilføjelsen “Ubiquity” til Firefox.
Du kan læse min idé her:
http://www.esbenfjord.dk/?p=1302#comment-27956
9. september 2008, 12:07 am
Gustav: .. og jeg har svaret
Til øvrige Ubiquity-interesserede (som altså intet har med Findvej at gøre), så har jeg et par småscripts liggende på http://u.ter.dk/
mitkbh-scriptet gør dog også brug af små kortudsnit.
De scripts kræver både Firefox samt Ubiquity-udvidelsen installeret. Ellers kan man ikke bruge dem til noget.
16. september 2008, 10:23 pm
Godt initiativ!
19. oktober 2008, 2:42 am
Kool! Rigtig godt fundet på. Vækker den slumrende skattejæger i een.
Rigig godt måde at aktivere passion for foto og Wiki med det område hvor man bor, arbejder, færdes. Respekt!
Janus
25. oktober 2008, 6:37 pm
Fantastisk! Inspireret af denne udvidelse har jeg lagt et billede af Bazar Vest op, City Vest vil snart følge!
29. oktober 2008, 4:08 pm
Jeg benytter mig nu af Wikipedias API til at lave dataudtræk, så opdateringer af kortet sker nu automatisk hver uge.
Når mit opdaterings-program har kørt stabilt et par gange, sætter jeg den til at opdatere på daglig basis.
Det betyder, at målet er nået med en fuldautomatisk proces for dataformidlingen.
1. februar 2009, 10:33 pm
Jeg har fundet en åbentlys fejl. Når man går ind på Svendborg, kommer der lidt af Svendborgsund med, men på kortet kaldes det “Storebælt”. Det er da vist en tanketorsk.
23. maj 2009, 12:13 pm
@Ryan Rohde Hougaard:
Jeg har gjort en Accelerator til findvej.dk. Den kan hentes på http://christinaogmartin.dk/acc.html
Den er hurtigt lavet, så ikonet er ikke for kønt, men det synes at virke. Du installerer Acceleratoren og herefter kan du markere en adresse og vælge acceleratoren. Det er som sagt hurtigt gjort, så det kræver, at det, du markerer, har samme syntaks, som findvej.dk forventer (eks.: http://findvej.dk/nørre farimagsgade)
Men så slår den også adressen op
God fornøjelse.