De robotskapade artiklarnas effekt

Svenskspråkiga Wikipedia har nu fler än 1,4 miljoner robotskapade artiklar. Det är texter som skritivs med en liten bit kod som med uppmuntran från sin skötare hämtar information från några olika databaser och utifrån mallar skapar korta artiklar med grundläggande fakta om mer eller mindre obskyra arter, sjöar eller franska kommuner, där det är osannolikt att en mänsklig skribent skulle ta tag i ämnet. Jag har tidigare argumenterat för att det här förmodligen inte påverkar uppslagsverket i någon större utsträckning. De gör ingen nämnvärd skada, men de flesta av dem handlar om så obskyra ämnen att de inte bara inte hade fått vänta i hundratals år på att någon annars skulle få för sig att skriva en artikel om just det ämnet utan förmodligen får ge sig till tåls lika länge innan någon kommer sig för att faktiskt läsa dem.

Några effekter finns, förstås. En är att slumpartikelfunktionen blivit betydligt mindre användbar och antalet personer som för nöjes skull sitter och slumpar fram en artikel på svenskspråkiga Wikipedia har gått ned mycket kraftigt. Det är helt enkelt inte lika roligt om fyra av fem artiklar man får fram är två meningar långa och handlar om arter så ovanliga att de bara har latinska namn, då vi i folkmun inte skiljer på den ena dansflugearten från den andra. Vi har flera gånger diskuterat möjligheten att låta slumpfunktionen utesluta robotskapade artiklar, men det har inte skett hittills.

Häromdagen skrev Anders Wennersten, en av de mest aktiva svenska användarna på Wikipedia, ett brev till den internationella Wikimediadiskussionslistan där han klargjorde för vilka fördelar han tycker sig ha sett kring robotskapade artiklar. Att det är enklare att motivera folk att ta och ladda upp foton till Wikimedia Commons när det finns finns fler platser att illustrera, att det faktiskt kommer in människor och redigerar som fått upp de robotgenererade artiklarna i sökmotorer, att en svagt nedåtgående trend med färre som redigerar har vänts och återigen börjat peka uppåt och att det skulle kunna ha någonting med den betydligt större mängd artiklar som plötsligt finns. Särskilt det sistnämnda är ett samband jag skulle vilja se ganska mycket bättre stöd för innan jag accepterar det, men stämde det skulle det ensamt vara skäl nog att argumentera för att alla de språkversioner som förhåller sig skeptiska till robotskapade artiklar definitivt borde fundera på att omvärdera sin inställning.

Oavsett lär botarbetet på svenskspråkiga Wikipedia fortsätta.

Länkar
Den automatiserade kunskapsproduktionen
Svenskaspråkiga Wikipedia näst störst? Nja

Nu är det höst

Wikipediabloggen tänker nu återupptå sitt normala publiceringstempo.

Wikipedia och musiken

I dag blev jag påmind om ett Wikipediaverktyg som är lika oanvändbart som det är fantastiskt. Det gör musik av Wikipediaredigeringar i realtid.

Bells indicate additions and string plucks indicate subtractions. Pitch changes according to the size of the edit; the larger the edit, the deeper the note. […] You may see announcements for new users as they join the site, punctuated by a string swell.

Man kan ha världens växande informationsmängd som musik i bakgrunden. Man kan också scrolla ned, koppla den till svenskspråkiga Wikipedia (som har betydligt lägre redigeringstempo och därför inte skapar musik i samma bemärkelse), hitta en artikel man kan bidra till och höra det tillfredsställande plinget direkt när man sparar.

Länkar
Listen to Wikipedia

Contropedia och redigeringskrigen

Ett intressant projekt för att ta fram och visualisera kontroverser på Wikipedia är Contropedia, som presenteras av David Laniado på Wikipediakonferensen Wikimania i London medan jag skriver det här inlägget. Det har verktyg för att visa kontroversiella artiklar, länkar, delar och även vilka användare som redigeringskrigar med varandra, eller ger eldunderstöd. Det har potential att vara ett intressant forskningsverktyg, men också som hjälp för dem som faktiskt utvecklar uppslagsverket.

Det är inte alltid vi inser hur djupt ned i skyttegravarna vi faktiskt har grävt oss.

Länkar
Contropedia

Quarry

Quarry är ett nytt verktyg (nu i beta, fortfarande under utveckling) som låter vem som helst ställe SQL-frågor till Wikipedias databas. Det har två fördelar: för det första tillåter det vem som helst att göra enklare undersökningar av databasen (de får inte ta längre än tio minuter, då avbryts de), för det andra går det att dela resultatet med vem som helst bara genom att sprida länken. Det har gått att ställa SQL-frågor förut, men det har krävt tillåtelse och ett särskilt konto, medan vem som helst med en användare på Wikipedia kan använda Quarry.

Vilken roll spelar det för Wikipediaforskningen? Kanske inte så mycket, kanske en del. Det är ett verktyg som kan användas bara för att stilla nyfikenheten, men också för så mycket mer. Och som har konstaterats: öppen, lättillgänglig data spelar stor roll för vad som forskas på. Alla är vi mänskliga.

Länkar
Quarry

Svenskaspråkiga Wikipedia näst störst? Nja

Under gårdagen rapporterade diverse medier om det faktum att svenskspråkiga Wikipedia nu har näst flest artiklar av alla språkversioner, färre än enbart engelskspråkiga Wikipedia. Det är förvisso tekniskt sett sant. Som påpekas beror det på att majoriteten av dessa artiklar är robotskapade texter om insekter, sjöar och så vidare, enkla artiklar skapade utifrån en mall som hämtar mycket grundläggande information ur en eller ett par databaser och sedan skapar artiklar utifrån dem. Vad innebär det egentligen? Att svenskspråkiga Wikipedia är en av de mest heltäckande språkversionerna? Att vi är en av de sämsta, eftersom majoriteten av våra artiklar är robotskapade? Ingetdera, skulle jag vilja hävda.

Det man måste komma ihåg är att det här inte bara är artiklar som förmodligen aldrig hade skapats annars (de handlar ofta till exempel om arter som kanske bara har latinska namn) utan sannolikt är artiklar som aldrig kommer att bli lästa. De brukar, mig veterligen, vara korrekta i det lilla de försöker säga. De är källbelagda. De är bara, de allra flesta, om ämnen som ingen någonsin söker information om. De ligger lite vid sidan om de mänskligt skrivna artiklarna, huvudsakligen på grund av att någon i de sistnämnda fallen aktivt måste ha bestämt sig för att ja, det här, det här skall jag lägga min tid på att skriva om.

De robotskapade artiklarna säger helt enkelt inte så mycket om svenskspråkiga Wikipedia.

Länkar
Wikipediabloggen: Den automatiserade kunskapsproduktionen
En typisk robotartikel: Actophylla.
SVT: Svenskspråkiga Wikipedia nu näst störst i världen
SvD/TT: Svenska Wikipedia nu tvåa i världen

Wikipedia och internetfenomenen

Wikipedia är på många sätt konservativt. Delvis är det en effekt av hur uppslagsverket fungerar, som att det är svårare att få in ny kunskap som inte har hunnit nå full acceptans inom sitt vetenskapsfält än. Delvis handlar det om att många användare inte har velat ta steget ut i vår samtid. Så är det alltid svårare för någonting som når och påverkar människor att bedömas som ett ämne med allmänintresse och relevant för uppslagsverket om det sker på internet istället för att till exempel tryckas på döda träd.

Internetfenomen är för en betydande grupp wikipedianer inte en neutral beskrivning av någonting som kanske är relevant och kanske inte är det, någonting som kanske lämnat ett avtryck i samhället eller snart glömdes bort. Ett internetfenomen är någonting att betrakta med skepsis, värt att ta på mindre allvar än allt sådant som fysiskt går att ta på. Till viss del handlar det om att det är så lätt att skapa någonting på nätet, en försvarsmekanism för att inte sitta med ett enormt antal svårkällbelagda artiklar som snart blivit bortglömda och därför inte uppdateras när vad det än handlar om förändras eller läggs ned. Naturligtvis är det så att även de flesta stora internetfenomen med tiden bleknar, dör bort och försvinner ur det allmänna medvetandet. Det gäller å andra sidan även den överväldigande mängden personer, musikaliska verk och händelser som beskrivs i uppslagsverket.

Många internetfenomen är så kortlivade, lämnar så litet avtryck och är så svåra att hitta vettiga källor till att det definitivt är värt att ifrågasätta om de verkligen bör ha en artikel. Problemet är när man förutsätter att så är fallet, eftersom de är saker som händer på internet. De påverkar samhället och människors liv och artiklarna blir, när fenomenen försvinner, några av alla de nycklar som kan hjälpa oss att förstå den tid de fanns i. De borde bedömas på samma villkor som alla andra artiklar.

Så är inte alltid riktigt fallet.

Wikipedia kan aldrig ersätta kunskap

Med ständig tillgång till det digitala uppslagsverket i fickan, var går gränsen för det mänskliga vetandet? Det finns en intressant diskussion om vad som egentligen utgör vårt kunnande och våra minnen: räknas våra privata anteckningar? I vilken utsträckning är det meningsfullt att skilja det vi har skrivit från oss själva?

Det hävdas ibland att information har blivit så lättillgänglig, inte minst genom Wikipedia, att behovet av att faktiskt veta saker har blivit så mycket mindre och att vi istället borde rikta in oss på att bli duktiga på att hitta information. Den finns ändå med oss, lika mycket som om vi hade haft den i minnet, men bara om vi har färdigheterna som krävs för att leta upp den. Dumt, alltså, att slösa värdefull tid på att memorera saker istället för att bli bättre på att hitta den information som finns omkring oss och som vi ändå aldrig kommer att lyckas fästa mer än en mycket liten del av i huvudet.

Det är inte ett helt och hållet orimligt resonemang, men det underskattar både skillnaden mellan information och kunskap och kunskapens roll. Tidigare vetskap är ett nödvändigt verktyg för att ta till sig och förstå ny information. Visst försöker uppslagsverket kontextualisera, blåmarkera länkar och skicka läsaren vidare till andra artiklar som kan fördjupa förståelsen. Rent bortsett från att Wikipedias blå länkar är en labyrint som aldrig tar slut och att det är orimligt att vid varje tillfälle läsa femton andra artiklar för att bättre ta till sig det man ville slå upp kommer vi förstås heller aldrig att ha länkar till alla artiklar som i någon aspekt hade kunnat hjälpa till att ge bakgrund till ämnet.

Du kan läsa artiklar om Kinas nutida konflikter med omvärlden, men den nationalistiska kinesiska revanschlustan är svår att ta till sig utan kunskap om Kinas historia, framför allt med fokus på senare delen av artonhundratalet och början av nittonhundratalet. Wikipedias artikel om Dangerous Visions, den amerikanska science fiction-litteraturens mest kända och inflytelserika antologi, kan försöka förklara dess plats i science fiction-litteraturen, men utan att kunna dra paralleller till samtida samhällsförändringar och vad som hände i amerikansk sextiotalslitteratur utanför sf-fältet finns inte möjligheten att förstå hur den passade in i sin samtid. Kanske hittar du all information du letade efter i en artikel om ett infrastrukturprojekt, men är du bekant med liknande projekt och hur de har fungerat kommer du informationen att säga dig så mycket mer än om du inte är det.

Vi förstår omvärlden genom att jämföra och dra paralleller. Ju mindre du vet om angränsande ämnen, desto sämre möjligheter har du att fullt ut ta till dig ny information – även sådan som finns i en artikel i ett uppslagsverk. Visst kan du slå upp under vilken tidsperiod Inkariket bredde ut sig, och fundera kring vad som hände i norra Europa samtidigt, men om du inte har ungefärlig koll i huvudet kommer du aldrig att kunna dra parallellen till Inkariket, spontant förstå att det var två samtidiga processer i olika delar av världen utan att faktiskt sitta med årtalen framför dig. Du kan läsa på om vilken betydande modern filosof som helst, men du kan inte göra en jämförelse med tidigare tankar inom filosofin om du inte är bekant med dem.

Lättillgänglig information står inte i ett motsatsförhållande till kunskap. Det är en växelverkan, där kunskapen förbättrar informationen och den nya informationen förbättrar de tidigare kunskaperna. Att läsa på Wikipedia kan aldrig ersätta att själv veta saker.

Maktens redigeringar

Tidigare i dag stötte jag på ett par nya Twitterkonton som bevakar oinloggade redigeringar gjorda från det brittiska parlamentet eller den amerikanska kongressen. En kort stund senare finns även ett för den svenska riksdagen, kanske extra intressant i valtider, samtidigt som en annan användare tröskar igenom svenskspråkiga Wikipedia för att kunna lista redigeringar från politiker, myndigheter och andra makthavare på en arbetssida på Wikipedia.

TwitterWikipediaIP

Det går alldeles utmärkt att göra fullt legitima redigeringar om allt från koreansk fotboll till nyckelpigor även om man sitter i riksdagen. Det finns många sätt att rent fysiskt befinna sig i riksdagen och redigera Wikipedia utan att fångas upp av det här. Men vi har, historiskt, ibland haft problem med folk som har försökt tvätta bort negativa saker från artiklar knutna till det egna partiet, eller smyga in saker i artiklar om sina politiska motståndare. Sådana här initiativ ser jag som ett försök att påminna att den politiska kostnaden om det når ut är så mycket högre än vad man än kan ha hoppats vinna (särskilt när det allt som oftast genast återställs) och, om det skulle behövas, om att det faktiskt inte är etiskt okej.

Länkar
Twitterkonton: @parliamentedits, @congressedits, @RiksdagWikiEdit, @Jan_Ainali, @JohanJ
Maktens redigeringar, lista skapad av Sverker Johansson
Wikipedia:Congressional staffer edits

Wikipedias destruktiva mediefixering

Senaste inlägget på Wikipediabloggen handlade om problemet med att Wikipedia i för hög utsträckning använder sig av dagstidningsartiklar som källor, inte minst eftersom de är så lättillgängliga. En annan aspekt är att referenserna fungerar som ett underförstått argument för varför artikeln skall få finnas kvar. Artikeln, heter det, måste påvisa sin relevans. Det är destruktivt för hela uppslagsverket.

Det skall finnas någon form av allmänintresse för att Wikipedia skall ha en artikel om ett ämne, det som vi kallar encyklopedisk relevans. Hur man bedömer allmänintresset är en av de återkommande stötestenarna på Wikipedia, och allt för ofta faller man tillbaka på till exempel medieuppmärksamhet, i brist på andra bevis. Om man accepterar att relevansen måste framgå (för personer som inte är närmare bekanta med ämnet, eller det aktuella fältet) av texten i artikeln leder i det olyckliga fall till att artikeln präglas av att vilja visa vilka radiokanaler, tidningar, tv-program som uppmärksammat artikelämnet — trots att det absolut inte är vad som definierar uppslagsordet, och är av begränsat intresse för läsaren.

Många artiklar hade blivit mycket bättre om det helt och hållet hade tagits via diskussionssidan.

Länkar
Wikipedia och journalisterna