Vad är en datahanteringsplan bra för?

Datahanteringsplan, på engelska data management plan, är en term som dyker upp i många sammanhang nu för tiden. Internationellt är det inte ovanligt att finansiärer kräver att en datahanteringsplan skickas med tillsammans med ansökan om forskningsmedel, och det är en utveckling vi med stor sannolikhet kommer få se mer av även i Sverige. Det är därför av hög vikt att kunskapen kring datahanteringsplaner ökar bland forskare verksamma i Sverige.

En datahanteringsplan är i stora drag vad det låter som, det är en plan över hur du planerar att hantera dina data.  Det är ett dokument som beskriver vad som ska ske med forskningsdata under och efter forskningsprojektet och besvarar frågor som var och hur data ska lagras, hur och om de ska tillgängliggöras, och vad för typ av data det rör sig om. Men en datahanteringsplan är mer än bara ett administrativt dokument. Används det rätt kan det förenkla forskningsprocessen både under tiden forskningen utförs och efter forskningsprojektet är avslutat.

Den kanske viktigaste aspekten av en datahanteringsplan är att den förenklar för dig som forskare att återvända till ett visst forskningsprojekt och dina data i framtiden. En genomarbetad datahanteringsplan möjliggör för dig att snabbt och enkelt sätta dig in i exakt vilka data du tidigare använt, hur de spelar in i din forskning, och varför du tagit vissa beslut.

Vad innehåller en datahanteringsplan?

Svensk Nationell Datatjänst (SND) har tagit fram en checklista för vad en datahanteringsplan bör innehålla. Checklistan innehåller frågor om bland annat juridiska aspekter, administrativa uppgifter, insamling av data, dokumentation av metadata, datahantering, och en hel del mer. Genom att gå igenom checklistan och reflektera över vilka aspekter som är applicerbara på din forskning har du besvarat ett antal av de viktiga frågorna som har med forskningen att göra. Den säkerställer att frågor om insamling och tillgängliggörande av data är genomtänkta redan innan datainsamlingen påbörjas, vilket kan leda till en säkrare forskningsprocess.

Ett levande dokument

Datahanteringsplanen är inte tänkt att vara ett dokument man fyller i innan man ansöker om forskningsmedel och sedan låter ligga. För att få ut så mycket som möjligt av dokumentet bör det också uppdateras allt eftersom forskningsprocessen fortlöper. Varje gång du gör en förändring i dina data – tar bort eller lägger till kolumner, byter namn på något, ändrar urvalskriterier eller definitioner, med mera – ska detta nedtecknas i datahanteringsplanen.

Varför ska du ha en datahanteringsplan?

Det finns flera goda skäl till varför du bör skriva en datahanteringsplan utöver att det är ett krav från vissa finansiärer. Det är bland annat ett utmärkt sätt att strukturera upp sin forskning och redan i god tid reflektera över ett antal viktiga beslut. Om ni är ett forskningslag är det ett sätt att säkerställa att alla är medvetna om sina ansvarsområden och att ni är med på allt de andra i forskningslaget gör. Det förenklar dessutom uppgiften att på ett enkelt och smidigt sätt beskriva sina data om du tänker publicera dem efter projektet. Om du skriver ner alla beslut du tar gällande forskningen under tiden du arbetar med det är det enkelt att gå tillbaka och kolla varför du gjort vissa val vid ett senare tillfälle. Om någon ifrågasätter dina data eller din arbetsprocess har du ett dokument som är enkelt att använda för att motivera dina val och beslut. Det kan ju dessutom vara så att du vill återvända till forskningen flera år senare för att göra uppföljningar eller fortsatta studier. Att då ha ett dokument som både beskriver processen, metadatan, hur data är insamlat och mycket mer underlättar också avsevärt.

Kristoffer Karlsson

Vem äger forskningsdatan?

Vem äger egentligen de data som forskare samlar in? Vem har rätt att begära ut och få se insamlade forskningsdata? Får forskare ta med sina insamlade data om de byter tjänst till ett annat lärosäte? När det kommer till forskningsdata finns många frågetecken. I det här inlägget hoppas jag kunna reda ut några av dem.

Vem äger de forskningsdata forskare samlar in? Det lärosäte där en forskare är anställd är huvudman för den forskning som bedrivs vid lärosätet. Med detta följer att lärosätet har äganderätt till de forskningsdata som forskarna vid lärosätet samlar in. Det är lärosätet som enligt Tryckfrihetsförordning (SFS 1945:105) och Offentlighets- och sekretesslagen (SFS 2009:400) ansvarar för att arkivera forskningsdata, tillhandahålla tillgång till det, samt skydda från obehörig åtkomst.

Får forskare som byter lärosäte ta med sig sina forskningsdata? Eftersom det är lärosätet som har äganderätten av forskningsdatan har forskaren inte rätt att ta med sig sina data till ett annat lärosäte utan godkännande från lärosätet där datan samlades in. Forskaren kan också begära att få sina forskningsdata utlämnade med hjälp av Offentlighetsprincipen.

Vem har rätt att begära ut forskningsdata? Genom offentlighetsprincipen kan alla svenska medborgare begära ut att få se insamlade forskningsdata. Lärosätet ska då skyndsamt tillgängliggöra de efterfrågade forskningsdata. Undantaget är om efterfrågade data är lagda under sekretess. I sådana fall kan lärosätet neka till utlämnandet av dem.

När läggs forskningsdata under sekretess? Data som rör exempelvis studiedeltagarnas hälsa eller sexliv, psykologiska undersökningar, eller hälsotillstånd och personliga förhållanden kan sekretessbeläggas. Att en handling är sekretessbelagd innebär att vem som helst inte har rätt att ta del av den, och att lärosätet kan neka en förfrågan om att få ta del av forskningsdata.

Vad är en allmän handling? En handling är skrift, bild, eller annan upptagning som kan läsas, avlyssnas, eller på annat sätt uppfattas endast med tekniskt hjälpmedel (SFS 1945:105). En handling som förvaras hos en myndighet, eller som inkommit eller upprättats hos en myndighet, kallas för allmän handling. Så gott som alla forskningshandlingar, i form av enkäter och enkätsvar, video- och ljuduppspelningar och mycket mer som samlas in räknas som allmänna handlingar, och vem som helst har rätt att åkalla offentlighetsprincipen och begära ut dem.

Kristoffer Karlsson

Datakvalitet & dokumentering

Det är älska dina data -vecka som vi skrev förra veckan. Denna internationella vecka syftar till att uppmärksamma forskningsdata och hjälpa forskare att komma igång med att ta bättre hand om sina data. Detta inlägg handlar om datakvalitet och dokumentering av forskningsdata. I dokumentering ingår även att beskriva sina data. I huvudsak talar vi om kvantitativ data även om kvalitativ data också behöver hanteras och beskrivas. Forskare med kvalitativa data verkar vara mer bekymrade över etiska frågor så som anonymisering, konfidentialitet och att någon annan ska använda deras kvalitativa data i ett annat syfte än vad insamlingen av data hade.

Datakvalitet handlar om kvalitet på innehållet (värden) på datasetet. Det betyder att data ska vara komplett (all data behöver finnas), precist och aktuellt. Datakvalitet innebär också fullständighet, validitet, konsekvent, aktualitet och noggrannhet. Vidare innebär datakvalitet att data ska vara användbart, dokumenterat men också reproducerbart/verifierbart.

Insamling, bevarande, formatering är aktiviteter som påverkar datakvalitet och ansvaret på datakvalitet finns hos den som samlar in den men också den som tar hand om bevarandet av data. Bevarandet tas hand om av både arkivarier och bibliotekarier. Arkivarier ser till att det långtidsbevaras och bibliotekarier att lämplig metadata läggs till. Det är ofta bibliotekarier som ser till att dataset är tillgängliga för andra. Dataset blir inte tillgängliga automatisk bara för att de arkiveras och bevaras.

Dokumentation av data handlar om att andra som ser dina data kan lita på dina data genom att data går att validera, reproducera och använda igen. Det är viktigt att dokumentera data för att det bidrar till datakvalitet och användbarhet för både forskaren själv, dennes kollegor, studenter och andra. Att faktiskt skriva analysen från data kan gå lättare och vara mindre stressigt när data från början är välbeskrivet. När data är välbeskrivet och strukturerat kan arbete i forskningsgrupp underlättas och eventuella frågor vid peer review processen kan bli enklare att besvara.

Forskning mäts idag med olika mått där antalet citeringar är ett mått. Går data att citera kan det kanske ge forskaren fördelar i ansökningsprocessen för forskningsmedel, i ansökan att bli befordrat. Dokumentation ökar integritet i forskningen när forskningsprocessen blir mer transparent. Det kan tänkas att det ökar allmänhetens tillit i den forskningen som görs. Och om inte allmänhetens tillit ökar så påverkar det kanske forskande kollegors tillit.

Harvard Business Review (HBR) har publicerat en artikel där det skrivs att IBM uppskattar årskostnaden på dålig data upp till $3.1 biljoner (trillion) i 2016. Alltså finns det mycket att göra när det gäller datakvalitet. Kostnadsuppskattningen baseras på den tiden och kostnaderna som läggs på att anpassa data till det arbete som beslutsfattare, ledare, kunskapsarbetare, datavetare lägger på felaktig data som de behöver i sitt arbete. Denna kostnad är i huvudsak relaterat till kostnaderna som uppstår i organisationer där t.ex. säljavdelningen får en order fel som sedan ärvs av nästa avdelning, inte data producerat i forskningssyfte. Icke desto mindre är det viktigt att även fundera på kostnaderna (som inte behöver vara i pengar) inom forskningsvärlden.

Retraction watch, en blogg som om spårar återkallade publikationer, rapporterar om ett fall där forskaren upptäckte problem i databasen han använde för att undersöka trender i mönster för utdöende av arter. Problemet forskaren upptäckte har påverkat två publikationer där den ena har återkallats av tidskriften. I detta fall fanns det problem i datainsamlingen och databasen som påverkade analysen. När felen var rättade kom forskare fram till en annan slutsats.

Här kan du se exempel på dålig data. Klicka på en bild för att komma vidare till en förklaring vad som är problemet med just det data.

För arbete med forskningsdata har Svensk Nationell Datatjänst information om datahanteringsplan och en checklista för datahanteringsplan.

Pieta Eklund

Älska dina forskningsdata

Nästa vecka är en älska dina forskningsdata vecka (Love your data week) då frågor kring forskningsdata tas upp och upplyses närmare. Det är som den internationella open access veckan i oktober då frågor om open access diskuteras. Just nu pågår det många aktiviteter kring hantering av forskningsdata då det är en fråga som är högt på agendan. När det talas om hantering av forskningsdata bör det inte glömmas bort att arkivering av forskningsdata och öppet tillgängligöra forskningsdata är två olika saker. I huvudsak handlar det dock om att forskningsdata ska tas hand om på ett mer systematiskt sätt av forskare och lärosäten för att förebygga forskningsfusk och även till viss del dubbelarbete. Forskningsfusk förebyggs genom att i t.ex. en artikel hänvisa till det forskningsdata resultaten kommer från. Forskningsprocessen görs på detta sätt mer transparent. Här finns ett exempel på hur forskningsdata kan hänvisas till från en artikel.

Ytterligare en tanke med att hantera forskningsdata mer systematiskt är att underlätta nätverksbyggande eller utbyte forskare emellan. Argumentet är att om forskningsdata finns väl dokumenterat och beskrivet finns det större sannolikhet att någon som är intresserad av liknande frågor kontaktar upphovsmannen till specifik forskningsdata för eventuellt samarbete. Andra tankar kring hantering av forskningsdata är att försäkra dess framtid. Forskare flyttar och tekniker utvecklas och därför kan forskningsdata bli korrupt på längre sikt. Det går t.ex. inte längre läsa filerna. Det finns också tanken om att forskning som finansieras med offentliga medel också ska göra sina forskningsdata tillgängligt för allmänheten. Detta kan dock slå tillbaka. Allmänheten har inte alltid utbildats i forskningsmetodik och kan i värsta fall komma till helt felaktiga slutsatser.

De som sysslar med kvalitativ forskning är också ifrågasättande till att någon annan ska få tillgång till de forskningsdata som forskaren har samlat in. Det kan vara svårt att anonymisera kvalitativa forskningsdata, t.ex. intervjuer och frågan om det är etiskt att använda kvalitativ forskningsdata samlade med att fokus till att svara på frågor med ett annat fokus är något som många forskare som sysslar med kvalitativ forskning funderar på. Ett annat problem är att lärosäten till högre grad förväntas samarbeta med privata organisationer. I dessa fall är det den statliga offentlighetsprincipen och privata organisationers önskan om eventuellt ansöka om patent som krockar. Det är alltså inte enkelt med hanteringen av forskningsdata.

Det som är på gång på Högskolan i Borås under mars är att några av högskolans bibliotekarier, arkivarie och jurister ska gå en utbildning i hantering av forskningsdata arrangerat av SND, Svensk Nationell Datatjänst. De har under flera år arbetat med forskningsdata. Meningen är att det efter utbildningen finns tillräckligt med kunskaper hos bibliotekarier, arkivarier och jurister för att de kan stödja forskare i att ta fram t.ex. en datahanteringsplan.

Under nästa vecka kommer vi att publicera några inlägg om frågor kring forskningsdata här i bloggen.

Pieta Eklund