Hantering av forskningsdata – ett nytt område för biblioteket

Under våren 2017 har biblioteket deltagit i en utbildning i att hantera forskningsdata. Utbildningen har letts av Svensk Nationell Datatjänst (SND) och har inkluderat flera olika aspekter av hantering av forskningsdata; skapande av datahanteringsplaner, beskrivning av data, filhantering, arkivering och tillgängliggörande av data. Under tre dagar har bibliotekets team för forskarstöd, tillsammans med arkivarie och jurister på högskolan, studerat och diskuterat dessa frågor.  Utbildningen har varit mycket givande, och gett en fördjupad inblick i hur komplexa dessa frågor är, inte minst de juridiska aspekterna kring hanteringen av data. Detta blir speciellt tydligt då forskningen rör sig runt människor, och personuppgifter hanteras.

Efter genomgången utbildning på SND har ett utbildningspaket för forskare arbetats fram, och en test av detta har genomförts under senvåren. Under två halvdagar har fyra forskare vid högskolan deltagit i föreläsningar och workshop runt hanteringen av forskningsdata, med fokus på deras egna data. Att tillsammans med forskare, som är experter på sina egna data, fördjupa diskussionerna ytterligare har varit givande för samtliga inblandade (även forskarna). De forskare som deltagit i utbildningspaketet är Daniel Ekwall, Helena Francke, Katarina Karlsson och Laura Darcy.

Första halvdagen handlade om datahanteringsplaner. Datahanteringsplaner är egentligen ingen nyhet i forskningsprocessen. Det som är en nyhet är att datahanteringsplanen är ett sammanhållet dokument besvarar alla frågor om hur data samlas in, varför, hur den bevaras och vem som har tillgång till den och som behöver uppdateras kontinuerligt under forskningsprocessen. Tidigare har liknande frågor eventuellt tagits upp forskningsmedelsansökningar men inte till samma detaljnivå. Det visades också några verktyg som kan underlätta arbetet med datahanteringsplaner.

Den andra halvdagen användes för att prata om juridiska aspekter på datahantering och arkivering av forskningsdata. Fokus låg på den nya dataskyddsförordningen som träder i kraft i maj 2018. De fyra forskarna hade många frågor kring hantering av personuppgifter i ljuset av den nya förordningen.

Utbildningen på SND blir grunden för att skapa en arbetsgrupp vid Högskolan i Borås vars uppgift blir att hjälpa forskare med datahanteringsplaner, arkivering av forskningsdata samt tillgängliggörande av forskningsdata. För tillfället går den blivande gruppen under namnet Data Access Unit (DAU). Liknande arbete pågår på de flesta svenska lärosäten då frågan om arkivering och öppet tillgängliggörande av forskningsdata ligger högt på agendan inom EU (Horizon 2020 t.ex. kräver öppet tillgängliggörande av forskningsdata) och i Sverige då det antas att många forskningsfinansiärer framöver kommer att kräva inkluderingen av datahanteringsplan i ansökan om forskningsmedel och öppet tillgängliggörande av forskningsdata.

Vill du att vi kommer till din forskningsgrupp för ett samtal eller workshop kring forskningsdata och datahanteringsplaner? Kontakta oss gärna!

Läs tidigare inlägg om forskningsdata i Forskningsrelaterat.

Vad är en datahanteringsplan bra för?

Datahanteringsplan, på engelska data management plan, är en term som dyker upp i många sammanhang nu för tiden. Internationellt är det inte ovanligt att finansiärer kräver att en datahanteringsplan skickas med tillsammans med ansökan om forskningsmedel, och det är en utveckling vi med stor sannolikhet kommer få se mer av även i Sverige. Det är därför av hög vikt att kunskapen kring datahanteringsplaner ökar bland forskare verksamma i Sverige.

En datahanteringsplan är i stora drag vad det låter som, det är en plan över hur du planerar att hantera dina data.  Det är ett dokument som beskriver vad som ska ske med forskningsdata under och efter forskningsprojektet och besvarar frågor som var och hur data ska lagras, hur och om de ska tillgängliggöras, och vad för typ av data det rör sig om. Men en datahanteringsplan är mer än bara ett administrativt dokument. Används det rätt kan det förenkla forskningsprocessen både under tiden forskningen utförs och efter forskningsprojektet är avslutat.

Den kanske viktigaste aspekten av en datahanteringsplan är att den förenklar för dig som forskare att återvända till ett visst forskningsprojekt och dina data i framtiden. En genomarbetad datahanteringsplan möjliggör för dig att snabbt och enkelt sätta dig in i exakt vilka data du tidigare använt, hur de spelar in i din forskning, och varför du tagit vissa beslut.

Vad innehåller en datahanteringsplan?

Svensk Nationell Datatjänst (SND) har tagit fram en checklista för vad en datahanteringsplan bör innehålla. Checklistan innehåller frågor om bland annat juridiska aspekter, administrativa uppgifter, insamling av data, dokumentation av metadata, datahantering, och en hel del mer. Genom att gå igenom checklistan och reflektera över vilka aspekter som är applicerbara på din forskning har du besvarat ett antal av de viktiga frågorna som har med forskningen att göra. Den säkerställer att frågor om insamling och tillgängliggörande av data är genomtänkta redan innan datainsamlingen påbörjas, vilket kan leda till en säkrare forskningsprocess.

Ett levande dokument

Datahanteringsplanen är inte tänkt att vara ett dokument man fyller i innan man ansöker om forskningsmedel och sedan låter ligga. För att få ut så mycket som möjligt av dokumentet bör det också uppdateras allt eftersom forskningsprocessen fortlöper. Varje gång du gör en förändring i dina data – tar bort eller lägger till kolumner, byter namn på något, ändrar urvalskriterier eller definitioner, med mera – ska detta nedtecknas i datahanteringsplanen.

Varför ska du ha en datahanteringsplan?

Det finns flera goda skäl till varför du bör skriva en datahanteringsplan utöver att det är ett krav från vissa finansiärer. Det är bland annat ett utmärkt sätt att strukturera upp sin forskning och redan i god tid reflektera över ett antal viktiga beslut. Om ni är ett forskningslag är det ett sätt att säkerställa att alla är medvetna om sina ansvarsområden och att ni är med på allt de andra i forskningslaget gör. Det förenklar dessutom uppgiften att på ett enkelt och smidigt sätt beskriva sina data om du tänker publicera dem efter projektet. Om du skriver ner alla beslut du tar gällande forskningen under tiden du arbetar med det är det enkelt att gå tillbaka och kolla varför du gjort vissa val vid ett senare tillfälle. Om någon ifrågasätter dina data eller din arbetsprocess har du ett dokument som är enkelt att använda för att motivera dina val och beslut. Det kan ju dessutom vara så att du vill återvända till forskningen flera år senare för att göra uppföljningar eller fortsatta studier. Att då ha ett dokument som både beskriver processen, metadatan, hur data är insamlat och mycket mer underlättar också avsevärt.

Kristoffer Karlsson

Vem äger forskningsdatan?

Vem äger egentligen de data som forskare samlar in? Vem har rätt att begära ut och få se insamlade forskningsdata? Får forskare ta med sina insamlade data om de byter tjänst till ett annat lärosäte? När det kommer till forskningsdata finns många frågetecken. I det här inlägget hoppas jag kunna reda ut några av dem.

Vem äger de forskningsdata forskare samlar in? Det lärosäte där en forskare är anställd är huvudman för den forskning som bedrivs vid lärosätet. Med detta följer att lärosätet har äganderätt till de forskningsdata som forskarna vid lärosätet samlar in. Det är lärosätet som enligt Tryckfrihetsförordning (SFS 1945:105) och Offentlighets- och sekretesslagen (SFS 2009:400) ansvarar för att arkivera forskningsdata, tillhandahålla tillgång till det, samt skydda från obehörig åtkomst.

Får forskare som byter lärosäte ta med sig sina forskningsdata? Eftersom det är lärosätet som har äganderätten av forskningsdatan har forskaren inte rätt att ta med sig sina data till ett annat lärosäte utan godkännande från lärosätet där datan samlades in. Forskaren kan också begära att få sina forskningsdata utlämnade med hjälp av Offentlighetsprincipen.

Vem har rätt att begära ut forskningsdata? Genom offentlighetsprincipen kan alla svenska medborgare begära ut att få se insamlade forskningsdata. Lärosätet ska då skyndsamt tillgängliggöra de efterfrågade forskningsdata. Undantaget är om efterfrågade data är lagda under sekretess. I sådana fall kan lärosätet neka till utlämnandet av dem.

När läggs forskningsdata under sekretess? Data som rör exempelvis studiedeltagarnas hälsa eller sexliv, psykologiska undersökningar, eller hälsotillstånd och personliga förhållanden kan sekretessbeläggas. Att en handling är sekretessbelagd innebär att vem som helst inte har rätt att ta del av den, och att lärosätet kan neka en förfrågan om att få ta del av forskningsdata.

Vad är en allmän handling? En handling är skrift, bild, eller annan upptagning som kan läsas, avlyssnas, eller på annat sätt uppfattas endast med tekniskt hjälpmedel (SFS 1945:105). En handling som förvaras hos en myndighet, eller som inkommit eller upprättats hos en myndighet, kallas för allmän handling. Så gott som alla forskningshandlingar, i form av enkäter och enkätsvar, video- och ljuduppspelningar och mycket mer som samlas in räknas som allmänna handlingar, och vem som helst har rätt att åkalla offentlighetsprincipen och begära ut dem.

Kristoffer Karlsson

Datakvalitet & dokumentering

Det är älska dina data -vecka som vi skrev förra veckan. Denna internationella vecka syftar till att uppmärksamma forskningsdata och hjälpa forskare att komma igång med att ta bättre hand om sina data. Detta inlägg handlar om datakvalitet och dokumentering av forskningsdata. I dokumentering ingår även att beskriva sina data. I huvudsak talar vi om kvantitativ data även om kvalitativ data också behöver hanteras och beskrivas. Forskare med kvalitativa data verkar vara mer bekymrade över etiska frågor så som anonymisering, konfidentialitet och att någon annan ska använda deras kvalitativa data i ett annat syfte än vad insamlingen av data hade.

Datakvalitet handlar om kvalitet på innehållet (värden) på datasetet. Det betyder att data ska vara komplett (all data behöver finnas), precist och aktuellt. Datakvalitet innebär också fullständighet, validitet, konsekvent, aktualitet och noggrannhet. Vidare innebär datakvalitet att data ska vara användbart, dokumenterat men också reproducerbart/verifierbart.

Insamling, bevarande, formatering är aktiviteter som påverkar datakvalitet och ansvaret på datakvalitet finns hos den som samlar in den men också den som tar hand om bevarandet av data. Bevarandet tas hand om av både arkivarier och bibliotekarier. Arkivarier ser till att det långtidsbevaras och bibliotekarier att lämplig metadata läggs till. Det är ofta bibliotekarier som ser till att dataset är tillgängliga för andra. Dataset blir inte tillgängliga automatisk bara för att de arkiveras och bevaras.

Dokumentation av data handlar om att andra som ser dina data kan lita på dina data genom att data går att validera, reproducera och använda igen. Det är viktigt att dokumentera data för att det bidrar till datakvalitet och användbarhet för både forskaren själv, dennes kollegor, studenter och andra. Att faktiskt skriva analysen från data kan gå lättare och vara mindre stressigt när data från början är välbeskrivet. När data är välbeskrivet och strukturerat kan arbete i forskningsgrupp underlättas och eventuella frågor vid peer review processen kan bli enklare att besvara.

Forskning mäts idag med olika mått där antalet citeringar är ett mått. Går data att citera kan det kanske ge forskaren fördelar i ansökningsprocessen för forskningsmedel, i ansökan att bli befordrat. Dokumentation ökar integritet i forskningen när forskningsprocessen blir mer transparent. Det kan tänkas att det ökar allmänhetens tillit i den forskningen som görs. Och om inte allmänhetens tillit ökar så påverkar det kanske forskande kollegors tillit.

Harvard Business Review (HBR) har publicerat en artikel där det skrivs att IBM uppskattar årskostnaden på dålig data upp till $3.1 biljoner (trillion) i 2016. Alltså finns det mycket att göra när det gäller datakvalitet. Kostnadsuppskattningen baseras på den tiden och kostnaderna som läggs på att anpassa data till det arbete som beslutsfattare, ledare, kunskapsarbetare, datavetare lägger på felaktig data som de behöver i sitt arbete. Denna kostnad är i huvudsak relaterat till kostnaderna som uppstår i organisationer där t.ex. säljavdelningen får en order fel som sedan ärvs av nästa avdelning, inte data producerat i forskningssyfte. Icke desto mindre är det viktigt att även fundera på kostnaderna (som inte behöver vara i pengar) inom forskningsvärlden.

Retraction watch, en blogg som om spårar återkallade publikationer, rapporterar om ett fall där forskaren upptäckte problem i databasen han använde för att undersöka trender i mönster för utdöende av arter. Problemet forskaren upptäckte har påverkat två publikationer där den ena har återkallats av tidskriften. I detta fall fanns det problem i datainsamlingen och databasen som påverkade analysen. När felen var rättade kom forskare fram till en annan slutsats.

Här kan du se exempel på dålig data. Klicka på en bild för att komma vidare till en förklaring vad som är problemet med just det data.

För arbete med forskningsdata har Svensk Nationell Datatjänst information om datahanteringsplan och en checklista för datahanteringsplan.

Pieta Eklund