Det är älska dina data -vecka som vi skrev förra veckan. Denna internationella vecka syftar till att uppmärksamma forskningsdata och hjälpa forskare att komma igång med att ta bättre hand om sina data. Detta inlägg handlar om datakvalitet och dokumentering av forskningsdata. I dokumentering ingår även att beskriva sina data. I huvudsak talar vi om kvantitativ data även om kvalitativ data också behöver hanteras och beskrivas. Forskare med kvalitativa data verkar vara mer bekymrade över etiska frågor så som anonymisering, konfidentialitet och att någon annan ska använda deras kvalitativa data i ett annat syfte än vad insamlingen av data hade.
Datakvalitet handlar om kvalitet på innehållet (värden) på datasetet. Det betyder att data ska vara komplett (all data behöver finnas), precist och aktuellt. Datakvalitet innebär också fullständighet, validitet, konsekvent, aktualitet och noggrannhet. Vidare innebär datakvalitet att data ska vara användbart, dokumenterat men också reproducerbart/verifierbart.
Insamling, bevarande, formatering är aktiviteter som påverkar datakvalitet och ansvaret på datakvalitet finns hos den som samlar in den men också den som tar hand om bevarandet av data. Bevarandet tas hand om av både arkivarier och bibliotekarier. Arkivarier ser till att det långtidsbevaras och bibliotekarier att lämplig metadata läggs till. Det är ofta bibliotekarier som ser till att dataset är tillgängliga för andra. Dataset blir inte tillgängliga automatisk bara för att de arkiveras och bevaras.
Dokumentation av data handlar om att andra som ser dina data kan lita på dina data genom att data går att validera, reproducera och använda igen. Det är viktigt att dokumentera data för att det bidrar till datakvalitet och användbarhet för både forskaren själv, dennes kollegor, studenter och andra. Att faktiskt skriva analysen från data kan gå lättare och vara mindre stressigt när data från början är välbeskrivet. När data är välbeskrivet och strukturerat kan arbete i forskningsgrupp underlättas och eventuella frågor vid peer review processen kan bli enklare att besvara.
Forskning mäts idag med olika mått där antalet citeringar är ett mått. Går data att citera kan det kanske ge forskaren fördelar i ansökningsprocessen för forskningsmedel, i ansökan att bli befordrat. Dokumentation ökar integritet i forskningen när forskningsprocessen blir mer transparent. Det kan tänkas att det ökar allmänhetens tillit i den forskningen som görs. Och om inte allmänhetens tillit ökar så påverkar det kanske forskande kollegors tillit.
Harvard Business Review (HBR) har publicerat en artikel där det skrivs att IBM uppskattar årskostnaden på dålig data upp till $3.1 biljoner (trillion) i 2016. Alltså finns det mycket att göra när det gäller datakvalitet. Kostnadsuppskattningen baseras på den tiden och kostnaderna som läggs på att anpassa data till det arbete som beslutsfattare, ledare, kunskapsarbetare, datavetare lägger på felaktig data som de behöver i sitt arbete. Denna kostnad är i huvudsak relaterat till kostnaderna som uppstår i organisationer där t.ex. säljavdelningen får en order fel som sedan ärvs av nästa avdelning, inte data producerat i forskningssyfte. Icke desto mindre är det viktigt att även fundera på kostnaderna (som inte behöver vara i pengar) inom forskningsvärlden.
Retraction watch, en blogg som om spårar återkallade publikationer, rapporterar om ett fall där forskaren upptäckte problem i databasen han använde för att undersöka trender i mönster för utdöende av arter. Problemet forskaren upptäckte har påverkat två publikationer där den ena har återkallats av tidskriften. I detta fall fanns det problem i datainsamlingen och databasen som påverkade analysen. När felen var rättade kom forskare fram till en annan slutsats.
Här kan du se exempel på dålig data. Klicka på en bild för att komma vidare till en förklaring vad som är problemet med just det data.
För arbete med forskningsdata har Svensk Nationell Datatjänst information om datahanteringsplan och en checklista för datahanteringsplan.
Pieta Eklund