Förbered data för tillgängliggörande

Målet med att deponera forskningsdata i ett repositorium är att göra det möjligt för andra att granska forskningens resultat och återanvända data i vidare studier. För att senare användare ska kunna göra det behöver data organiseras och presenteras på ett självförklarande sätt. I ett certifierat repositorium (som SND) tillämpas en granskningsprocess, som innebär att inskickade data måste möta vissa minimikrav innan de publiceras. Därför är det viktigt att du som forskare är aktiv och delaktig under granskningsprocessen. Data som inte uppfyller kraven kommer att nekas publikation.

Det finns även repositorier som saknar granskningsprocess (dvs. icke-certifierade). Tänk på att vissa tidskrifter eller forskningsfinansiärer kräver att data deponeras i certifierade repositorier.

Följande punkter är bra att gå igenom:  

Datafiler 

  • I dagsläget får data som delas via SND:s datakatalog inte innehålla personuppgifter (undantaget data från Göteborgs universitet). Detta gäller även så kallade indirekta identifierare som i kombination med andra uppgifter kan röja en identitet. Data som innehåller personuppgifter och som har deponerats någon annanstans kan däremot beskrivas i katalogen. 
  • Datafiler bör ha ett vanligt förekommande filformat, som också är öppet och fritt tillgängligt (Se SND:s guider till god hantering av forskningsdata, och webbsidan om filformat).
  • Fil- och mappnamn ska vara konsekventa och begripliga. Filnamn med löpnummer eller kod behöver förklaras i exempelvis i en txt-fil.
  • Dataset som består av flera filer behöver struktureras på ett sätt som är tydligt för andra användare. Struktur och relation mellan filer kan vid behov förklaras i en txt-fil. 
  • I dagsläget görs alla data tillgängliga genom att paketeras i en övergripande .zip-fil. För stora dataset kan filstorleken bli problematisk vid nedladdning. Överväg om avgränsade datadelset kan eller bör publiceras fristående från varandra. Studier som består av flera sådana delset kan sedan kopplas ihop av SND.
  • Filerna bör vara rensade från ovidkommande information (t.ex. exempelvariabler som inte används eller som saknar betydelse för forskningsresultatet). 
  • Om möjligt, inkludera relevanta metadata i datafilerna (det kan vara variabelnamn och koder för variabelvärden för tabulära data, eller information om kodningsstandard, vad olika formateringar representerar osv. för textdata).
  • Se till att samtliga datafiler är kompletta och innehåller relevant information. 

Metadata 

Metadata är strukturerad information som används för att beskriva och kategorisera digital information. I SND:s forskningsdatakatalog underlättar metadata för andra att söka, hitta och förstå olika forskningsmaterial.

  • När du använder SND:s formulär för att beskriva data kommer metadata automatiskt att knytas till datafilerna.
  • Ju fler metadata som beskriver datafilerna, desto enklare är det för utomstående att förstå filernas innehåll. Obligatoriska fält anger miniminivån som SND kräver, i egenskap av certifierat repositorium. Uppgifter utöver miniminivån kan vara värdefulla för andra som är intresserade av dina data.
  • Tänk på att beskriva metadata så utförligt som möjligt. Till exempel, om projektets data handlar om fältarbete i Colombia och Peru, ange Colombia och Peru i fältet "Geografiskt område", istället för Sydamerika. 
  • Länka till artiklar eller andra publikationer som beskriver eller är baserade på studiens data. 

Dokumentation 

Relevant dokumentation måste bifogas till databeskrivningen för att framtida forskare ska kunna förstå och återanvända data. Tänk noggrant över vilken typ av dokumentation som behövs för att öka förståelsen för data.

Det kan till exempel handla om: 

  • Variabellistor med förklaringar över innehållet i varje variabel 
  • Frågeformulär eller enkäter 
  • Intervjuformulär inklusive intervjuguide  
  • Kodlistor och kodböcker 
  • Förteckning över datamaterialet 
  • Länkar till artiklar eller andra publikationer 
  • Metodbeskrivningar eller tekniska rapporter 
  • Information om bearbetade data, vilka bearbetningar som har gjorts och så vidare  
  • Syntax för härledda variabler 
  • Slutrapporter 
  • Instruktioner för egenutvecklad programvara som behövs för att hantera data 
  • Fältdagböcker eller loggböcker. 

SND har inga specifika krav på hur dokumentationen ska se ut. Hur dokumentation är utformad och benämns varierar över forskningsområden och inom discipliner. För SND är det innehållet i dokumenten som är det viktigaste.  

Om det inte finns någon färdig dokumentation kan relevant information sammanfattas i en ReadMe-fil (se exempelvis förslag på utformning framtaget av Cornell).

Är du osäker på vilken dokumentation som behövs är du välkommen att kontakta SND eller din organisations lokala datastödsenhet.