Skapare/primärforskare
Peter M. Dahlgren
- Göteborgs universitet, Institutionen för journalistik, medier och kommunikation (JMG)
Beskrivning
Detta dataset innehåller nyhetsartiklar från svenska nyhetssajter under coronapandemin 2020–2021. Syftet var att utveckla och testa nya metoder för insamling och analyser av stora nyhetsmaterial. Totalt finns det 677 151 artiklar insamlade från 19 nyhetssajter under 2020-01-01 till 2021-04-26. Artiklarna samlades in genom web scraping av alla länkar på nyhetssajterna varannan timme, dag och natt.
Datasetet innehåller också cirka 45 miljoner tidsstämplar där artiklarna fanns på förstasidorna (hemsidorna och huvudavdelningarna på varje nyhetssajt, exempelvis inrikes, sport, ledare, etc.). Detta möjliggör detaljerad analys av vilka artiklar läsare sannolikt exponerades för när de besökte nyhetssajten ifråga. Tidsupplösningen är (som tidigare nämnts) två timmar, vilket innebär att du kan upptäcka förändringar i vilka artiklar som fanns på förstasidorna varannan timme.
De 19 nyhetssajterna är aftonbladet.se, arbetet.se, da.se, di.se, dn.se, etc.se, expressen.se, feministisktperspektiv.se, friatider.se, gp.se, nyatider.se , nyheteridag.se, samnytt.se, samtiden.nu, svd.se, sverigesradio.se, svt.se
Språk
Engelska
Svenska
Forskningshuvudman
Ansvarig institution/enhet
Institutionen för journalistik, medier och kommunikation (JMG)
Data innefattar personuppgifter
Nej
Analysenhet
Population
Nyhetsartiklar
Tidsdimension
Urvalsmetod
Tidsperiod(er) som undersökts
2021-01-01 – 2021-04-26
Geografisk utbredning
Geografisk plats: Sverige
Forskningsområde
Media, Språk och lingvistik, Folkhälsa
(CESSDA Topic Classification)
Språkteknologi (språkvetenskaplig databehandling), Medievetenskap
(Standard för svensk indelning av forskningsämnen 2011)
Nyckelord
Sortera på namn | Sortera efter år
Dahlgren, P. M. (2021). Svenskar eller utrikesfödda i medierna? – att identifiera födelseland från
namn. I L. Truedson & J. Lundqvist (Red.), Vitt eller brett? – vilka får ta plats i medier och på
redaktioner. Stockholm: Institutet för mediestudier.
ISBN:
978-91-987098-0-3
Dahlgren, P. M. (2021). Medieinnehåll och mediekonsumtion under coronapandemin: Datoriserade
metoder för insamling och analys av stora mängder text- och mediedata. Göteborg: Institutionen
för journalistik, medier och kommunikation (JMG), Göteborgs universitet.
ISSN:
1101-4679
Om du publicerat något baserat på det här datamaterialet, meddela gärna SND en referens till din(a) publikation(er). Är du ansvarig för katalogposten kan du själv uppdatera metadata/databeskrivningen via DORIS.
Ladda ner data
Tillhörande dokumentation
Beskrivning
Datasetet består av följande:
article_metadata.csv (53 MB): Filen innehåller information om varje nyhetsartikel, en artikel per rad. Totalt finns det 677,151 observationer och 17 variabler.
article_text.csv (236 MB): Filen innehåller id till varje nyhetsartikel och anger hur många gånger ett specifikt ord används i en nyhetsartikel. Filen innehåller 80,090,784 observationer and 3 variabler i long format.
frontpage_timestamps.csv (175 MB): Filen anger när varje nyhetsartikel hittades på första
Version 1
https://doi.org/10.5878/d18f-q220
Citering
Ladda ner citering
Dataformat / datastruktur
Text
Skapare/primärforskare
Peter M. Dahlgren
- Göteborgs universitet, Institutionen för journalistik, medier och kommunikation (JMG)
Nyckelord
Variabler
17
Antal individer/objekt
677151