Annotating speaker stance in discourse: the Brexit Blog Corpus (BBC)

SND-ID: SND 1037

Beskrivning Data och dokumentation

Skapare/primärforskare

Andreas Kerren - Linnéuniversitetet orcid

Carita Paradis - Lunds universitet, Språk- och litteraturcentrum orcid

Beskrivning

I studien har man undersökt i vilken utsträckning språkanvändare är överens om vilka ståndpunkter som uttrycks i vardagligt språk eller om tolkningarna skiljer sig åt. För att utföra denna uppgift utvecklades ett omfattande kognitivt-funktionellt ramverk bestående av tio kategorier som representerade olika inställningar och som baserades på tidigare arbeten om talares uppfattning som finns i litteraturen. En korpus av åsiktsladdade texter, där talare tar ställning och positionerar sig, sammanställdes genom The Brexit Blog Corpus (BBC). Ett analytiskt gränssnitt för annoteringarna upprättades och data annoterades av två oberoende annotatorer. Annoteringsförfarandet, överenskommelsen om hur annoteringen skulle bedrivas och förekomsten av mer än en inställningskategori bland de studerade uttalandena finns beskrivna. Den noggranna analytiska annoteringsprocessen har hög utsträckning lett till tillfredsställande inter- och intra-annoteringar, vilket i den slutliga versionen av BBC resulterade i en guldstandardkorpus

Syfte:

Syftet med studien är att undersöka om det är möjligt att identifiera olik

... Visa mer..

Språk

Engelska

Huvudman, medverkande och finansiering

Forskningshuvudman

Linnéuniversitetet

Finansiering

  • Finansiär: Vetenskapsrådet
  • Diarienummer hos finansiär: 2012-5659
Skyddsvärde och etikprövning
Metod

Analysenhet

Tidsperiod(er) som undersökts

2015-06-01–2016-05-31

Geografisk täckning
Publikationer

Vasiliki Simaki, Carita Paradis, Maria Skeppstedt, Magnus Sahlgren, Kostiantyn Kucher, and Andreas Kerren. Annotating speaker stance in discourse: the Brexit Blog Corpus. In Corpus Linguistics and Linguistic Theory, 2017. De Gruyter, published electronically before print. https://doi.org/10.1515/cllt-2016-0060

Om du publicerat något baserat på det här datamaterialet, meddela gärna SND en referens till din(a) publikation(er). Är du ansvarig för katalogposten kan du själv uppdatera metadata/databeskrivningen via DORIS.

Dataset
Brexit Blog Corpus (BBC)

Ladda ner data

Beskrivning

BBC är en samling av texter som hämtats från bloggar. Korpustexterna är tematiskt relaterade till den brittiska folkomröstningen 2016 som gällde huruvida Storbritannien borde förbli medlemmar i Europeiska unionen eller ej. Texterna extraherades från Internet under perioden juni till augusti 2015. Med Gavagai API (https://developer.gavagai.se) hittades texterna med hjälp av nyckelord som: Brexit, EU referendum, pro-Europe, europhiles, eurosceptics, United States of Europe, David Cameron, eller Do

... Visa mer..

Version 1.0

Citering

Andreas Kerren, Carita Paradis. Linnéuniversitetet, Institutionen för datavetenskap (2017). <em>Brexit Blog Corpus (BBC)</em>. Svensk nationell datatjänst. Version 1.0. <a href="https://doi.org/10.5878/002925">https://doi.org/10.5878/002925</a>

Ladda ner citering

Dataformat / datastruktur

Text

Skapare/primärforskare

Andreas Kerren - Linnéuniversitetet orcid

Carita Paradis - Lunds universitet, Språk- och litteraturcentrum orcid

Datainsamling

  • Tidsperiod(er) för datainsamling: 2015-06-01–2016-05-31
  • Datakälla: Forskningsdata

Variabler

8

Antal individer/objekt

1682

Hemsida

Kontakt för frågor om data

Publicerad: 2017-10-16
Senast uppdaterad: 2019-01-15