Annotating speaker stance in discourse: the Brexit Blog Corpus (BBC)

Skapare/primärforskare:

Andreas Kerren - Linnéuniversitetet orcid

Carita Paradis - Lunds universitet, Språk- och litteraturcentrum orcid

Beskrivning:

I studien har man undersökt i vilken utsträckning språkanvändare är överens om vilka ståndpunkter som uttrycks i vardagligt språk eller om tolkningarna skiljer sig åt. För att utföra denna uppgift utvecklades ett omfattande kognitivt-funktionellt ramverk bestående av tio kategorier som representerade olika inställningar och som baserades på tidigare arbeten om talares uppfattning som finns i litteraturen. En korpus av åsiktsladdade texter, där talare tar ställning och positionerar sig, sammanställdes genom The Brexit Blog Corpus (BBC). Ett analytiskt gränssnitt för annoteringarna upprättades och data annoterades av två oberoende annotatorer. Annoteringsförfarandet, överenskommelsen om hur annoteringen skulle bedrivas och förekomsten av mer än en inställningskategori bland de studerade uttalandena finns beskrivna. Den noggranna analytiska annoteringsprocessen har hög utsträckning lett till tillfredsställande inter- och intra-annoteringar, vilket i den slutliga versionen av BBC resulterade i en guldstandardkorpus

Syfte:

Syftet med studien är att undersöka om det är möjligt att identifiera olik

... Visa mer..

Ansvarig institution/enhet:

Linnéuniversitetet, Institutionen för datavetenskap

Skapare/primärforskare:

Andreas Kerren - Linnéuniversitetet orcid

Carita Paradis - Lunds universitet, Språk- och litteraturcentrum orcid

Identifierare:

SND-ID: SND 1037

Beskrivning:

I studien har man undersökt i vilken utsträckning språkanvändare är överens om vilka ståndpunkter som uttrycks i vardagligt språk eller om tolkningarna skiljer sig åt. För att utföra denna uppgift utvecklades ett omfattande kognitivt-funktionellt ramverk bestående av tio kategorier som representerade olika inställningar och som baserades på tidigare arbeten om talares uppfattning som finns i litteraturen. En korpus av åsiktsladdade texter, där talare tar ställning och positionerar sig, sammanställdes genom The Brexit Blog Corpus (BBC). Ett analytiskt gränssnitt för annoteringarna upprättades och data annoterades av två oberoende annotatorer. Annoteringsförfarandet, överenskommelsen om hur annoteringen skulle bedrivas och förekomsten av mer än en inställningskategori bland de studerade uttalandena finns beskrivna. Den noggranna analytiska annoteringsprocessen har hög utsträckning lett till tillfredsställande inter- och intra-annoteringar, vilket i den slutliga versionen av BBC resulterade i en guldstandardkorpus

Syfte:

Syftet med studien är att undersöka om det är möjligt att identifiera olik

... Visa mer..

Språk:

Engelska

Tidsperiod(er) som undersökts:

2015-06-01 — 2016-05-31

Analysenhet:

Finansiering:

Vetenskapsrådet — dnr 2012-5659

Kontakt för frågor om data:

Andreas Kerren

Ladda ner metadata:

Publikationer

Sortera på namn | Sortera efter år

Vasiliki Simaki, Carita Paradis, Maria Skeppstedt, Magnus Sahlgren, Kostiantyn Kucher, and Andreas Kerren. Annotating speaker stance in discourse: the Brexit Blog Corpus. In Corpus Linguistics and Linguistic Theory, 2017. De Gruyter, published electronically before print. https://doi.org/10.1515/cllt-2016-0060

Om du publicerat något baserat på det här datamaterialet, meddela gärna SND en referens till din(a) publikation(er).

Version 1.0:

2017-10-13 doi:10.5878/002925

Ladda ner data:

Brexit Blog Corpus (BBC)

Citeringsförslag:

Andreas Kerren, Carita Paradis. Linnéuniversitetet, Institutionen för datavetenskap (2017). Brexit Blog Corpus (BBC). Svensk nationell datatjänst. Version 1.0. https://doi.org/10.5878/002925

Skapare/primärforskare:

Andreas Kerren - Linnéuniversitetet orcid

Carita Paradis - Lunds universitet, Språk- och litteraturcentrum orcid

Beskrivning:

BBC är en samling av texter som hämtats från bloggar. Korpustexterna är tematiskt relaterade till den brittiska folkomröstningen 2016 som gällde huruvida Storbritannien borde förbli medlemmar i Europeiska unionen eller ej. Texterna extraherades från Internet under perioden juni till augusti 2015. Med Gavagai API (https://developer.gavagai.se) hittades texterna med hjälp av nyckelord som: Brexit, EU referendum, pro-Europe, europhiles, eurosceptics, United States of Europe, David Cameron, eller Do

... Visa mer..

Dataformat / datastruktur:

Text

Datainsamling:

Tidsperiod(er) för datainsamling: 2015-06-01 — 2016-05-31

Datakälla: Forskningsdata

Variabler:

8

Antal individer/objekt:

1682

Publicerad: 2017-10-16