Annotating speaker stance in discourse: the Brexit Blog Corpus (BBC)

Skapare/primärforskare

Andreas Kerren - Linnéuniversitetet orcid

Carita Paradis - Lunds universitet, Språk- och litteraturcentrum orcid

Beskrivning

I studien har man undersökt i vilken utsträckning språkanvändare är överens om vilka ståndpunkter som uttrycks i vardagligt språk eller om tolkningarna skiljer sig åt. För att utföra denna uppgift utvecklades ett omfattande kognitivt-funktionellt ramverk bestående av tio kategorier som representerade olika inställningar och som baserades på tidigare arbeten om talares uppfattning som finns i litteraturen. En korpus av åsiktsladdade texter, där talare tar ställning och positionerar sig, sammanställdes genom The Brexit Blog Corpus (BBC). Ett analytiskt gränssnitt för annoteringarna upprättades och data annoterades av två oberoende annotatorer. Annoteringsförfarandet, överenskommelsen om hur annoteringen skulle bedrivas och förekomsten av mer än en inställningskategori bland de studerade uttalandena finns beskrivna. Den noggranna analytiska annoteringsprocessen har hög utsträckning lett till tillfredsställande inter- och intra-annoteringar, vilket i den slutliga versionen av BBC resulterade i en guldstandardkorpus

Syfte:

Syftet med studien är att undersöka om det är möjligt att identifiera olik

... Visa mer..

Ämnesområde

Ansvarig institution/enhet

Linnéuniversitetet, Institutionen för datavetenskap

Skapare/primärforskare

Andreas Kerren - Linnéuniversitetet orcid

Carita Paradis - Lunds universitet, Språk- och litteraturcentrum orcid

Identifierare

SND-ID: SND 1037

Beskrivning

I studien har man undersökt i vilken utsträckning språkanvändare är överens om vilka ståndpunkter som uttrycks i vardagligt språk eller om tolkningarna skiljer sig åt. För att utföra denna uppgift utvecklades ett omfattande kognitivt-funktionellt ramverk bestående av tio kategorier som representerade olika inställningar och som baserades på tidigare arbeten om talares uppfattning som finns i litteraturen. En korpus av åsiktsladdade texter, där talare tar ställning och positionerar sig, sammanställdes genom The Brexit Blog Corpus (BBC). Ett analytiskt gränssnitt för annoteringarna upprättades och data annoterades av två oberoende annotatorer. Annoteringsförfarandet, överenskommelsen om hur annoteringen skulle bedrivas och förekomsten av mer än en inställningskategori bland de studerade uttalandena finns beskrivna. Den noggranna analytiska annoteringsprocessen har hög utsträckning lett till tillfredsställande inter- och intra-annoteringar, vilket i den slutliga versionen av BBC resulterade i en guldstandardkorpus

Syfte:

Syftet med studien är att undersöka om det är möjligt att identifiera olik

... Visa mer..

Språk

Engelska

Tidsperiod(er) som undersökts

2015-06-01 — 2016-05-31

Analysenhet

Finansiering

Vetenskapsrådet — dnr 2012-5659

Ämnesområde

Kontakt för frågor om data

Andreas Kerren

Ladda ner metadata

Publikationer

Vasiliki Simaki, Carita Paradis, Maria Skeppstedt, Magnus Sahlgren, Kostiantyn Kucher, and Andreas Kerren. Annotating speaker stance in discourse: the Brexit Blog Corpus. In Corpus Linguistics and Linguistic Theory, 2017. De Gruyter, published electronically before print. https://doi.org/10.1515/cllt-2016-0060

Om du publicerat något baserat på det här datamaterialet, meddela gärna SND en referens till din(a) publikation(er).


Är du ansvarig för katalogposten kan du själv uppdatera metadata/databeskrivningen via DORIS.

Version 1.0

Ladda ner data

Brexit Blog Corpus (BBC)

Citeringsförslag

Andreas Kerren, Carita Paradis. Linnéuniversitetet, Institutionen för datavetenskap (2017). <em>Brexit Blog Corpus (BBC)</em>. Svensk nationell datatjänst. Version 1.0. <a href="https://doi.org/10.5878/002925">https://doi.org/10.5878/002925</a>

Skapare/primärforskare

Andreas Kerren - Linnéuniversitetet orcid

Carita Paradis - Lunds universitet, Språk- och litteraturcentrum orcid

Beskrivning

BBC är en samling av texter som hämtats från bloggar. Korpustexterna är tematiskt relaterade till den brittiska folkomröstningen 2016 som gällde huruvida Storbritannien borde förbli medlemmar i Europeiska unionen eller ej. Texterna extraherades från Internet under perioden juni till augusti 2015. Med Gavagai API (https://developer.gavagai.se) hittades texterna med hjälp av nyckelord som: Brexit, EU referendum, pro-Europe, europhiles, eurosceptics, United States of Europe, David Cameron, eller Do

... Visa mer..

Dataformat / datastruktur

Text

Datainsamling

Tidsperiod(er) för datainsamling: 2015-06-01 — 2016-05-31

Datakälla: Forskningsdata

Variabler

8

Antal individer/objekt

1682

Publicerad: 2017-10-16
Senast uppdaterad: 2019-01-15