Annotating speaker stance in discourse: the Brexit Blog Corpus (BBC)

Skapare/primärforskare:

Andreas Kerren - Linnéuniversitetet orcid

Carita Paradis - Lunds universitet, Språk- och litteraturcentrum orcid

Beskrivning:

I studien har man undersökt i vilken utsträckning språkanvändare är överens om vilka ståndpunkter som uttrycks i vardagligt språk eller om tolkningarna skiljer sig åt. För att utföra denna uppgift utvecklades ett omfattande kognitivt-funktionellt ramverk bestående av tio kategorier som representerade olika inställningar och som baserades på tidigare arbeten om talares uppfattning som finns i litteraturen. En korpus av åsiktsladdade texter, där talare tar ställning och positionerar sig, sammanställdes genom The Brexit Blog Corpus (BBC). Ett analytiskt gränssnitt för annoteringarna upprättades och data annoterades av två oberoende annotatorer. Annoteringsförfarandet, överenskommelsen om hur annoteringen skulle bedrivas och förekomsten av mer än en inställningskategori bland de studerade uttalandena finns beskrivna. Den noggranna analytiska annoteringsprocessen har hög utsträckning lett till tillfredsställande inter- och intra-annoteringar, vilket i den slutliga versionen av BBC resulterade i en guldstandardkorpus

Hemsida:

Ladda ner data:

Brexit blog corpus - Excel Brexit blog corpus - textfiler

Skapare/primärforskare:

Andreas Kerren - Linnéuniversitetet orcid

Carita Paradis - Lunds universitet, Språk- och litteraturcentrum orcid

Identifierare:

SND-ID: SND 1037

Syfte:

Syftet med studien är att undersöka om det är möjligt att identifiera olika talares inställning i diskursen genom att tillhandahålla en analytisk resurs för detta och därefter utvärdera nivån av enighet mellan olika talare i diskursen.

Beskrivning:

I studien har man undersökt i vilken utsträckning språkanvändare är överens om vilka ståndpunkter som uttrycks i vardagligt språk eller om tolkningarna skiljer sig åt. För att utföra denna uppgift utvecklades ett omfattande kognitivt-funktionellt ramverk bestående av tio kategorier som representerade olika inställningar och som baserades på tidigare arbeten om talares uppfattning som finns i litteraturen. En korpus av åsiktsladdade texter, där talare tar ställning och positionerar sig, sammanställdes genom The Brexit Blog Corpus (BBC). Ett analytiskt gränssnitt för annoteringarna upprättades och data annoterades av två oberoende annotatorer. Annoteringsförfarandet, överenskommelsen om hur annoteringen skulle bedrivas och förekomsten av mer än en inställningskategori bland de studerade uttalandena finns beskrivna. Den noggranna analytiska annoteringsprocessen har hög utsträckning lett till tillfredsställande inter- och intra-annoteringar, vilket i den slutliga versionen av BBC resulterade i en guldstandardkorpus

Språk:

Engelska

Tidsperiod(er) som undersökts:

2015-06-01 — 2016-05-31

Analysenhet:

Finansiering:

Vetenskapsrådet —2012-5659

Kontaktperson för frågor om data:

Andreas Kerren

Publikationer

Sortera på namn | Sortera efter år

Vasiliki Simaki, Carita Paradis, Maria Skeppstedt, Magnus Sahlgren, Kostiantyn Kucher, and Andreas Kerren. Annotating speaker stance in discourse: the Brexit Blog Corpus. In Corpus Linguistics and Linguistic Theory, 2017. De Gruyter, published electronically before print. https://doi.org/10.1515/cllt-2016-0060

Om du publicerat något baserat på det här datamaterialet, meddela gärna SND en referens till din(a) publikation(er).

Version 1.0:

2017-10-13 doi:10.5878/002925

Ladda ner data:

Brexit blog corpus - Excel Brexit blog corpus - textfiler

Brexit Blog Corpus (BBC)

Citering:

Andreas Kerren, Carita Paradis. Linnéuniversitetet, Institutionen för datavetenskap (2017). Brexit Blog Corpus (BBC). Svensk nationell datatjänst. Version 1.0. https://doi.org/10.5878/002925

Beskrivning:

BBC är en samling av texter som hämtats från bloggar. Korpustexterna är tematiskt relaterade till den brittiska folkomröstningen 2016 som gällde huruvida Storbritannien borde förbli medlemmar i Europeiska unionen eller ej. Texterna extraherades från Internet under perioden juni till augusti 2015. Med Gavagai API (https://developer.gavagai.se) hittades texterna med hjälp av nyckelord som: Brexit, EU referendum, pro-Europe, europhiles, eurosceptics, United States of Europe, David Cameron, eller Do

... Visa mer..

Dataformat / datastruktur:

Text

Datainsamling:

Tidsperiod(er) för datainsamling: 2015-06-01 — 2016-05-31

Datakälla: Forskningsdata

Variabler:

8

Antal individer/objekt:

1682