Gold standard for English-Swedish Europarl data (GES)

SND-ID: EXT 0283

Beskrivning Data och dokumentation

Skapare/primärforskare

Lars Ahrenberg - Linköpings universitet, Institutionen för datavetenskap

Maria Holmqvist - Linköpings universitet, Institutionen för datavetenskap

Beskrivning

En referenskorpus för ordlänkning uppdelad på tränings- och testdata. Meningarna är hämtade från Europarl engelska respektive svenska delar.
Huvudman, medverkande och finansiering
Skyddsvärde och etikprövning
Metod
Språkresurser

Resurstyp

Korpus

Tänkt användning

Språkteknologiskt datorprogram

Text corpus

 • Antal språk

  Tvåspråkig
 • Språk

  • (eng)

  • (swe)

   Meningar: 1164

  Mer..
 • Modalitet

  Skriftspråk
 • Storlek

  Meningar: 1164

 • Uppmärkning

  • Länkning

   Manuell uppmärkning

Geografisk täckning
Publikationer

Maria Holmqvist and Lars Ahrenberg (2011). A Gold Standard for English-Swedish Word Alignment. In Proceedings of the 18th Nordic Conference on Computational Linguistics, Riga, Latvia, May 11-13, 2011.

Om du publicerat något baserat på det här datamaterialet, meddela gärna SND en referens till din(a) publikation(er). Är du ansvarig för katalogposten kan du själv uppdatera metadata/databeskrivningen via DORIS.

Dataset
Engelsk-svensk guldstandard för ordlänkning (GES)

Beskrivning

Data är skapade från den engelsk-svenska delen av den parallella korpusen Europarl och utgörs, för varje meningspar, av par av tokenidentifierare på formen n-m där n och m är heltal.

Dataformat / datastruktur

Numeriska

Text

Skapare/primärforskare

Lars Ahrenberg - Linköpings universitet, Institutionen för datavetenskap

Maria Holmqvist - Linköpings universitet, Institutionen för datavetenskap

Licens

Creative Commons Erkännande 4.0 Internationell (CC BY 4.0)