Gold standard for English-Swedish Europarl data (GES)

SND-ID: EXT 0283

Beskrivning Data och dokumentation

Skapare/primärforskare

Lars Ahrenberg - Linköpings universitet, Institutionen för datavetenskap

Maria Holmqvist - Linköpings universitet, Institutionen för datavetenskap

Beskrivning

En referenskorpus för ordlänkning uppdelad på tränings- och testdata. Meningarna är hämtade från Europarl engelska respektive svenska delar.
Huvudman, medverkande och finansiering
Skyddsvärde och etikprövning
Metod
Språkresurser

Resurstyp

Korpus

Tänkt användning

Språkteknologiskt datorprogram

Text corpus

  • Antal språk

    Tvåspråkig
  • Språk

    • (eng)

    • (swe)

      Meningar: 1164

    Mer..
  • Modalitet

    Skriftspråk
  • Storlek

    Meningar: 1164

  • Uppmärkning

    • Länkning

      Manuell uppmärkning

Geografisk täckning
Publikationer

Maria Holmqvist and Lars Ahrenberg (2011). A Gold Standard for English-Swedish Word Alignment. In Proceedings of the 18th Nordic Conference on Computational Linguistics, Riga, Latvia, May 11-13, 2011.

Om du publicerat något baserat på det här datamaterialet, meddela gärna SND en referens till din(a) publikation(er). Är du ansvarig för katalogposten kan du själv uppdatera metadata/databeskrivningen via DORIS.

Dataset
Engelsk-svensk guldstandard för ordlänkning (GES)

Beskrivning

Data är skapade från den engelsk-svenska delen av den parallella korpusen Europarl och utgörs, för varje meningspar, av par av tokenidentifierare på formen n-m där n och m är heltal.

Dataformat / datastruktur

Numeriska

Text

Skapare/primärforskare

Lars Ahrenberg - Linköpings universitet, Institutionen för datavetenskap

Maria Holmqvist - Linköpings universitet, Institutionen för datavetenskap

Licens

Creative Commons  Erkännande 4.0 Internationell (CC BY 4.0)