Tekstkorpus

I dag har Tekstkorpus blitt et tema av generell interesse for et stort antall mennesker rundt om i verden. Dens relevans og virkning dekker flere aspekter av dagliglivet, fra helse til teknologi, inkludert politikk, kultur og økonomi. Tekstkorpus er et tema som skaper debatt og kontrovers, men som også vekker interesse og nysgjerrighet, noe som gjør det til et møtepunkt for mennesker fra ulike felt og interesser. I denne artikkelen vil vi utforske i dybden betydningen og omfanget av Tekstkorpus, samt dens utvikling over tid og dens innflytelse på dagens samfunn.

Tekstkorpus (flertall: -korpora, fra latin: «legeme»), eller korpus, flertall korpora, er en samling av maskinelt lesbare tekster som tjener et bestemt formål, samt overholder regler for innhold og format.

For språkforskere (datalingvister) er tekstkorpus et stort og strukturert sett av tekster (vanligvis elektronisk lagret og prosessert), som benyttes som utgangspunkt for analyser av språk. Til støtte for analysen er tekstenes ord ofte annoterte, det vil si forsynet med opplysning om ordklasse, ordstamme eller faste vendinger. På grunnlag av dette analyseres setningers grammatiske struktur. Anvendelsesområder er oversettelse og talegjenkjennelse.

Arkeologisk korpora

Tekstkorpora er også benyttet i studiet av historiske dokumenter, for eksempel i forsøk på å tyde eller dekryptere oldtidstekster, eller i tekstkritisk bibelforskning. En del arkeologisk korpora kan være av slik kort varighet at de gir et øyeblikksbilde av tiden. En av de korteste i så måte kan være Amarnabrevene (rundt 1350 f.Kr.) som strakte seg 15-30 år i tid. Korpus til en oldtidsby, eksempelvis Kültepetekstene i Kanesj i dagens Tyrkia, kan gå gjennom en rekke av korpora, bestemt av dateringen av deres funnsteder.

Kjente tekstkorpora

Referanser

  1. ^ Bokmålsordboka: «Korpus»; kan også henvise til den vanligste skrifttypestørrelsen i aviser og bøker.
  2. ^ Leech, Geoffrey; Garside, Roger; Bryant, Michael (1994): The large-scale grammatical tagging of text: Experience with the British National Corpus. Netherlands: Rodopi Publishers. s. 47-63.