Označavanje gena, obilježavanje gena ili anotacija gena i/ili DNK/genoma je postupak identifikacije lokacije gena i svih kodirajućih regija u genomu i utvrđivanje njihovog djelovanja. Oznaka (bez obzira na kontekst) je dodatak u obliku objašnjenja ili komentara. Jednom kada se genom sekvencira, potrebno ga je označiti da bi to imalo smisla.
Za obilježavanje DNK, prethodno nepoznata sekvenca predstavljanja genetičkog materijala obogaćena je informacijama koje se odnose genomski položaj do granica intron – egzon, regulacijska sekvenca , ponavljanja, imena gena i proteinskih proizvoda. Ova oznaka pohranjena je u genomskim bazama podataka kao to su Informatika o mišjem genomu, FlyBaza i WormBaza. Obrazovni materijali o nekim aspektima bioloških anotacija iz 2006 Gene Ontology anotacijskog kampa i slični događaji dostupni su na web lokaciji Gene Ontology.
Nacionalni centar za biomedicinsku ontologiju (www.bioontology.org) razvio je alate za automatizirano označavanje oznaka baze podataka na osnovu tekstnih opisa tih zapisa.
Kao općeniti metod, dcGO ima automatiziranu proceduru za statističko zaključivanje asocijacija između pojmova ontologije i proteinskih domena ili kombinacija domena iz postojećih zapisa na nivou gena/proteina.
Anotacija genoma sastoji se od tri glavna koraka:
Alati za automatsko bilježenje pokušavaju izvršiti ove korake računarskom analizom, za razliku od ručne anotacije (tzv. kuracije ili nadgledanja) koja uključuje ljudsku stručnost. U idealnom slučaju, ovi pristupi koegzistiraju i nadopunjuju se u istoj oznaci kanala.
Jednostavan metod anotacije gena oslanja se na alate pretraživanja zasnovane na homologiji, poput BLAST, za traženje homolognih gena u određenim bazama podataka, a rezultirajuće informacije se zatim koriste za označavanje gena i genoma. Međutim, kako se informacije dodaju na platformu za označavanje, ručni bilježnici postaju sposobni ukloniti odstupanja između gena kojima se daje ista bilješka. Neke baze podataka koriste informacije o kontekstu genoma, ocjene sličnosti, eksperimentalne podatke i integracije drugih resursa za pružanje anotacija genoma kroz svoj pristup podsistemima. Ostale baze podataka (npr. Ensembl oslanjaju se na kurirane izvore podataka, kao i na niz različitih softverskih alata u svom automatiziranom kanalu za oznake genoma.
Strukturno označavanje sastoji se od identifikacije genomskih elemenata:
Funkcijske oznake sastoje se od vezanja bioloških informacija o genomskim elementima.
Ovi koraci mogu uključivati i biološke eksperimente i analizu in silico . Pristupi zasnovani na proteogenomici koriste informacije iz eksprimiranih proteina, često izvedenih iz analize masenom spektrometrijom, za poboljšanje genomskih zapisa.
Razvijeni su razni softverski alati koji omogućavaju da se gledaju i dijele komentari o genomu; naprimjer, MAKER.
Anotacija genoma ostaje glavni izazov za naučnike koji istražuju ljudski genom, sada kada su uglavnom dovršene sekvence genoma više od hiljadu ljudi (The 100.000 Genomes Project, UK) i nekoliko model organizama. Identificiranje lokacija gena i drugih genetičkih kontrolnih elemenata često se opisuje kao definiranje biološke "liste dijelova" za sklop i normalan rad organizma. Nauka je još uvijek u ranoj fazi procesa definiranja ovog popisa dijelova i razumijevanja kako se svi dijelovi "uklapaju".
Označavanje genoma aktivno je područje istraživanja i uključuje niz različitih organizacija u zajednici nauka o životu, koje objavljuju rezultate napora u javnim biološkim bazama podataka, dostupnim putem Interneta i drugih elektronskih sredstava. Evo abecednog popisa tekućih projekata relevantnih za označavanje genoma:
Na Wikipediji, anotacije genoma počele su se automatizirati pod pokroviteljstvom portala Gene Wiki kojim upravlja bot koji prikuplja genetičke podatke iz istraživačkih baza podataka i kreira genske isječke na na toj osnovi.