Nykymaailmassa GPT (kielimalliperhe) on saavuttanut vertaansa vailla olevan merkityksen. GPT (kielimalliperhe) on yhteiskunnallisen vaikutuksensa, populaarikulttuurin vaikutuksensa tai historiallisen merkityksensä vuoksi aihe, joka ansaitsee analysoinnin ja keskustelun. GPT (kielimalliperhe) on jättänyt lähtemättömän jäljen ihmiskuntaan alkuperästään tämän päivän vaikutuksiinsa. Tässä artikkelissa tutkimme yksityiskohtaisesti kaikkia GPT (kielimalliperhe):een liittyviä näkökohtia ja pyrimme ymmärtämään sen tärkeyden ja merkityksen eri yhteyksissä. Pyrimme valaisemaan GPT (kielimalliperhe):tä ja sen vaikutuksia nyky-yhteiskunnassa perusteellisen analyysin ja kriittisen tarkastelun avulla.
GPT (Lyhenne sanoista Generative pre-trained transformer) on OpenAI:n kehittämä kielimallien perhe, jotka on koulutettu suurilla tekstikorpuksilla siten, että ne voivat luoda ihmismäistä tekstiä. Mallit on kehitetty käyttäen transformer-arkkitehtuuria. Niitä voidaan hienosäätää erilaisiin luonnollisen kielenkäsittelyn tehtäviin, kuten tekstin luomiseen, käännöksiin ja tekstinluokitteluun. Nimen "pre-training"-osio (suom. esikoulutus) viittaa mallien kehityksen alussa tapahtuvaan koulutusprosessiin suurella tekstikorpuksella, jossa malli oppii ennustamaan seuraavan sanan tekstikatkelmassa. Tämä antaa vankan pohjan mallille toimia hyvin erilaisten tehtävien parissa, joissa on rajalliset määrät tehtäväkohtaista dataa.
OpenAI julkaisi 11. kesäkuuta 2018 raportin "Improving Language Understanding by Generative Pre-Training", jossa he esittelivät GPT:n. Tuolloin parhaiten suoriutuvat neuroverkkoja käyttävät luonnolliset kielenkäsittelymallit nojasivat enimmäkseen ohjattuun oppimiseen suurista määristä manuaalisesti merkittyä dataa. Tämä riippuvuus ohjattuun oppimiseen rajoitti niiden käyttöä huonosti annotoiduissa tietojoukoissa, ja teki erittäin suurten mallien kouluttamisen kalliiksi ja aikaa vieväksi. Monet kielet (kuten swahili tai haitinkreoli) ovat vaikeita kääntää ja tulkita tällaisten mallien avulla johtuen saatavilla olevan tekstin puutteesta korpuksen rakentamiseen. Sen sijaan GPT:n puolivalvottu lähestymistapa sisälsi kaksi vaihetta: valvomattoman generatiivisen esikoulutusvaiheen, jossa kielen mallinnustavoitetta käytettiin alkuparametrien asettamiseen, ja valvotun erottelevan hienosäätövaiheen, jossa näitä parametreja mukautettiin kohdetehtävään.
Käyttötarkoitus | Parametrien määrä | Koulutusdata | Julkaisupäivä | |
---|---|---|---|---|
GPT-1 | Yleinen | 117 miljoonaa | BookCorpus : 4,5 Gt tekstiä 7000 julkaisemattomasta kirjasta. | 11. kesäkuuta 2018 |
GPT-2 | Yleinen | 1,5 miljardia | WebText: 40 Gt tekstiä, 8 miljoonaa asiakirjaa, 45 miljoonalta Redditissä positiivisesti äänestettyä verkkosivua. | 14. helmikuuta 2019 |
GPT-3 | Yleinen | 175 miljardia | 570 Gt selkeää tekstiä, 0,4 biljoonaa tokenia. Enimmäkseen CommonCrawl, WebText, englanninkielinen Wikipedia ja kaksi kirjakokoelmaa (Kirjat1 ja Kirjat2). | 11. kesäkuuta 2020 |
InstructGPT | Keskustelu | 175 miljardia | ? | 4. maaliskuuta 2022 |
ProtGPT2 | Proteiinisekvenssit | 738 miljoonaa | Proteiinisekvenssit UniRef50:stä (yhteensä 44,88 miljoonaa, kun validointiin oli käytetty 10 %) | 27. heinäkuuta 2022 |
BioGPT | Biolääketiede | 347 miljoonaa | PubMed (yhteensä 1,5 miljoonaa) | 24. syyskuuta 2022 |
GPT-3.5 | Dialogi | ? | ? | 30. marraskuuta 2022 |
GPT-4 | Yleinen | ? | ? | 14. maaliskuuta. 2023 |
|