”ChatGPT fantasioi totaalisesti. Laskut, yritykset, luvut ja suoritukset olivat keksittyjä. Uskomattominta oli, että ohjelmisto ei halunnut myöntää tätä, vaan minun piti sanoa sille monta kertaa päin näköä, että sen puheet eivät ole totta. […]
Täytyy myöntää, että se kyllä valehteli hyvin. Kaikki oli uskottavaa ja vakuuttavasti ilmaistu. Mutta miksi se ei sanonut, että tehtävä oli sille liikaa? Nyt minun täytyy viedä itse 130 sivua kuitteja Exceliin saadakseni laskelmat tehtyä.”
Tuntematon käyttäjä eräässä AI-ryhmässä (käännös saksasta M.A.)
Ihmiset käsittävät tekoälyn monin eri tavoin. Toisille se on uhkaavaa tai kiehtovaa tieteisfantasiaa, toisille kätevä työkalu ja joillekin kaiken mahdollistava yliäly. Aika usein näihin käsityksiin liittyy myös ajatus tekoälystä ihmisälyn kaltaisena olentona, joka ymmärtää, käsittää, sanoo tai valehtelee. Kuitenkin tekoälyn taustalla toimii ”vain ja ainoastaan” joukko loogisia ja matemaattisia prosesseja.

Tässä blogipostauksessa käsitellään tekoälyn perusteita ja toimintaperiaatteita suurten kielimallien, tokenisoinnin, vektoroinnin ja mallin koulutuksen teknisestä näkökulmasta. Mikäli haluat tietoa tekoälyn perusteista yleisemmällä tasolla, lue blogiteksti Mitä generatiivinen tekoäly on ja miten se tukee yritystoimintaa
Kun olet lukenut tämän postauksen, tiedät seuraavat asiat:
Tekstiä tuottava generatiivinen tekoäly perustuu suuriin kielimalleihin (LLM, Large Language Model). Kielimallit on koulutettu valtavilla tekstiaineistoilla tuottamaan ihmismäistä kieltä. Esimerkiksi OpenAI:n ChatGPT tai Googlen Gemini perustuvat tällaisiin kielimalleihin. Chat tarkoittaa bottia ja GPT on lyhenne sanoista Generative Pre-trained Transformer. GPT puolestaan on kielimalliperhe, jonka eri sukupolvia tai versioita ovat esim. GPT-4 ja GPT-5.
Suurten kielimallien kouluttamiseen käytetään valtavia ja monipuolisia tekstiaineistoja, jotka voivat olla julkisia, lisensoituja tai avoimia aineistoja. Näitä tekstikokoelmia ovat julkiset verkkolähteet (esim. uutisartikkelit, blogit, keskustelufoorumit ja Wikipedia), kirjat ja artikkelit (esim. digitaaliset kirjakokoelmat ja artikkelit), koodivarastot (esim. erilaiset avoimen lähdekoodin projektit), lisensoidut ja kuratoidut aineistot (esim. arkistot, sanakirjat ja oppimateriaalit) sekä rajoitetusti myös käyttäjädata. Näin malli oppii mahdollisimman laajasti kielen ja kielen rakenteet sekä sen, miten kieltä käytetään.
Kun kielimalli käsittelee tekstiä, se ei lue tai kirjoita sanoja, vaan käsittelee tokeneita. Tokenit ovat pieniä tekstinosia, joilla on numeerinen tunniste eli ID. Tokenit voivat olla kokonaisia sanoja, sanan osia (subword), yksittäisiä merkkejä tai useamman merkin yhdistelmiä. Tokeneita hyödynnetään sekä kielimalleja koulutettaessa että kielimalleja käytettäessä.
Tekoälyä käytettäessä käyttäjä antaa kielimallille kehotteen eli syötteen tai promptin. Tekoäly analysoi annetun tekstin tokeneiksi ja käy laskennallisesti läpi neuroverkon eri kerroksia. Tämä tarkoitta sitä, että tokenit kulkevat kerrosten läpi, jolloin tekstistä haetaan erilaisia ominaisuuksia, kuten merkityksiä, rakennetta tai kontekstia.
Tokeneiden lisäksi kielimalleissa käytetään parametreja eli painotuksia. Näiden perusteella LLM laskee, mikä token sopii vastauksessa parhaiten seuraavaksi – tai siis, mikä token on kaikkein todennäköisin. Lopuksi tokenit muutetaan takaisin luettavaksi tekstiksi, jonka käyttäjä näkee. Näin syntyy vaikutelma siitä, että tekoäly ”keskustelee” ihmisen kanssa, vaikka pohjimmiltaan kyse on määritellystä todennäköisyyksien laskennasta.
Esimerkkilauseen “Tervetuloa Saksaan!” tokenointi riippuu käytetystä tokenoijasta ja kielimallista, sillä tarkka tokenien määrä ja niiden tunnisteet vaihtelevat kielimalleittain. Voit tutusta tokenointiin käyttämällä esimerkiksi OpenAI:n tokenizer-työkalua osoitteessa https://platform.openai.com/tokenizer. Täällä voit kokeilla ja tarkastella, miten teksti jaetaan tokeneihin ja mitä tunnisteita kussakin Open AI:n kielimallissa tokeneille on määritetty.


Jonkin tietyn tekstin tokenien määrä vaikuttaa siihen, miten kielimalli pystyy käsittelemään tekstiä. Tällöin puhutaan kielimallien konteksti-ikkunasta. Konteksti-ikkuna tarkoittaa sitä määrää tokeneita, jonka LLM pystyy käsittelemään samanaikaisesti. Tämä koskee sekä syötettyä että generoitua tekstiä. Suurimmat kielimallit pystyvät käsittelemään kymmeniä tuhansia tai jopa satoja tuhansia tokeneita, joten normikäyttäjälle kielimallin konteksti-ikkuna ei ole aivan ensimmäinen kompastuskivi.
Mitä suurempi konteksti-ikkuna on, sitä pidempiä tekstejä eli sitä suurempaa määrää tokeneita kielimalli pystyy kerralla käsittelemään. Jos teksti ylittää tämän konteksti-ikkunan asettaman rajan, malli ei pysty käsittelemään koko tekstiä kerralla. Konteksti-ikkuna saattaa siis rajoittaa kielimallin kykyä käsitellä erittäin pitkää tekstiä tai monimutkaista keskustelua AI:n kanssa.
Kielimallit siis koulutetaan valtavilla tekstiaineistoilla. Tokenointi puolestaan on vaihe, jossa teksti jaetaan pienempiin osiin eli tokeneihin ja jokaiselle tokenille annetaan numeerinen tunniste kielimallin sanastossa. Seuraavassa vaiheessa jokaiselle tokenille haetaan vastaava matemaattinen vektoriesitys eli embedding moniulotteisessa avaruudessa. Embedding-prosessissa merkitykseltään samankaltaiset eli keskenään läheiset tokenit sijoitetaan lähelle toisiaan.
Esimerkiksi sanat “kissa” ja “koira” sijaitsevat embedding-avaruudessa lähekkäin, koska niitä käytetään samankaltaisissa yhteyksissä, vaikka ne ovatkin eri käsitteitä. Vastaavasti “juna” ja “raide” tai ”kuningas” ja ”kuningatar” ovat merkitykseltään lähellä toisiaan. Sen sijaan ”juna” ja ”kissa” eivät ole merkitykseltään läheisiä.
Embedding mahdollistaa:
Tämä prosessi on olennainen syy siihen, miksi AI (yleensä) vaikuttaa ymmärtävän käyttäjän kysymykset tai kehoitteet. Tekoäly ei kuitenkaan ymmärrä tai tiedä ihmisen tavoin, vaan se mallintaa tehokkaasti tilastollisia suhteita.
Kielimallin kouluttaminen alkaa valtavasta määrästä tekstiä, joka pilkotaan ensin tokeneiksi ja muutetaan embedding-prosessissa numeeriseen muotoon eli vektoreiksi. Malli opetetaan esikoulutusvaiheessa ennustamaan, mikä token todennäköisesti seuraa aiempien tokenien muodostamassa kontekstissa.
Tämän jälkeen tyypillinen hienosäätöputki on seuraava:

RLHF eli oppiminen ihmispalautteen avulla on keskeinen osa modernien kielimallien laadunvarmistusta, mutta ei kuitenkaan ainoa menetelmä. Käytössä on myös vaihtoehtoisia tai täydentäviä menetelmiä, kuten DPO (DPO=Direct Preference Optimization eli suora preferenssioptimointi) ja RLAIF (Reinforcement Learning from AI Feedback eli vahvistusoppiminen tekoälyn palautteesta).
Koko koulutusprosessi vie kuukausia, vaatii valtavasti laskentatehoa ja on erittäin resurssi-intensiivinen. Siksi huippuluokan suljettujen mallien kehitys on keskittynyt harvoille toimijoille (esim. OpenAI, Google, Meta ja Anthropic). Samalla kuitenkin myös avoimen lähdekoodin ekosysteemit lisääntyvät (esim. Llama- ja Mistral-malliperheet), vaikka niidenkin kouluttaminen vaatii merkittäviä resursseja.
Hallusinoinnilla tarkoitetaan ilmiötä, jossa tekoäly tuottaa vääriä tai keksittyjä vastauksia, jotka se esittää tosiasioina. Syynä hallusinoinnille on kielimallin ennustava toimintaperiaate eli LLM ennustaa todennäköisintä seuraavaa tokenia sen sijaan, että tarkistaisi tiedon ulkoisista lähteistä. Kielimalli ei myöskään itsessään tiedä asioita tai toimi tietokantana.
Jos siis kysyt sellaista yritystä, laskua tai muuta tietoa, jota ei ole olemassa tekoälyn koulutusdatassa, eikä se pysty myöskään lukemaan tätä tietoa mistään muusta lähteestä (esim. käyttäjän liittämä tiedosto), malli todennäköisesti generoi uskottavalta kuulostavan, mutta paikkansapitämättömän vastauksen. Kielimalli nimittäin pyrkii aina generoimaan jonkin vastauksen, vaikka sillä ei olisikaan varmaa tietoa. Tekoälylle voi kertoa jo promptissa (kehotteessa), että sen on kerrottava käyttäjälle, mikäli sillä ei ole asiasta tietoa, eikä se saa generoida muuta vastausta. Tämä vähentää hallusinoinnin riskiä, mutta ei välttämättä täysin poista sitä.
Tekoälysovelluksissa voidaan aktivoida verkkohaku tai liittää kielimalli käyttäjän omaan dataan. Näin vähennetään hallusinaatioita yhdistämällä kielimallin tuottama tieto ulkoisiin lähteisiin. Tätä lähestymistapaa kutsutaan RAG-menetelmäksi (Retrieval-Augmented Generation). Menetelmä tehostaa tekoälyn toimintaa siten, että se pystyy hyödyntämään vastauksissaan sekä mallin sisäistä tietorakennetta että ulkoisista lähteistä haettua ajankohtaista tai tarkkaa tietoa.
Suuri kielimalli ei ole tietokanta, vaan todennäköisyyslaskentaan perustuva malli, joka ennustaa seuraavaa tokenia aiemman kontekstin eli taustatiedon perusteella. Se ei takaa faktatarkkuutta, vaikka sisältääkin paljon parametrisesti opittua tietoa (parametrinen muisti). Toisin sanoen malli voi tuottaa oikeita faktoja, mutta ei erota totuutta ja valetta ihmisen tavoin. Tekoäly on eräänlainen tilastollinen kone, joka toimii matemaattisten mallien, embedding-vektorien ja tokenien avulla.
Sinänsä näitä kaikkia tässä mainittuja käsitteitä ei tarvitse ymmärtää perusteellisesti, mutta kun tiedostat, mitä tekoälyn konepellin alla tapahtuu, osaat realistisesti hahmottaa tekoälyn hyötyjä, heikkouksia ja vahvuuksia. Näin et koskaan luota tekoälyyn sokeasti, odota sen suorittavan aukottomasti kaikkia mahdollisia tehtäviä etkä myöskään ilmoita sille pettyneenä ”päin näköä”, että se valehtelee, kuten blogipostauksen alussa anonyymi kirjoittaja teki.
Tekstin kirjoittamisessa on käytetty apuvälineinä seuraavia tekoälysovelluksia: ChatGPT 4o ja 5, omaGPT ja Perplexity Pro.
Maarit Arvola | 07.11.2025