Join Nostr
2025-05-13 13:50:43 UTC

Kiri on Nostr: Minua on jo pidemmän aikaa tympäissyt se, että niin monissa kielimalleihin ...

Minua on jo pidemmän aikaa tympäissyt se, että niin monissa kielimalleihin liittyvissä, sinänsä asiallisissa tieteellisissä artikkeleissa tuppaa olemaan seuraavia piirteitä:

- Tekoälymallien antropomorfisointi sanavalintojen kautta
- Oletus tekoälyn älykkyydestä lähtökohtana, josta tutkimusta tehdään. Tämä oletus ei perustu siihen, että älykkyyttä olisi joissain aiemmissa tutkimuksissa kunnolla todistettu - jostain syystä se vain oletetaan. Sitä ei myöskään uskalleta kyseinalaistaa, vaikka artikkelissa esitellyn oman tutkimuksen tulokset vahvasti viittaisivatkin siihen, ettei tarkastelun kohteena ollut tekoälymalli ajattele tai tajua mitään.
- Kun tekoäly on pärjännyt testeissä erittäin huonosti, artikkelin kirjoittaja vakuuttelee, että he ovat siitä huolimatta erittäin innoissaan näiden tekoälymallien potentiaalista.

On siis joitain premissejä (generatiivisten tekoälymallien "potentiaali" ja "älykkyyys"), jotka jostain syystä ja ilman perusteita vain oletetaan, ja joita ei kyseenalaisteta, vaikka konkreettisia syitä tähän olisi.

Tässä esimerkki älykkyyden olettamisesta (Liu et al. 2023. Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4.):

"Among benchmarks, ChatGPT and GPT-4 do relatively well on well-known datasets like LogiQA and ReClor. However,
the performance drops significantly when handling newly released and out-of-distribution datasets. Logical reasoning remains challenging for ChatGPT and GPT-4, especially on out-of-distribution and natural language inference datasets."

Yllä kuvattujen havaintojen pohjalta ei vedetä varovaisiakaan päätelmiä tai jatkohypoteeseja. Vaikka kyllähän tuo tulos pahasti siihen viittaisi, että mallit pärjäävät tunnetuissa testeissä, koska testien vastaukset ovat mukana koulutusdatassa - ja vastaavasti epäonnistuvat uusissa testeissä, koska ne vaatisivat oikeasti ymmärrystä ja päättelykykyä, eikä ns. lunttilappuja ole. Ilmaisu "[l]ogical reasoning remains challenging for ChatGPT and GPT-4" on siinä mielessä kyllä aikamoista asioiden kaunistelua.

Esimerkkinä tekoälyinnon vakuuttelusta puolestaan toimii vaikkapa se BBC:n tutkimus, jossa todetaan mm., että "51% of all AI answers to questions about the news were judged to have significant issues of some form" ja toisaalta myös tämä: "The BBC is excited about the future of AI and the value it can bring audiences and our staff."