Jak mówi mózg?

Czatboty, systemy oparte na modelach językowych, powszechnie utożsamiane ze sztuczną inteligencją, mają jedno poważne ograniczenie, które pozwala odmówić im miana „inteligencji”. Otóż nie potrafią się między sobą komunikować. A raczej do niedawna nie potrafiły.

Publikacja: 26.04.2024 17:00

Jak mówi mózg?

Foto: Adobe Stock

"Mowa jest srebrem, milczenie złotem” to przysłowie funkcjonujące we wszystkich chyba kulturach. Nasi rodzice, nauczyciele i inne postacie, które przewinęły się jako autorytety przez nasze dzieciństwo i młodość, zachęcały nieustająco do jednego: najpierw pomyśl, potem powiedz. Rzecz sama nie jest jednak wcale trywialna i owo odwieczne (oraz powszechne) zalecenie jest co do swych biologicznych podstaw dopiero dziś rozszyfrowywane przez neurologów.

Zaczynamy pomału rozumieć, co to znaczy, że mózg najpierw myśli, a potem skłania nasz aparat mowy do aktywności. I gdzie to się w nim dokładnie dzieje. Nie żeby od razu domagać się zastosowania nowych odkryć do zahamowania bezmyślnego gadania, ale jest potencjał. I jak to bywa w neuronaukach, oglądamy w ramach szacowania możliwości jakiejś technologii ledwie wierzchołek góry lodowej.

Czytaj więcej

Zmowa wielu autorów, propagowanie swoich, podbijanie cytatów. Tak działają kartele naukowe

Czy sztuczna inteligencja będzie „smart”?

Oglądamy dziś, czyli co najmniej dekadę po tym, gdy pierwsze dwa ludzkie umysły rozmawiały ze sobą przez internet bez słów ani znaków pisma, jeden siedząc w Indiach, drugi we Francji. Oczywiście do takiej naukowo wspomaganej telepatii potrzeba było kilku nowoczesnych technologii. Dwa mózgi były bowiem połączone interfejsem komputerowo-czaszkowym do internetu i jednocześnie poddane działaniu elektroencefalogramu (EEG) oraz przezczaszkowej stymulacji magnetycznej wspomaganej i sterowanej obrazem (TMS). Zatem odbyło się to wszystko wówczas bezinwazyjnie.

Uczeni reprezentujący kilka instytucji, m.in. Beth Israel Deaconess Medical Center, Harvard Medical School, Starlab Barcelona i Axilum Robotics w Strasburgu, pokazali wówczas światu, w 2014 roku, że nie tylko za pomocą takiego przetwarzania zewnętrznie rejestrowanej elektrycznej aktywności mózgu da się poruszać robotycznymi kończynami (co staje się na naszych oczach dzięki wysiłkom m.in. Neuralinku Elona Muska dostępną alternatywą w ortopedii), ale przede wszystkim komunikować się na odległość w sposób sensowny. Rozwój technologii przypominał zatem ewolucję naszych przodków, gdzie stanięcie na dwóch kończynach tylnych i uwolnienie tym samym dwóch kończyn przednich, aby stały się niezmiernie twórczymi kończynami górnymi, o setki tysięcy lat poprzedzało komunikację werbalną. Jest ona bowiem znacznie trudniejsza i od mózgu prawdopodobnie wymaga więcej wysiłku i koordynacji rozmaitych jego struktur.

Odkrywanie neurobiologicznych detali odpowiedniego dawania rzeczy słowa ma miejsce po najdynamiczniejszej jak dotąd w historii pięciolatce w rozwoju sztucznej inteligencji (AI). Zwłaszcza zaś tzw. modeli językowych (bo rozpoznawanie na obrazkach „czy to pies, czy to bies” to AI miała opanowane już wcześniej). I cóż z tego, że do czasów ChatGPT 4 zasadniczo dyskusje z owymi modelami językowymi jakże często przypominały rozmowę gęsi z prosięciem, co dostarczało niezliczonych, memicznych następców „humorów zeszytów” w mediach społecznościowych? Choć sztuczna inteligencja wydawała się toporna, jakby dosłownie z plastiku, to już kolejne warianty słynnego czatbota i inne tego typu wynalazki zdają się radzić sobie coraz lepiej.

Uprawdopodabniając publiczne stwierdzenia znanego fizyka teoretycznego, prof. Andrzeja Dragana, że już pokolenie dzisiejszych dzieci dożyje czasów, w których ludzka inteligencja nie będzie zasadniczo w stanie wykazać swej wyższości nad AI co do skutecznie podejmowanych wyzwań intelektualnych, wspomniany wcześniej Elon Musk niedawno stwierdził, że AI konstruowana w jego laboratoriach już w przyszłym roku osiągnie wyższy od ludzkiego poziom „rozgarnięcia” czy też „sprytu”, „bystrości”, „błyskotliwości”, a nawet „wykwintu” (użył bowiem przepojemnego angielskiego terminu „smart”). Osobiście uważam, na podstawie lektury licznych naukowych publikacji na ten temat, że problem tkwi w sposobie, w jaki zadajemy sztucznej inteligencji pytania – i jeśli do czegoś warto czatboty w szkolnictwie zaprzęgnąć, to do uczenia logiki prowadzenia dyskursu czy narracji. To bowiem nie my je, ale one nas wtedy punktują. Komunikować się jednak między sobą, tak jak my, nie potrafią – czy też lepiej powiedzieć – do niedawna nie potrafiły, o czym za moment.

Według prof. Dragana nie ma raczej szans, by się to dla nas dobrze skończyło. Musk zaś przewiduje, że jedynie niedobór energii może stać na przeszkodzie rozwojowi AI (rodzeństwo Wachowscy wyjaśnili nam wizjonersko w „Matriksie”, jak AI obejdzie ten brak, zamieniając ludzi w baterie). Z kolei sir Roger Penrose w niedawnym wywiadzie dla „Tygodnika Powszechnego” odżegnuje się od lęków przed AI przejmującą kontrolę nad światem, do czego według tego noblisty nie jest zdolna, jako pozbawiona świadomości. Nie jest ona w jego rozumieniu inteligencją, zatem mamy psychiczny problem nie z nią samą, lecz z jej nieadekwatną nazwą.

Symulacja obszaru Wernickego

Dzieje się jednak ów wspomniany na początku neurobiologiczny przełom w rozumieniu komunikacji werbalnej dziś, gdy po raz pierwszy udało się doprowadzić do konwersacji pomiędzy dwiema sztucznymi inteligencjami. Zespołowi uczonych z Uniwersytetu Genewskiego udało się skonstruować sztuczną sieć neuronową tak, by po nauczeniu się i wykonaniu szeregu podstawowych zadań owa AI była w stanie dostarczyć ich opis językowy „siostrzanej” AI, która z kolei je wykonała na podstawie owego opisu. O czym możemy przeczytać w marcowym „Nature Neuroscience”.

„Zaczęliśmy od istniejącego modelu sztucznych neuronów, S-Bert, który ma 300 milionów neuronów i jest wstępnie przeszkolony do rozumienia języka. »Połączyliśmy« go z inną, prostszą siecią składającą się z kilku tysięcy neuronów” – wyjaśnił dla portalu Tech Xplore Reidar Riveland doktorant Katedry Neurologii Podstawowej na Wydziale Lekarskim Uniwersytetu Genewskiego i pierwszy autor pracy.

Jak można tam przeczytać, w pierwszym etapie eksperymentu neurolodzy przeszkolili tę sieć, aby symulowała obszar Wernickego – część naszego mózgu, która umożliwia nam postrzeganie i interpretację języka. W drugim etapie sieć została przeszkolona do odtwarzania obszaru Broki, który pod wpływem obszaru Wernickego odpowiada za tworzenie i artykułowanie słów. Cały proces odbywał się na konwencjonalnych laptopach. Następnie jedna AI przekazała drugiej pisemne instrukcje w języku angielskim, by np. wskazała miejsce – po lewej lub prawej stronie – gdzie postrzegany jest bodziec, reagowała w kierunku przeciwnym do bodźca lub rozróżniała między dwoma bodźcami wzrokowymi z niewielką różnicą w kontraście, pokazując jaśniejszy.

„A co się dziwisz?” – pytam za Gienią z filmu „Jasminum” Jana Jakuba Kolskiego.

Czytaj więcej

Dr hab. Kinga Paraskiewicz: Bazar, arbuz i papucie, czyli polskie ślady perskiego

Czas jest kompasem

Wracajmy do inteligencji jak najbardziej ludzkiej, nie zaś sztucznej, i jednego z większych neurologicznych odkryć tego roku. Nowojorskim badaczom m.in. z NYU Grossman School of Medicine, udało się właśnie po raz pierwszy wykazać że, jak to zgrabnie podsumował dla portalu MedicalXpress kierujący interdyscyplinarnym zespołem prof. Adeen Flinker z Wydziału Neurologii Uniwersytetu Nowojorskiego w Langone, „wykonanie motoryczne i planowanie mowy zachodzą w wyraźnie różnych obszarach mózgu”. I – co jest tu bardzo istotne, bo wcześniej tego typu dokładnych pomiarów nie udawało się przeprowadzić – z odmiennymi czasowymi interwałami. Podjęcie decyzji, by powiedzieć coś konkretnego, wymaga znacznie dłuższego „zastanowienia” niż ostateczne pokierowanie przez inny obszar mózgu warg, zębów, języka, policzków i strun głosowych tam, gdzie trzeba, by myśl ową, uprzednio podjętą, wypowiedzieć. Słuszna zatem okazuje się rada, by „ugryźć się w język” na etapie myślenia. Potem jest już tylko egzekucja poleceń odgórnych i biegunkę werbalną (jak każdą) trudno zatrzymać.

Owe odrębne, aczkolwiek sąsiadujące ze sobą obszary mózgu to dolny zakręt czołowy i kora ruchowa. Flinker twierdzi, że z klinicznego punktu widzenia opublikowane na łamach marcowego numeru prestiżowego czasopisma „Brain” ustalenia nowojorskiego zespołu mogą pomóc chirurgom w udoskonaleniu mapowania mózgu w celu ochrony mowy pacjentów. Czasem bowiem z mózgu trzeba coś wyciąć lub coś w nim przeciąć. Im mniejsze pociąga to za sobą okaleczenie zdolności pacjenta, tym lepiej. Bez komunikacji werbalnej życie jest zaś bardzo trudne, o czym jakże boleśnie przekonują się liczne ofiary udarów mózgu, często tracące płynność mowy czy wręcz jej zdolność.

Wspomniane różnice czasowe miedzy stymulacją neuronalną a samą wypowiedzią (od prostych, typu wymienianie dni tygodnia czy liczenie do dziesięciu, po skomplikowane, jak recytowanie słów przysięgi na wierność Stanom Zjednoczonym) dały się precyzyjnie zmierzyć u grupy osób, które cierpiąc na lekooporną padaczkę, były poddane przedoperacyjnie wszczepieniu do mózgu mikroskopijnych elektrod diagnostycznych. Pozwalają one na znacznie dokładniejszą, precyzyjną w czasie i przestrzeni tak rejestrację aktywności elektrycznej w mózgu (doskonalszą od EEG), jak i stymulacji elektrycznej konkretnych obszarów (znów – bez porównania lepszą od TMS).

Jeśli pacjenci się zgodzą, by prowadzono w tym stanie na nich eksperymenty, przyczyniają się do licznych odkryć neurologicznych. Tym razem dzięki ich współpracy, a było to 20 pacjentów w wieku od 14 do 43 lat, uzyskano wgląd w części kory mózgowej zaangażowane w planowanie mowy, choć nieodpowiedzialne za faktyczne artykułowanie słów. Mierzone opóźnienia między neurostymulacją obszaru a zaburzeniem zdolności wypowiedzi wynosiły od 0,5 s (neurony związane z motoryką artykulacji mowy) po niemal 1 s (neurony dolnego zakrętu czołowego – jak się okazuje odpowiedzialne za planowanie wypowiedzi).

Czas jest tu zatem kompasem, który pozwala zmapować obszary odpowiedzialne za konkretne etapy naszych czynności zarządzanych przez korę mózgową. Jego wyczucie jest kluczowe i może się okazać, że dzięki podobnym badaniom da się rozszyfrować nie tylko mowę, ale i inne nasze działania woluntarystyczne. W tym korygowanie własnej mowy, gdy już zaczniemy ją słyszeć. Bo nie zawsze – przyznajmy to – nasza własna wypowiedź zachwyca nas co do formy; brzmimy nie tak, jak byśmy chcieli, aby wywrzeć na słuchaczu stosowny efekt. A o to wszak chodzi w komunikacji.

Gdy się już myśl wypowie, jeszcze inny mechanizm sprawdza, czy odpowiednio się wysłowiliśmy, zwłaszcza pod kątem użytych głosek (bo od sprawdzania adekwatności stylu są kolejne inne obszary mózgu związane z „wyczuciem społecznego kontekstu”, w których czasem zdarzy się udar, co sprawia, że przemiła i elokwentna profesor uniwersytetu czy subtelny wiolonczelista zaczynają się nagle wysławiać ordynarnie, jak spod budki z piwem). Detalicznie został ów system kontroli zbadany przez uczonych z Uniwersytetu Goethego we Frankfurcie i Leibniz-Centre General Linguistics w Berlinie i opublikowany cztery lata temu na łamach „Nature Communications”. Kto jednak podczas pierwszego szczytu pandemii miał czas zajmować się neurobiologią? Stąd niemałe odkrycie przemaszerowało wprawdzie przez strony popularyzujące naukę, ale pod strzechy nie zabłądziło za pomocą mass mediów.

Tylko jedne usta, a dwoje uszu

Rzecz owa była niemała nie tylko dlatego, że po raz kolejny okazało się, że opowieści, jakoby „słowo mówione powstawało w lewej półkuli mózgu i było analizowane przez prawą” – które tułają się jeszcze po rozmaitych stronach internetowych, zwłaszcza psychologicznej proweniencji – są niezgodne z ustalonymi faktami. W dodatku, ów dwupółkulowy mechanizm kontrolujący, czy poprawnie wypowiedzieliśmy głoski połączone w sylaby i słowa, nie opiera się wyłącznie na tym, że je słyszymy. I chwała Bogu, bo większość z nas, choć ma tylko jedne usta, a dwoje uszu, mówi sprawniej i więcej, niż słyszy. Potrzeba tu zatem nie tylko dość powolnie powstającej informacji zwrotnej ze słuchu, ale czegoś szybszego, by źle ułożone do wypowiedzenia danej głoski narządy mowy powstrzymać dosłownie w pół słowa.

Dzięki owym badaczom niemieckim pod kierunkiem dr. Christiana Kella wiadomo już zatem, że nie jest tak, iż gdy uczymy się mówić i ćwiczymy jakiś dźwięk, to lewa półkula mózgu kontroluje funkcje motoryczne artykulatorów, a prawa analizuje, czy wytwarzany dźwięk faktycznie brzmi tak, jak trzeba. Oni również mierzyli opóźnienia miedzy myślą a słowem, jednak znacznie mniej dokładnie, bo u osób mówiących poddawanych obserwacji za pomocą funkcjonalnego rezonansu magnetycznego. Zgodnie z wynikami uzyskanymi przez dr. Kella: „Podczas gdy lewa półkula mózgu kontroluje aspekty czasowe, takie jak przejścia między dźwiękami mowy, prawa półkula jest odpowiedzialna za kontrolę spektrum dźwięku. Zatem np. lewa półkula kontroluje przede wszystkim dynamiczne przejścia między spółgłoskami a samogłoskami, podczas gdy prawa półkula – brzmienie samych głosek”. W tym obrazowaniu rezonansem magnetycznym – a dotyczyło ono także kontrolowania działania rąk prawej i lewej przez osoby praworęczne – lewa strona mózgu odpowiadała za kontrolowanie szybkich procesów, podczas gdy prawa strona ma tendencję do równoległego kontrolowania wolniejszych procesów niezbędnych dla tej samej aktywności.

Czytaj więcej

Biom: Czyli sto bilionów mikroorganizmów, które mieszkają w naszym brzuchu i nami rządzą

Roboty humanoidalne będą biegły

Zanim coś powiemy, pomyślmy. Chociażby ilu i jak skomplikowanych wysiłków w rozmaitych obszarach dokonuje nasz mózg, abyśmy w ogóle wydali z siebie artykułowaną mowę, która stanowi podstawę naszej komunikacji i – po spisaniu – rozwoju cywilizacyjnego. Siedzą nad tym neurobiolodzy i rozszyfrowują milisekunda po milisekundzie. Rodząca się na naszych oczach za sprawą wspomnianych na początku prac grupy prof. Alexandre’a Pougeta z Uniwersytetu Genewskiego komunikacja dwóch jak najbardziej elektronicznych sieci neuronowych, pozwalająca im na WERBALNE poinstruowanie się, jak wykonać jakąś nieznaną wcześniej czynność, to nowa jakość w owym rozwoju cywilizacyjnym z wielu względów. Dla mnie – przede wszystkim właśnie dlatego, że w przeciwieństwie do neurologów umiejętnie umieszczających mikroelektrody w ludzkim mózgu, nikt nie jest w stanie zajrzeć AI „pod maskę” i stwierdzić, jak ona sobie w ramach przeszkolenia i treningu na danych wykoncypowała, i jak to w swoim „programie” zapisała, że trzeba poinstruować koleżankę JĘZYKOWO, co ma robić. No jak?

Dziś – a pierwsze ćwierćwiecze XXI w. mamy już za sobą – rozszyfrowujemy tajemnice języka naturalnego, zdawałoby się bardzo podstawowe, czyli gdzie dokładnie i jakimi etapami rodzi się w mózgu wypowiedź. A tzw. przetwarzanie języka naturalnego przez AI zaczyna pozwalać zamkniętym w krzemie sieciom neuronowym powoli, ale pewnie osiągać zdolność do właściwej niedawno jedynie nam zdolności wykonywania nowego zadania sensomotorycznego bez wcześniejszego przeszkolenia. Wyłącznie na podstawie ustnych lub pisemnych instrukcji. Roboty humanoidalne będą biegły po świecie, zdolne do interakcji języka z zachowaniem oraz do komunikacji, a my możemy się nigdy nie dowiedzieć, jak to w ogóle możliwe i co się im tam na elektronicznych „synapsach” wtedy dzieje ani dlaczego.

Magdalena Kawalec-Segond jest biologiem molekularnym, mikrobiologiem i popularyzatorem nauki (prowadzi stronę na Facebooku „Naukovo.pl”). Doktoryzowała się z zakresu epidemiologii zakażeń szpitalnych i zjadliwości drobnoustrojów chorobotwórczych. Współautorka „Słownika bakterii”.

"Mowa jest srebrem, milczenie złotem” to przysłowie funkcjonujące we wszystkich chyba kulturach. Nasi rodzice, nauczyciele i inne postacie, które przewinęły się jako autorytety przez nasze dzieciństwo i młodość, zachęcały nieustająco do jednego: najpierw pomyśl, potem powiedz. Rzecz sama nie jest jednak wcale trywialna i owo odwieczne (oraz powszechne) zalecenie jest co do swych biologicznych podstaw dopiero dziś rozszyfrowywane przez neurologów.

Zaczynamy pomału rozumieć, co to znaczy, że mózg najpierw myśli, a potem skłania nasz aparat mowy do aktywności. I gdzie to się w nim dokładnie dzieje. Nie żeby od razu domagać się zastosowania nowych odkryć do zahamowania bezmyślnego gadania, ale jest potencjał. I jak to bywa w neuronaukach, oglądamy w ramach szacowania możliwości jakiejś technologii ledwie wierzchołek góry lodowej.

Pozostało 95% artykułu
Plus Minus
Bogusław Chrabota: Dlaczego broń jądrowa nie zostanie użyta
Plus Minus
„Empire of the Ants”: 103 683 zwiedza okolicę
Plus Minus
„Chłopi”: Chłopki według Reymonta
Plus Minus
„Największe idee we Wszechświecie”: Ruch jest wszystkim!
Materiał Promocyjny
Klimat a portfele: Czy koszty transformacji zniechęcą Europejczyków?
Plus Minus
„Nieumarli”: Noc żywych bliskich