De moderne chatbot revolutie heeft nog maar net het oppervlak van het potentieel voor interacties tussen mens en machine betreden. Momenteel kijken AI-onderzoekers naar technologie?n zoals large language models (LLM’s), deep AI en ervaringsgericht leren om het menselijke denkproces te repliceren.
Onlangs had Techopedia een gesprek met Mark Sagar, Ph.D., Chief Scientific Officer en medeoprichter van AI-startup Soul Machines. Hij is tweevoudig Academy Award-winnaar en heeft AI gebruikt om digitale individuen te ontwikkelen die in staat zijn gesprekken met mensen aan te gaan en tegelijkertijd verbale en non-verbale signalen te interpreteren en erop te reageren.
Hieronder vindt u het transcript van het gesprek waarin wordt onderzocht hoe AI kan worden gebruikt om menselijke denkprocessen te repliceren en computers in staat te stellen over te brengen waar ze aan denken. Er werd ook besproken hoe ontwikkelaars het griezelige vallei-effect kunnen elimineren bij het maken van digitale avatars.
Belangrijkste leerpunten
- Soul Machines heeft tot doel mensachtige intelligente digitale wezens te cre?ren voor intu?tieve AI-interacties.
- ‘Humanisering van AI’ betekent het toevoegen van menselijke elementen aan technologie voor natuurlijke interacties.
- Emotioneel responsieve avatars verbeteren de communicatie en besluitvorming bij interacties tussen mens en AI.
- Transparantie in het AI-denken is van cruciaal belang om ethische kwesties aan te pakken, vertrouwen op te bouwen en misleidend gebruik van AI-technologie te vermijden.
- Taalmodellen zoals ChatGPT zijn essenti?le componenten van cognitie, maar slechts een onderdeel van bredere mensachtige cognitie.
- De toekomst van AI omvat multimodale interacties, emotionele context en digitale baby’s zoals ‘Baby X’ om te leren.
Wat is Soul Machines?
Techopedia: Kun je ons iets vertellen over het werk dat Soul Machines doet?
Mark Sagar: Soul Machines cre?ert digitale mensen, intelligente digitale mensen waarmee je als mens kunt communiceren. Ons langetermijndoel is het cre?ren van de meest intu?tieve co?peratieve interface met kunstmatige intelligentie.
Dus hoe werken we samen met machines?
Als we kijken naar de verschillende trends die zich voordoen, zullen we zien dat je bijvoorbeeld stemassistenten hebt, wat een bepaalde modaliteit is voor het overbrengen van informatie. Als je dat nu op stero?den zet, is wat je krijgt eigenlijk de volgende stap, weet je, zoals nu met ChatGPT, de afbeeldingen en dat soort dingen.
Maar als mensen met elkaar omgaan, praten we niet alleen met elkaar, we kijken elkaar aan, we zijn emotioneel, we laten het zien, we zijn volledig met elkaar in interactie.
En wat ik de toekomst zie zoals het is: als je bedenkt dat menselijke samenwerking de krachtigste kracht in de geschiedenis is, zal menselijke samenwerking met intelligente machines het volgende tijdperk in de geschiedenis bepalen.
Wat ik ons in de toekomst graag zou zien doen, is in feite een absoluut vrij vloeiende relatie met technologie hebben, zodat we net zo effici?nt kunnen samenwerken als jazzmuzikanten kunnen samenwerken en riffs en dat soort dingen kunnen verhandelen om dingen te cre?ren of taken te volbrengen. .
Het doel hier is dus dat als je alle systemen bouwt, als je alle systemen emuleert waarop onze intelligentie is gebouwd, we in de toekomst algemene intelligentie zouden moeten kunnen bereiken.
Betekenis van GenAI en taalmodellen in cognitieve processen
Techopedia: Welke rol zie generatieve AI en taalmodellen spelen in dat proces? Denk je dat ze op de lange termijn belangrijk zullen zijn, of zijn ze meer een soort ‘overbruggings’-technologie voor die visie?
Mark Sagar: Nee, ik denk dat ze erg belangrijk zijn. Ik denk dat ze een onderdeel van cognitie zijn. Dus als je rekening houdt met menselijke cognitie, zijn taalmodellen een onderdeel van cognitie, maar ze doen niet aan visuele perceptie, ze doen niet aan emotionele verwerking, ze doen niet veel dingen.
Ze kijken echt naar woordrelaties, en die woordrelaties structureren veel gedachten, dus we gebruiken die als bijna labels om naar verschillende langetermijnassociaties te kijken, en daar kun je ongelooflijk krachtige dingen mee doen. .
Mensen leren min of meer door ervaringsgericht leren. We zullen als baby’s met de wereld omgaan en de kwaliteiten van iets gaan ontdekken: dit is zwaar, dit is heet, dit is koud, en er is een constante feedbackloop die we krijgen met onze ouders, verzorgers of met wie we ook communiceren.
Tijdens dat proces leren we labels. Weet je, dit is rood, dit is groen, en dus is het zeer multimodaal in de manier waarop we feitelijk de wereld leren.
Dus als je een LLM hebt, dat ontologisch is, is het getraind op woordsymbolen en hun associaties. Het belichaamt menselijke kennis en al deze vormen, maar gaat terug naar een symbolisch relatieniveau.
Humanisering van AI uitgelegd
Techopedia: En zou je commentaar kunnen geven op wat jij en Soul Machines bedoelen met de ‘humanisering van AI?’
Mark Sagar: Hoe het eruit ziet en waar we mee te maken hebben. Zo voegen we bijvoorbeeld steeds vaker menselijke aspecten toe aan technologie.
We hebben het bijvoorbeeld over stemassistenten, het toevoegen van stem en taal aan technologie. Waarom doen we dat? Omdat het voor ons een natuurlijke manier is om met elkaar om te gaan. Het is intu?tief om met andere mensen te communiceren en te kijken naar waar ze naar kijken, te kijken naar hoe ze zich voelen – dat is het volgende niveau daarvan.
Je krijgt al deze extra informatie. Dus als je naar films als 2001 kijkt, waar ze Hal hadden, en er was gewoon een soort lens die naar mensen keek, en ze hadden geen andere feedback van Hal dan de stem, dan is dat wat we momenteel hebben met stemassistenten, die in jouw huis.
Het is een zwarte doos waarmee je communiceert. Het is dus in sommige opzichten heel onnatuurlijk, het is alsof je met HAL uit 2001 praat. Je praat niet met iemand, dus je bent je er niet van bewust dat die persoon naar dingen luistert of er aandacht aan besteedt, dus er vindt een soort asymmetrische communicatie plaats.
Omdat het zo natuurlijk voor ons is om met face-to-face interacties om te gaan, omdat het een vorm van menselijke interactie is die begint vanaf de geboorte. De meest intu?tieve manier om met technologie om te gaan, is volgens mij face-to-face.
Techopedia: Denk je dus dat emotioneel responsieve avatars de sleutel zijn tot het aanpakken van dit ‘griezelige vallei’-effect dat optreedt bij veel van de ontwerpen van digitale mensen die op de markt zijn gebracht?
Mark Sagar: Ik denk dat het op verschillende niveaus helpt. We zijn emotionele wezens, en het hebben van een emotioneel raakvlak betekent bijvoorbeeld dat we erkennen dat emotie ook een heel belangrijke rol speelt in de besluitvorming.
Zeg puur voor het nut dat je een klantenservicemedewerker aan het bouwen bent, en ik heb je een vraag gesteld, maar je ziet er verward uit, en je maakt een uitdrukking, je weet wel, je slaat één oog op en gaat een beetje omlaag de andere, en je weet niet zeker wat er aan de hand is.
Als mens zou je meteen zeggen: “Oh, heb je meer tijd nodig, of heb je uitleg nodig?” Of zoiets. Dat komt bijvoorbeeld rechtstreeks uit uw gezichtsreactie: u bespeurt verwarring.
We maken voortdurend gebruik van elkaars signalen, omdat het gezicht de spiegel van de hersenen is, zodat dat gezicht in feite weergeeft waar u aan denkt, waar u aandacht aan besteedt en hoe u zich daarbij voelt. Al deze zaken zijn van cruciaal belang bij het nemen van beslissingen.
Techopedia: Dus het is bijna alsof je in het ontwerp rekening moet houden met de manier waarop je menselijke gebruikers kunt laten weten wat digitale avatars denken?
Mark Sagar: Precies, juist. Je slaat de spijker op de kop. Het is tweerichtingsverkeer. Je probeert te interpreteren wat de gebruiker denkt, omdat wat we doen als we met iemand anders communiceren uiteindelijk een Theory of Mind vormt. Je denkt: “Waar denkt die persoon aan”, “Wat wilden ze doen”, enzovoort.
Je wilt dat in beide richtingen, en je wilt dat de computer overbrengt waar hij aan denkt, want wat we niet willen is een black box waarin we niet weten wat er binnenin gebeurt, want dat is een soort dystopische toekomst. Dat willen wij overbrengen en zo transparant mogelijk maken.
Er was een robot genaamd Baxter [een industri?le productielijn robot], en wat ze deden was een paar ogen op de robot richten op een klein scherm… en Baxter keek naar waar hij op het punt stond heen te bewegen. Mensen wisten dan dat ze uit de weg moesten gaan voor de arm die op het punt stond te bewegen.
Omdat ze de bedoeling van de robot kenden, gingen ze een stapje terug doen, want dat is wat mensen van nature doen.
Hoe zit het met transparantie en ethische implicaties?
Techopedia: Denkt u dat het vergroten van de transparantie over dat denkproces de sleutel is tot het bestrijden van enkele ethische zorgen rond het gebruik van digitale mensen in bepaalde contexten?
Mark Sagar: Ja, ik denk dat dat heel belangrijk is. Het probleem met deepfake-technologie is dat het er precies uitziet als een video, waardoor je niet weet waar je mee te maken hebt, omdat het er volkomen realistisch uitziet.
Dus ik denk niet dat het je visueel voor de gek moet houden. Ik denk dat het een realistische menselijke uitdrukking moet hebben, maar het mag niet bedoeld zijn om je voor de gek te houden. Dat is één ding.
Het andere is dat wat het doet, betekenisvol moet zijn. Het mag geen gimmick zijn met betrekking tot de interactie. Het zou eigenlijk informatie moeten overbrengen op basis van wat het veronderstelt, zodat u weet waar het heen wil.
Het AI-landschap van morgen
Techopedia: Hoe zie jij AI en digitale mensen de komende vijf jaar evolueren?
Mark Sagar: Ik denk dat we met het werk dat we doen zien dat veel R&D gericht is op multimodale menselijke interactie en het omgaan met alle complexiteiten daarvan. We hebben asynchroniciteiten, interacties, al deze verschillende dingen waar mensen met elkaar omgaan, en we willen dat zo vloeiend mogelijk maken.
Ons meest geavanceerde werk betreft een model genaamd Baby X, een digitale baby die we zo bouwen dat je hem als een baby kunt leren, ermee kunt communiceren en emoties kunt uiten.
We kijken naar de grondbeginselen van het lesgeven aan mensen en lesgeven in een emotionele en sociale context, en we zien dat als een basis voor volwasseneneducatie, omdat iedereen een baby is, en we doorlopen deze processen, en dus bevindt onze ontwikkeling zich op dat niveau. .
Techopedia: Denk je dat chatbots zoals ChatGPT en andere LLM-gestuurde tools zullen samenkomen om een allesomvattende oplossing te worden, of denk je dat ze nog steeds hun eigen trajecten zullen hebben als afzonderlijke oplossingen?
Mark Sagar: Dat is een goede vraag. Over het algemeen denk ik dat je een samensmelting zult zien in waar mensen mee omgaan. Dus je weet dat er achter de schermen veel componenten met elkaar zullen praten.
Maar het is alsof als we alleen maar naar science fiction kijken, je bijvoorbeeld een robot als C3PO uit Star Wars hebt. Het is een autonome robot die sociaal communiceert, en hij heeft een belichaamde menselijke levensvorm, ook al is het een robot.
Of als je naar Data in Star Trek kijkt, weet je, je hebt eigenlijk een mensachtige robot waarmee je communiceert als een persoon die autonoom maar zelfvoorzienend is, die in één pakket komt, en dat voelt als een natuurlijke interface die we hebben omdat we daaraan gewend zijn.
Note: Het script is bewerkt voor beknoptheid en duidelijkheid.
Referenties
- Mark Sagar – (LinkedIn)
- Mark Sagar – (Cesium)
- The Story of a Voice: HAL in ‘2001’ Wasn’t Always So Earily Calm – (The New York Times)
- This industrial robot has eyes because they make human workers feel more comfortable – (Quartz)