Onderzoekers op het gebied van kunstmatige intelligentie bij Apple hebben vrijdag een artikel gepubliceerd over het komende ReALM – Reference Resolution As Langage Modeling – programma, waarin wordt beweerd dat het “substantieel beter kan presteren dan” het door Microsoft gesteunde OpenAI’s populaire grote taalmodel (LLM), GPT 4, wat betreft het zogenaamd begrijpen en omgaan met aanwijzingen in verschillende contexten.
Apple zegt dat het RealALM beter is dan GPT-4 bij het begrijpen van contextuele aanwijzingen
Referentieresolutie is een taalkundig probleem waarbij AI-modellen niet in staat zijn te begrijpen waar een bepaalde uitdrukking naar verwijst. De betekenis van referentiewoorden als ‘zij’ of ‘dat’ in natuurlijke taal kan duidelijk zijn voor mensen, die het kunnen begrijpen op basis van de context, maar een AI-programma als ChatGPT heeft moeite om precies te begrijpen waar een gebruiker naar verwijst.
Dit is een complex probleem dat computerprogramma’s moeilijk kunnen oplossen, omdat ze afbeeldingen niet kunnen interpreteren zoals mensen dat doen. Het blijkt echter dat Apple mogelijk een oplossing voor dit slepende probleem heeft gevonden met behulp van zijn LLM.
Apple kiest een andere route dan de bestaande LLM’s
Gebruikers hebben de neiging om te verwijzen naar contextuele informatie, zoals achtergrondtaken of gegevens op het scherm wanneer ze communiceren met stemassistenten zoals Apple’s Siri. Traditionele parseermethoden, zoals die welke door GPT-4 worden gebruikt, zijn voor hun reactie sterk afhankelijk van grote modellen en referentiemateriaal zoals afbeeldingen. Apple lijkt de aanpak echter te hebben gestroomlijnd door elke gegeven context in tekst om te zetten.
Door afbeeldingen in teksten om te zetten, kan ReALM de behoefte aan geavanceerde beeldherkenningsparameters overslaan, waardoor de modellen kleiner en efficiënter worden. Apple is ook afgeweken van de problemen met AI-hallucinaties door de mogelijkheid op te nemen om decodering te beperken of eenvoudige nabewerkingsmethoden te gebruiken.
Als een gebruiker bijvoorbeeld door de website van een bedrijf scrollt en besluit hem of haar te bellen, zou het AI-model alleen al moeten zeggen ‘bel het bedrijf’ om te ontleden wat hij bedoelde, gegeven de context. De ReALM zou kunnen zien dat er een telefoonnummer op de pagina staat, dit als het bedrijfsnummer labelen en zonder verdere aanwijzingen bellen.
De onderzoekers van Apple schreven in de paper dat ze ReALM willen gebruiken om drie soorten entiteiten te begrijpen en te identificeren: entiteiten op het scherm, conversatie- en achtergrondentiteiten.
Schermentiteiten verwijzen naar items die op het scherm van de gebruiker worden weergegeven. Gespreksentiteiten zijn entiteiten die relevant zijn voor het gesprek. Als een gebruiker bijvoorbeeld de vraag zou stellen aan de LLM: ‘Welke trainingen moet ik vandaag doen?’, zou de chatbot uit eerdere gesprekken moeten kunnen begrijpen dat de gebruiker zich op een 3-daags trainingsschema en verduidelijk wat de training voor die dag is.
Achtergrondentiteiten zijn activiteiten die op de achtergrond plaatsvinden en niet noodzakelijkerwijs in de andere twee categorieën vallen. Als een gebruiker bijvoorbeeld naar een podcast luistert terwijl hij ander werk aan de telefoon doet en een specifiek deel van wat er is gezegd wil verduidelijken, moet de LLM kunnen begrijpen wanneer er naar wordt verwezen.
Het kleinste model van Apple, vergelijkbaar met GPT-4-prestaties, het meest geavanceerde model van OpenAI
Tijdens het onderzoek ontdekte Apple dat zijn AI-model op verschillende belangrijke gebieden beter presteerde dan GPT-3.5 en GPT-4, waarbij de kleinste ReALM gelijk was aan de prestaties van de meest geavanceerde LLM’s van OpenAI, terwijl de grotere modellen “substantieel” beter presteerden dan het stel.
Merk op dat bij het testen van de op tekst gebaseerde GPT-3.5 de input van de onderzoekers uitsluitend bestond uit tekstprompts, maar met GPT-4 leverden ze ook een screenshot om de taak uit te voeren.
Apple werkt aan de onthulling van een alomvattende AI-strategie tijdens de Worldwide Developer Conference (WWDC) in juni. Rapporten suggereren dat het bedrijf zal vertrouwen op het kleinere model voor berekeningen op het apparaat, met behoud van privacy en veiligheid, terwijl het licenties zal verlenen aan de LLM’s van andere bedrijven voor de grotere verwerking buiten het apparaat, die vaak gevuld is met ethische raadsels.
Er wordt ook verwacht dat Apple op de WWDC het iOS 18-besturingssysteem voor de iPhone zal aankondigen, waarvan de geruchten gaan dat het een ReALM-model zal bevatten.
Meer nieuws: Apple One-abonnement: Prijs, Voordelen En Aanbiedingen; Is Het Het Waard In 2024?