Op dinsdag 23 april kondigde Microsoft de lancering aan van Phi-3 Mini, het nieuwste lichtgewicht AI-model van het bedrijf en de eerste van drie kleine taalmodellen (SLM) die het dit jaar wil uitbrengen.
Phi-3 Mini heeft 3,8 miljard parameters en is getraind op een dataset die relatief kleiner is in vergelijking met grote taalmodellen (LLM’s) zoals de door Microsoft gesteunde $80 miljard kostende startup OpenAI’s GPT-4 en Google’s Gemini.
SLM’s zijn ontworpen om eenvoudiger taken uit te voeren en AI toegankelijker te maken voor bedrijven met beperkte middelen.
Microsoft brengt het kleine taalmodel Phi-3 Mini uit
Phi-3 Mini is nu beschikbaar op Microsft’s cloudserviceplatform Azure, machine learning-modelplatform Hugging Face en Ollama – een raamwerk voor het uitvoeren van AI-modellen op lokale apparaten.
De nieuwste SLM van Microsoft zal ook beschikbaar zijn op Nvidia’s softwaretool Nvidia Inference Microservices (NIM) en is ook geoptimaliseerd voor de grafische verwerkingseenheden (GPU’s) van de chipmaker.
De Amerikaanse technologiegigant heeft plannen om nog twee versies van de SLM uit te brengen: Phi-3 Small met 7 miljard parameters en Phi-3 Medium met 14 miljard parameters.
Parameters verwijzen naar het aantal complexe instructies dat een AI-model kan begrijpen. Ter referentie: GPT-4 heeft 100 biljoen parameters, terwijl Gemini 175 biljoen parameters heeft, waardoor het zeer efficiënte algoritmen voor kunstmatige intelligentie zijn. Meta’s kleinschalige model, Llama 3, wordt geleverd met 8 miljard parameters.
In december bracht Microsoft Phi-2 uit, die min of meer op hetzelfde niveau presteerde als grotere en capabelere modellen zoals de Llama 2. Het bedrijf beweert dat de Phi-3 veel betere prestaties kan leveren dan de vorige versie en antwoorden kan bieden die dicht bij LLM’s 10 liggen. keer groter dan het.
SLM’s zijn goedkoper in gebruik en beter geschikt voor persoonlijke apparaten
Sebastien Bubeck, vicepresident van Microsoft voor generatief AI-onderzoek, zei dat de Phi-3 “dramatisch goedkoper” is dan andere modellen op de markt met vergelijkbare mogelijkheden. Ondertussen vertelde Eric Boy, corporate VP van het Azure AI Platform van het bedrijf, aan The Verge dat de SLM net zo capabel is als LLM’s zoals GPT-3.5, maar in een kleinere vormfactor.
Kleine AI-modellen zijn goedkoper in gebruik dan grote taalmodellen en presteren beter op persoonlijke apparaten zoals smartphones en computers. Google’s Gemma 2B en 7B zijn goed voor eenvoudige chatbot- en taalgerelateerde functies, Claude 3 Haiku van Anthropic kan uitgebreide onderzoekspapers met grafieken lezen en deze onmiddellijk samenvatten, en Meta’s onlangs gelanceerde Llama 3 8B kan worden gebruikt voor chatbot- en codeerhulp.
Microsoft gebruikte een LLM om Phi-3 Mini te trainen en werd geïnspireerd door kinderboeken
Toen hem werd gevraagd naar het trainingscurriculum van Phi-3, zei Boyd dat het team geïnspireerd was door de manier waarop kinderen leren van verhaaltjes voor het slapengaan, boeken met eenvoudigere woorden en zinnen die zijn gestructureerd in een gemakkelijk te begrijpen formaat en waarin grotere onderwerpen worden besproken.
Microsoft-ontwikkelaars maakten een lijst van 3.000 woorden en vroegen een LLM om Phi-3 te onderwijzen. De SLM gaat verder waar eerdere versies gebleven zijn. Terwijl Phi-1 zich concentreerde op coderen en Phi-2 leerde redeneren, is Phi-3 beter in zowel coderen als redeneren.
Boyd zegt dat bedrijven vaak kleinere taalmodellen vinden die beter werken voor hun aangepaste toepassingen. Omdat veel van hun interne datasets kleiner zijn dan grotere modellen, en omdat ze minder rekenkracht verbruiken, lijken SLM’s de meer betaalbare en geschikte optie.
Het kleinere formaat van Phi-3 is ook een voordeel omdat het lokaal kan draaien op hardware met een laag energieverbruik, zoals smartphones, en zijn computertaken niet hoeft over te dragen aan de vrij dure cloudgebaseerde verwerkingscentra.
Meer nieuws: Google Combineert Zijn Android- En Onderzoeksteams Te Midden Van AI-push