Gedachten over OpenAI's taalmodellen o1 en o3 in 5 seconden

  • In september 2024 presenteerde het bedrijf een preview van het o1-taalmodel.
  • OpenAI kondigde de o3 en o3-mini modellen aan.
    • Het vorige model heet o1.
    • Het bedrijf sloeg opzettelijk een cijfer over "uit respect voor Telefonica (een telecombedrijf dat onder het merk O2 opereert) en de traditie van het bedenken van slechte namen," zei OpenAI CEO Sam Altman.
  • Ontwikkelaars hebben o3 getraind om "na te denken" voordat het een gebruikersvraag beantwoordt.
    • Het model reageert met een lichte vertraging.
    • Het herhaalt zijn redeneerketen voordat het het antwoord geeft dat het als het meest nauwkeurig beschouwt, volgens TechCrunch.
  • Gebruikers kunnen de tijd voor redeneren "aanpassen" — hoe meer tijd het model krijgt, hoe beter het een verzoek kan afhandelen.
  • In de ARC-AGI test, ontworpen om het vermogen van AI te meten om vaardigheden te leren buiten zijn trainingsdata, scoorde o3 87,5%.
    • Een score van 85% wordt beschouwd als "menselijk niveau."
    • TechCrunch merkt op dat deze resultaten met voorzichtigheid moeten worden bekeken in afwachting van externe tests.
Een vergelijking van de previewversie van o1, o1 en o3 prestaties:Linker grafiek: een wiskundewedstrijdRechter grafiek: een vragenlijst met wetenschappelijke vragen op graduate-niveauVerticale schaal: nauwkeurigheid van antwoorden (bron: OpenAI)
  • Momenteel zijn beide modellen niet beschikbaar voor het grote publiek, maar zullen ze openstaan voor openbare veiligheidstests — beveiligingsonderzoekers kunnen ze testen.
    • Volgens Altman is OpenAI van plan om o3-mini eind januari 2025 uit te brengen, gevolgd door o3.
  • OpenAI introduceerde de preview van het o1-taalmodel (gericht op taken die intensief redeneren vereisen) in september 2024.
    • Begin december bracht het bedrijf de volledige versie van o1 uit en voegde een ChatGPT Pro-abonnement toe met toegang tot een "exclusieve" versie.