Vladimir Malinovsky, een onderzoeker bij de wetenschappelijke afdeling van Yandex, heeft een baanbrekende dienst ontwikkeld die het mogelijk maakt om grote taalmodellen met 8 miljard parameters te draaien op gewone computers of zelfs smartphones, direct via een webbrowser. Hier is een overzicht van deze innovatieve technologie:

Toegankelijk op Standaardapparaten

  • De dienst maakt gebruik van Llama 3.1-8B, een groot taalmodel dat in grootte is gereduceerd met een factor acht—van 20GB naar 2,5GB.
  • Gebruikers kunnen de dienst testen op een speciaal webpagina, waar het model naar hun apparaat wordt gedownload voor offline gebruik.

Offline Functionaliteit

  • Na het downloaden werkt het model volledig zonder internetverbinding, wat privacy en onafhankelijkheid van clouddiensten garandeert.

Prestaties

  • De snelheid van het model hangt af van de verwerkingskracht van het apparaat:
    • Bijvoorbeeld, op een MacBook Pro met een M1-processor genereert het model ongeveer 3-4 tekens per seconde.

Gebouwd met Moderne Technologieën

  • Rust en WebAssembly:
    • De dienst is geschreven in Rust en maakt gebruik van WebAssembly, een technologie die het mogelijk maakt om applicaties efficiënt binnen een webbrowser te laten draaien op meerdere platforms en talen.

Geavanceerde Compressietechnieken

  • De dienst maakt gebruik van geavanceerde methoden die gezamenlijk zijn ontwikkeld door:
    • Yandex Research
    • Institute of Science and Technology Austria (ISTA)
    • King Abdullah University of Science and Technology (KAUST)

Twee Kernhulpmiddelen

  1. Modelcompressie:
    • Comprimeert modellen tot acht keer, waardoor ze op een enkele GPU kunnen draaien in plaats van meerdere GPU's.
  2. Foutcorrectie:
    • Vermindert fouten die tijdens de compressie zijn geïntroduceerd, waardoor de hoge kwaliteit van de reacties van het neurale netwerk wordt gewaarborgd.

Lancering en Open Source

  • Het project werd voor het eerst gepresenteerd in de zomer van 2024 en is sindsdien beschikbaar gesteld aan het publiek.
  • De broncode is openlijk toegankelijk op GitHub, waarmee ontwikkelaars worden uitgenodigd om deze innovatie te verkennen en verder te ontwikkelen.