Yandex Research-medewerker ontwikkelt dienst voor het draaien van groot taalmodel Llama 3.1 'op een gewone computer' Yandex Research-medewerker ontwikkelt dienst voor het draaien van groot taalmodel Llama 3.1 'op een gewone computer'

Vladimir Malinovsky, een onderzoeker bij de wetenschappelijke afdeling van Yandex, heeft een baanbrekende dienst ontwikkeld die het mogelijk maakt om grote taalmodellen met 8 miljard parameters te draaien op gewone computers of zelfs smartphones, direct via een webbrowser. Hier is een overzicht van deze innovatieve technologie:

Toegankelijk op Standaardapparaten

De dienst maakt gebruik van Llama 3.1-8B, een groot taalmodel dat in grootte is gereduceerd met een factor acht—van 20GB naar 2,5GB.
Gebruikers kunnen de dienst testen op een speciaal webpagina, waar het model naar hun apparaat wordt gedownload voor offline gebruik.

Offline Functionaliteit

Na het downloaden werkt het model volledig zonder internetverbinding, wat privacy en onafhankelijkheid van clouddiensten garandeert.

Prestaties

De snelheid van het model hangt af van de verwerkingskracht van het apparaat:
- Bijvoorbeeld, op een MacBook Pro met een M1-processor genereert het model ongeveer 3-4 tekens per seconde.

Gebouwd met Moderne Technologieën

Rust en WebAssembly:
- De dienst is geschreven in Rust en maakt gebruik van WebAssembly, een technologie die het mogelijk maakt om applicaties efficiënt binnen een webbrowser te laten draaien op meerdere platforms en talen.

Geavanceerde Compressietechnieken

De dienst maakt gebruik van geavanceerde methoden die gezamenlijk zijn ontwikkeld door:
- Yandex Research
- Institute of Science and Technology Austria (ISTA)
- King Abdullah University of Science and Technology (KAUST)

Twee Kernhulpmiddelen

Modelcompressie:
- Comprimeert modellen tot acht keer, waardoor ze op een enkele GPU kunnen draaien in plaats van meerdere GPU's.
Foutcorrectie:
- Vermindert fouten die tijdens de compressie zijn geïntroduceerd, waardoor de hoge kwaliteit van de reacties van het neurale netwerk wordt gewaarborgd.

Lancering en Open Source

Het project werd voor het eerst gepresenteerd in de zomer van 2024 en is sindsdien beschikbaar gesteld aan het publiek.
De broncode is openlijk toegankelijk op GitHub, waarmee ontwikkelaars worden uitgenodigd om deze innovatie te verkennen en verder te ontwikkelen.

Toegankelijk op Standaardapparaten

Offline Functionaliteit

Prestaties

Gebouwd met Moderne Technologieën

Geavanceerde Compressietechnieken

Twee Kernhulpmiddelen

Lancering en Open Source

Meer in deze categorie AI

De ethiek van autonome wapens: Kan AI worden gereguleerd in oorlogsvoering?

OpenAI kondigt volgende familie van redeneermodellen aan — o3

Nvidia onthult compacte AI-supercomputer voor ontwikkelaars — het past in je hand

OpenAI geeft Sora-videogenerator officieel vrij voor openbaar gebruik

Sluit je aan bij onze community 👋