Verify Tool

ExLlama

Ein speichereffizientes Rewrite der Llama-Implementierung.

Automation

Code

Research

github.com

Lädt Bewertungen...

Teile ExLlama mit deinen Freunden:

Über ExLlama

ExLlama ist eine speichereffiziente Implementierung von Llama, optimiert für quantisierte Gewichte. Es wurde entwickelt, um auf modernen GPUs schnell und speichereffizient zu arbeiten. Die Projektfortschritte sind vielversprechend, obwohl es sich noch im Entwicklungsstadium befindet. Die Anforderungen umfassen eine NVIDIA GPU der 30er Serie oder neuere Modelle. Die Nutzung ist über Docker oder eine einfache Weboberfläche möglich.