ExLlama ist eine speichereffiziente Implementierung von Llama, optimiert für quantisierte Gewichte. Es wurde entwickelt, um auf modernen GPUs schnell und speichereffizient zu arbeiten. Die Projektfortschritte sind vielversprechend, obwohl es sich noch im Entwicklungsstadium befindet. Die Anforderungen umfassen eine NVIDIA GPU der 30er Serie oder neuere Modelle. Die Nutzung ist über Docker oder eine einfache Weboberfläche möglich.
Loading...Loading...
Loading...
We use cookies
We use cookies to ensure you get the best experience on our website. For more information on how we use cookies, please see our cookie policy.
By clicking accept, you agree to our use of cookies. Learn more.