AWS Neuron führt spekulative Dekodierung und vLLM-Unterstützung ein

Heute kündigt AWS die Veröffentlichung von Neuron 2.18 an. Damit wird eine stabile Unterstützung (außerhalb der Betaversion) für PyTorch 2.1 eingeführt, kontinuierliches Batching mit vLLM-Unterstützung hinzugefügt und Unterstützung für spekulative Dekodierung mit dem Llama-2-70B-Sample in der Transformers-NeuronX-Bibliothek hinzugefügt.
Quelle: aws.amazon.com

Published by