🤖 Google ускоряет нейросети в восемь раз с TurboQuant
Google представила TurboQuant — алгоритм сжатия памяти для искусственного интеллекта, снижающий требования к ресурсам для работы с большими языковыми моделями. TurboQuant использует два механизма: сжатие векторов в полярной системе координат и математический контролер, что позволяет сократить потребление памяти и увеличить скорость вычислений. Разработка успешно протестирована на моделях Llama, Gemma и Mistral, где кэш был сжат до трех бит без потери качества, а скорость увеличилась в восемь раз. Технология будет внедрена в поисковые алгоритмы Google и ИИ-продукты, включая Gemini.