Компьютерные новости
Все разделы
Intel и Институт Вейцмана: прорыв в ИИ-декодировании ускорит работу больших языковых моделей
На Международной конференции по машинному обучению (ICML) исследователи из Intel Labs и Института наук Вейцмана представили значительный прогресс в спекулятивном декодировании. Новая техника позволяет любой небольшой "черновой" модели ускорять любую большую языковую модель (LLM) независимо от различий в словарном запасе.

"Мы решили основную неэффективность генеративного ИИ. Наше исследование показывает, как превратить спекулятивное ускорение в универсальный инструмент," — отметил Орен Перег, старший научный сотрудник Группы обработки естественного языка Intel Labs.
Что такое спекулятивное декодирование и почему это важно?
Спекулятивное декодирование — это метод оптимизации логического вывода, делающий LLM быстрее и эффективнее без потери точности. Он работает путём объединения небольшой, быстрой модели с более крупной, точной.
Принцип работы:
- Малая модель (ассистентная) быстро генерирует "черновик" полной фразы.
- Большая модель затем проверяет эту последовательность.
Это значительно сокращает количество циклов вычисления на выходной токен. Например, если традиционная LLM вычисляет каждое слово фразы "Париж, известный город..." отдельно, то со спекулятивным декодированием малая модель предлагает всю фразу сразу, а большая лишь проверяет её.
Универсальность и преимущества прорыва
Метод, разработанный Intel и Институтом Вейцмана, устраняет предыдущие ограничения, такие как необходимость общих словарей или совместно обученных семейств моделей. Это делает спекулятивное декодирование практичным для гетерогенных моделей (от разных разработчиков и экосистем).
Ключевые преимущества:
- Ускорение: До 2,8 раз быстрее вывод без потери качества.
- Универсальность: Работает с любой небольшой черновой моделью и любой крупной моделью.
- Независимость от поставщика: Совместимость с моделями от разных разработчиков.
- Открытый код: Алгоритмы уже интегрированы в библиотеку Hugging Face Transformers, что позволяет миллионам разработчиков использовать их "из коробки" без написания собственного кода.
Этот прорыв способствует открытости, взаимодействию и экономически эффективному развёртыванию генеративного ИИ от облака до периферии, позволяя разработчикам и предприятиям оптимизировать свои решения в зависимости от потребностей в производительности и аппаратных ограничениях.









