По мнению учёных, новая архитектура заменяет традиционные узкие места пассивной однократной операцией со скоростью света, которая может стать базовым аппаратным обеспечением для общего искусственного интеллекта.
(Фото: fotograzia, Getty Images)
Ученые разработали базовую архитектуру для оптических вычислений нового поколения, в которой для питания чипов используется свет, а не электричество. Это может кардинально изменить процесс обучения и применения моделей искусственного интеллекта (ИИ).
В основе больших языковых моделей (БЯМ) и моделей, основанных на глубоком обучении, лежит взвешенная организационная структура, называемая «тензором». Она работает как картотечный шкаф с наклейками, указывающими, какие ящики используются чаще всего.
Когда модель ИИ обучается выполнять задачу или функцию, например распознавать изображение или прогнозировать текстовую строку, она сортирует данные по этим тензорам. В современных системах ИИ скорость, с которой модели могут обрабатывать тензорные данные — или сортировать их по папкам, — является фундаментальным узким местом в производительности, которое накладывает жёсткие ограничения на размер модели.
В типичных вычислениях на основе света модели анализируют тензоры, многократно активируя лазерные матрицы. Они работают как машина, которая сканирует штрихкод на упаковке, чтобы определить её содержимое, только в данном случае каждый контейнер соответствует математической задаче. Объём вычислительной мощности, необходимый для обработки этих чисел, зависит от встроенных возможностей моделей.
Хотя вычисления на основе света быстрее и энергоэффективнее в небольших масштабах, большинство оптических систем не могут работать параллельно. В отличие от графических процессоров (GPU), которые можно объединять в цепочки для экспоненциального увеличения объёма и доступности вычислительной мощности, оптические системы обычно работают линейно. Из-за этого большинство разработчиков пренебрегают оптическими вычислениями в пользу преимуществ параллельной обработки, которые дают увеличение мощности в масштабе.
Именно из-за этого узкого места в масштабировании для обучения и работы самых мощных моделей, созданных такими компаниями, как OpenAI, Anthropic, Google и xAI, требуются тысячи графических процессоров, работающих в тандеме.
Но новая архитектура под названием «Параллельное оптическое матрично-матричное умножение» (Parallel Optical Matrix-Matrix Multiplication, POMMM) может решить проблему, которая сдерживала развитие оптических вычислений. В отличие от предыдущих оптических методов, она позволяет выполнять несколько тензорных операций одновременно с помощью одного лазерного импульса.
В результате была разработана базовая аппаратная платформа для ИИ, способная увеличить скорость обработки тензоров в конкретной системе ИИ до уровня, превосходящего возможности современного электронного оборудования, при этом снизив энергопотребление.
Оптические вычисления нового поколения и аппаратное обеспечение для искусственного интеллекта
В исследовании, опубликованном 14 ноября в журнале Nature Photonics, подробно описаны результаты экспериментального прототипа оптических вычислений, а также серия сравнительных тестов со стандартными схемами обработки оптических сигналов и графических процессоров.
Учёные использовали определённую комбинацию традиционных оптических аппаратных компонентов, а также новый метод кодирования и обработки для захвата и анализа тензорных пакетов с помощью одного лазерного импульса.
Им удалось закодировать цифровые данные в амплитуде и фазе световых волн, превратив данные в физические свойства оптического поля. Эти световые волны объединяются для выполнения математических операций, таких как матричное или тензорное умножение.
Эти оптические операции не требуют дополнительной энергии для обработки в рамках данной парадигмы, поскольку они происходят пассивно по мере распространения света. Это устраняет необходимость в управлении или переключении во время обработки, а также в энергии, необходимой для выполнения этих функций.
«Этот подход можно реализовать практически на любой оптической платформе», — заявил ведущий автор исследования Чжипэй Сан, руководитель группы по фотонике в Университете Аалто, в заявлении. «В будущем мы планируем интегрировать эту вычислительную систему непосредственно в фотонные чипы, что позволит световым процессорам выполнять сложные задачи искусственного интеллекта при чрезвычайно низком энергопотреблении.»
По оценкам Чжана, этот подход может быть интегрирован в основные платформы ИИ в течение трёх-пяти лет.
Ускоритель общего искусственного интеллекта
Представители компании назвали это шагом на пути к общему искусственному интеллекту (AGI) следующего поколения — гипотетической системе ИИ будущего, которая умнее людей и может обучаться в различных дисциплинах независимо от обучающих данных.
Чжан добавил в своём заявлении: «Это позволит создать новое поколение оптических вычислительных систем, которые значительно ускорят выполнение сложных задач ИИ в самых разных областях».
Хотя в самой статье не упоминается ОИИ, в ней несколько раз говорится о вычислениях общего назначения.
Представление о том, что масштабирование современных методов разработки ИИ является жизнеспособным путем к достижению AGI, настолько распространено среди определенных слоев сообщества информатиков, что вы можете купить футболки с надписью "масштабирование - это все, что вам нужно".
Другие ученые, такие как уходящий в отставку главный специалист Meta по искусственному интеллекту Янн Лекун, не согласны с этим, говоря, что LLMS — текущая архитектура искусственного интеллекта золотого стандарта — никогда не достигнет статуса AGI, независимо от того, насколько далеко и глубоко они масштабируются.
По словам учёных, с помощью POMMM они, возможно, нашли решающий элемент аппаратной головоломки, необходимый для устранения одного из самых серьёзных препятствий в этой области, что позволит разработчикам выйти далеко за рамки существующей парадигмы.
