По словам учёных, они устранили серьёзное препятствие для развития ИИ

По мнению учёных, новая архитектура заменяет традиционные узкие места пассивной однократной операцией со скоростью света, которая может стать базовым аппаратным обеспечением для общего искусственного интеллекта.


alt

(Фото: fotograzia, Getty Images)


Ученые разработали базовую архитектуру для оптических вычислений нового поколения, в которой для питания чипов используется свет, а не электричество. Это может кардинально изменить процесс обучения и применения моделей искусственного интеллекта (ИИ).


В основе больших языковых моделей (БЯМ) и моделей, основанных на глубоком обучении, лежит взвешенная организационная структура, называемая «тензором». Она работает как картотечный шкаф с наклейками, указывающими, какие ящики используются чаще всего.


Когда модель ИИ обучается выполнять задачу или функцию, например распознавать изображение или прогнозировать текстовую строку, она сортирует данные по этим тензорам. В современных системах ИИ скорость, с которой модели могут обрабатывать тензорные данные — или сортировать их по папкам, — является фундаментальным узким местом в производительности, которое накладывает жёсткие ограничения на размер модели.


В типичных вычислениях на основе света модели анализируют тензоры, многократно активируя лазерные матрицы. Они работают как машина, которая сканирует штрихкод на упаковке, чтобы определить её содержимое, только в данном случае каждый контейнер соответствует математической задаче. Объём вычислительной мощности, необходимый для обработки этих чисел, зависит от встроенных возможностей моделей.


Хотя вычисления на основе света быстрее и энергоэффективнее в небольших масштабах, большинство оптических систем не могут работать параллельно. В отличие от графических процессоров (GPU), которые можно объединять в цепочки для экспоненциального увеличения объёма и доступности вычислительной мощности, оптические системы обычно работают линейно. Из-за этого большинство разработчиков пренебрегают оптическими вычислениями в пользу преимуществ параллельной обработки, которые дают увеличение мощности в масштабе.


Именно из-за этого узкого места в масштабировании для обучения и работы самых мощных моделей, созданных такими компаниями, как OpenAI, Anthropic, Google и xAI, требуются тысячи графических процессоров, работающих в тандеме.


Но новая архитектура под названием «Параллельное оптическое матрично-матричное умножение» (Parallel Optical Matrix-Matrix Multiplication, POMMM) может решить проблему, которая сдерживала развитие оптических вычислений. В отличие от предыдущих оптических методов, она позволяет выполнять несколько тензорных операций одновременно с помощью одного лазерного импульса.


В результате была разработана базовая аппаратная платформа для ИИ, способная увеличить скорость обработки тензоров в конкретной системе ИИ до уровня, превосходящего возможности современного электронного оборудования, при этом снизив энергопотребление.


Оптические вычисления нового поколения и аппаратное обеспечение для искусственного интеллекта

В исследовании, опубликованном 14 ноября в журнале Nature Photonics, подробно описаны результаты экспериментального прототипа оптических вычислений, а также серия сравнительных тестов со стандартными схемами обработки оптических сигналов и графических процессоров.


Учёные использовали определённую комбинацию традиционных оптических аппаратных компонентов, а также новый метод кодирования и обработки для захвата и анализа тензорных пакетов с помощью одного лазерного импульса.


Им удалось закодировать цифровые данные в амплитуде и фазе световых волн, превратив данные в физические свойства оптического поля. Эти световые волны объединяются для выполнения математических операций, таких как матричное или тензорное умножение.


Эти оптические операции не требуют дополнительной энергии для обработки в рамках данной парадигмы, поскольку они происходят пассивно по мере распространения света. Это устраняет необходимость в управлении или переключении во время обработки, а также в энергии, необходимой для выполнения этих функций.


«Этот подход можно реализовать практически на любой оптической платформе», — заявил ведущий автор исследования Чжипэй Сан, руководитель группы по фотонике в Университете Аалто, в заявлении. «В будущем мы планируем интегрировать эту вычислительную систему непосредственно в фотонные чипы, что позволит световым процессорам выполнять сложные задачи искусственного интеллекта при чрезвычайно низком энергопотреблении.»


По оценкам Чжана, этот подход может быть интегрирован в основные платформы ИИ в течение трёх-пяти лет.


Ускоритель общего искусственного интеллекта

Представители компании назвали это шагом на пути к общему искусственному интеллекту (AGI) следующего поколения — гипотетической системе ИИ будущего, которая умнее людей и может обучаться в различных дисциплинах независимо от обучающих данных.


Чжан добавил в своём заявлении: «Это позволит создать новое поколение оптических вычислительных систем, которые значительно ускорят выполнение сложных задач ИИ в самых разных областях».


Хотя в самой статье не упоминается ОИИ, в ней несколько раз говорится о вычислениях общего назначения.


Представление о том, что масштабирование современных методов разработки ИИ является жизнеспособным путем к достижению AGI, настолько распространено среди определенных слоев сообщества информатиков, что вы можете купить футболки с надписью "масштабирование - это все, что вам нужно".


Другие ученые, такие как уходящий в отставку главный специалист Meta по искусственному интеллекту Янн Лекун, не согласны с этим, говоря, что LLMS — текущая архитектура искусственного интеллекта золотого стандарта — никогда не достигнет статуса AGI, независимо от того, насколько далеко и глубоко они масштабируются.


По словам учёных, с помощью POMMM они, возможно, нашли решающий элемент аппаратной головоломки, необходимый для устранения одного из самых серьёзных препятствий в этой области, что позволит разработчикам выйти далеко за рамки существующей парадигмы.

Отправить комментарий

Новые Старые

Новости партнеров