Новый метод искусственного интеллекта получил награду NeurIPS

Сеть ODE – это инновационная модель глубоких нейронных сетей.

pixabay/geralt

Источник: pixabay / geralt

Недавние прорывы в области искусственного интеллекта (ИИ) во многом связаны с глубоким обучением, техникой машинного обучения, которая позволяет компьютеру учиться на данных, передаваемых через несколько уровней обработки, а не на основе явного жесткого кодирования. Большинство моделей глубокого обучения – это искусственные нейронные сети с архитектурными концепциями, в некоторой степени вдохновленные биологическими нейронами человеческого мозга. В прошлом месяце на конференции NeurIPS команда исследователей ИИ из Университета Торонто и Института векторов Торонто, Канада, получила «Награду за лучшую работу» за «Обыкновенные дифференциальные уравнения в нервной системе» – одну из четырех работ, выбранных из многие тысячи научных работ, представленных на одной из крупнейших конференций, посвященных искусственному интеллекту.

Тренировать глубокую нейронную сеть со многими слоями гораздо сложнее, чем с мелкой архитектурой, которая содержит один или два уровня вычислений. Одна из проблем обучения на основе градиента нейронных сетей с глубоким наблюдением состоит в том, что с большим количеством уровней вычислений труднее получить хорошее обобщение по мере деградации. Kaiming He и его команда в Microsoft Research решили проблему деградации, переформулировав уровни как обучающиеся остаточные функции со ссылкой на входные данные уровней. Остаточные сети работают путем определения дискретной последовательности конечных преобразований. Исследователи обнаружили, что их остаточные сети могут получить точность при увеличении глубины сети, и их также легче оптимизировать.

Однако такой подход может оказаться проблематичным для систем искусственного интеллекта, где ввод данных происходит случайно, а не с дискретными интервалами. Традиционная рекуррентная архитектура временных рядов нейронной сети требует дискретных интервалов для ввода данных. Взять, к примеру, автомобили. Хорошо функционирующее транспортное средство обычно может посещать дилера для регулярного технического обслуживания. Но что происходит, когда происходит автомобильная авария, отзыв или неожиданная неисправность? В реальной жизни точки данных часто встречаются в случайные моменты времени – подгонка данных к дискретным интервалам может способствовать снижению точности.

Исследовательская группа по искусственному интеллекту Дэвид Дювено, Джесси Беттенкур, Рики Т. К. Чен и Юлия Рубанова представили новый тип масштабируемой модели глубоких нейронных сетей, которая эффективно использует память и параметры. Вместо того чтобы использовать дискретную последовательность слоев конечных преобразований, они применили принципы исчисления для создания модели непрерывной глубины, состоящей из сети ODE (обыкновенного дифференциального уравнения).

Исследовательская группа параметризовала «непрерывную динамику скрытых единиц, используя обыкновенное дифференциальное уравнение (ODE), заданное нейронной сетью». Сеть ODE создает выходные данные, используя решатель дифференциальных уравнений черного ящика, который использует сопряженный метод для вычисления градиентов.

Этот структурный подход может иметь несколько преимуществ. Их модель не хранит промежуточные количества прямого прохода, поэтому она экономична, когда речь идет о памяти. Решение также является эффективным по параметрам. Для контролируемых задач обучения требуется меньше параметров, потому что параметры соседних слоев автоматически объединяются, когда динамика скрытых единиц задается как непрерывная функция времени. Модель сети ODE – это модель непрерывных временных рядов, разработанная для учета случайных временных параметров входных данных.

Благодаря этим преимуществам сеть ODE способна нарушить работу глубоких нейронных сетей во многих областях, где события данных временных рядов могут не происходить через регулярные промежутки времени, такие как мониторинг пациентов здравоохранения, производство, персонализированная медицина, научные исследования, автономные транспортные средства, фармакогеномика. системы отслеживания активов, финансовая торговля, обслуживание клиентов, бизнес-аналитика и многие другие приложения. Это новая модель для глубоких нейронных сетей, которая может вывести искусственный интеллект на новый уровень в будущем.

Рекомендации

Чен, Рикки Т.К., Рубанова, Юлия, Беттенкур, Джесси, Дювено, Давид. «Нейронные обыкновенные дифференциальные уравнения». ArXiv: 1806.07366 . 19 июня 2018 г.

Бенжио, Йошуа. «Изучение глубокой архитектуры для ИИ». Основы и тенденции в машинном обучении . Том 2, № 1 (2009).

Он, Кайминг, Чжан, Сянюй, Рен Шаоцин, Сунь, Цзянь. «Глубокое остаточное обучение для распознавания изображений». ArXiv: 1512.03385v1. 10 декабря 2015 г.