Глубинное обучение: Введение в глубинное обучение

Содержание

Введение в глубинное обучение

Из статьи вы узнаете, что такое глубинное обучение. Также статья содержит множество ресурсов, которые вы сможете использовать для освоения этой области.

В современном мире, начиная со здравоохранения и заканчивая мануфактурным производством, повсеместно используется глубинное обучение. Компании обращаются к этой технологии для решения сложных проблем, таких как распознавание речи и объектов, машинный перевод и так далее.

Одним из самых впечатляющих достижений этого года был AlphaGo, обыгравший лучшего в мире игрока в го. Кроме как в го, машины обошли людей и в других играх: шашки, шахматы, реверси, и джеопарди.

Возможно, победа в настольной игре кажется неприменимой в решении реальных проблем, однако это совсем не так. Го был создан так, чтобы в нем не мог победить искусственный интеллект. Для этого ему необходимо было бы научиться одной важной для этой игры вещи – человеческой интуиции. Теперь с помощью данной разработки возможно решить множество проблем, недоступных компьютеру раньше.

Очевидно, глубинное обучение еще далеко от совершенства, но оно уже близко к тому, чтобы приносить коммерческую пользу. Например, эти самоуправляемые машины. Известные компании вроде Google, Tesla и Uber уже пробуют внедрить автономные автомобили на улицы города.

Ford предсказывает значительное увеличение доли беспилотных транспортных средств уже к 2021 году. Правительство США также успело разработать для них свод правил безопасности.

Что такое глубинное обучение?

Чтобы ответить на этот вопрос, нужно понять, как оно взаимодействует с машинным обучением, нейросетями и искусственным интеллектом. Для этого используем метод визуализации с помощью концентрических кругов:

Внешний круг – это искусственный интеллект в целом (например, компьютеры). Чуть дальше – машинное обучение, а совсем в центре – глубинное обучение и искусственные нейросети.

Грубо говоря, глубинное обучение – просто более удобное название для искусственных нейросетей. «Глубинное» в этом словосочетании обозначает степень сложности (глубины) нейросети, которая зачастую может быть весьма поверхностной.

Создатели первой нейросети вдохновлялись структурой коры головного мозга. Базовый уровень сети, перцептрон, является по сути математическим аналогом биологического нейрона. И, как и в головном мозге, в нейросети могут появляться пересечённые друг с другом перцептроны.

Первый слой нейросети называется входным. Каждый узел этого слоя получает на вход какую-либо информацию и передает ее на последующие узлы в других слоях. Чаще всего между узлами одного слоя нет связей, а последний узел цепочки выводит результат работы нейросети.

Узлы посередине называются скрытыми, поскольку не имеют соединений с внешним миром, как узлы вывода и ввода. Они вызываются только в случае активации предыдущих слоев.

Глубинное обучение – это по сути техника обучения нейросети, которая использует множество слоев для решения сложных проблем (например, распознавания речи) с помощью шаблонов. В восьмидесятых годах большинство нейросетей были однослойными в силу высокой стоимости и ограниченности возможностей данных.

Если рассматривать машинное обучение как ответвление или вариант работы искусственного интеллекта, то глубинное обучение – это специализированный тип такого ответвления.

Машинное обучение использует компьютерный интеллект, который не дает ответа сразу. Вместо этого код будет запускаться на тестовых данных и, исходя из правильности их результатов, корректировать свой ход. Для успешности этого процесса обычно используются разнообразные техники, специальное программное обеспечение и информатика, описывающая статические методы и линейную алгебру.

Методы глубинного обучения

Методы глубинного обучения делятся на два основных типа:

  • Обучение с учителем
  • Обучение без учителя

Первый способ использует специально отобранные данные, чтобы добиться желаемого результата. Он требует довольно много человеческого вмешательства, ведь данные приходится выбирать вручную. Однако он удобен для классификации и регрессии.

Представьте, что вы владелец компании и хотите определить влияние премий на продолжительность контрактов с вашими подчиненными. При наличии заранее собранных данных, метод обучения с учителем был бы незаменим и очень эффективен.

Второй же способ не подразумевает заранее заготовленных ответов и алгоритмов работы. Он направлен на выявление в данных скрытых шаблонов. Обычно его используют для кластеризации и ассоциативных задач, например для группировки клиентов по поведению. «С этим также выбирают» на Amazon – вариант ассоциативной задачи.

В то время как метод обучения с учителем довольно часто вполне удобен, его более сложный вариант все же лучше. Глубинное обучение зарекомендовало себя как нейросеть, не нуждающаяся в надзоре человека.

Важность глубинного обучения

Компьютеры уже давно используют технологии распознавания определенных черт на изображении. Однако результаты были далеки от успеха. Компьютерное зрение оказало на глубинное обучение невероятное влияние. Именно эти две техники в данный момент решают все задачи на распознавание.

В частности, в распознавании лиц на фотографиях с помощью глубинного обучения преуспел Facebook. Это не простое улучшение технологии, а поворотный момент, изменяющий все более ранние представления: «Человек может с вероятностью в 97.53% определить, один ли человек представлен на двух разных фотографиях. Программа, разработанная командой Facebook, может делать это с вероятностью в 97.25% вне зависимости от освещения или того, смотрит ли человек прямо в камеру или повернут к ней боком».

Распознавание речи тоже претерпело значительные изменения. Команда Baidu – одного из лидирующих поисковиков Китая – разработала систему распознавания речи, сумевшую опередить человека в скорости и точности написания текста на мобильных устройствах. На английском и мандаринском.

Что особенно занимательно – написание общей нейросети для двух абсолютно разных языков не потребовало особенного труда: «Так исторически сложилось, что люди видели Китайский и Английский, как два совершенно разных языка, поэтому и подход к каждому из них требовался различный», — говорит начальник исследовательского центра Baidu, Andrew Ng. «Алгоритмы обучения сейчас настолько обобщены, что вы можете просто обучаться».

Google использует глубинное обучение для управления энергией в дата-центрах компании. Они смогли сократить затраты ресурсов для охлаждения на 40%. Это около 15% повышения эффективности энергопотребления и миллионы долларов экономии.

Микросервисы глубинного изучения

Вот краткий обзор сервисов, связанных с глубинным обучением.

Illustration Tagger. Дополненный Illustration2Vec, этот сервис позволяет отмечать изображения с рейтингом «защищенный», «сомнительный», «опасный», «копирайт» или «общий» для того, чтобы заранее понять содержание картинки.

Классификатор возраста использует технологии анализа фотографии для определения возраста человека. Places 365 Classifier использует заранее натренированную нейросеть в сочетании с базой данных за 2016 год для определения местоположение человека по фотографии (например, деревня, аптека, номер гостиной, горы и так далее). Не стоит забывать и о InceptionNet – прямом наследнике InceptionNet от Google. Эта нейросеть на основе анализа фотографии машины выдает пять лучших моделей, соответствующих этому автомобилю.

Open Source фреймворки о глубинном обучении

Доступность глубинного обучения обеспечена несколькими проектами с открытым исходным кодом. В этом списке есть как известные технологии, так и менее популярные. Он составлялся на основе направленности нейросети, сложности и академичности. Вот этот список:

DeepLearning4j(DL4J):

  • Основана на JVM
  • Свободное распространение
  • Интегрируется с Hadoop и Spark

Theano:

  • Популярна на Academia
  • Сказочно простая
  • Редактируется на Python и Numpy

Torch:

  • Основана на Lua
  • Домашняя версия используется компаниями Facebook и Twitter
  • Содержит заранее натренированные модели

TensowFlow:

  • Дополнение для Theano от Google
  • Редактируется на Python и Numpy
  • Зачастую применяется для решения определенного спектра проблем

Caffe:

  • Не общего назначения. Основной упор на машинное зрение
  • Редактируется на C++
  • Есть интерфейс на Python

Онлайн-курсы по глубинному обучению

Google и Udacity объединились для создания бесплатного курса по глубинному обучению, части Курса Машинного Обучения Udacity. Эту программу ведут опытные разработчики, желающие развить такую область, как машинное обучение и, в частности, глубинное обучение.

Другой популярный вариант – курс машинного обучения от Andrew Ng при поддержке Coursera и Стенфорда.

  1. Машинное обучение – Стенфорд от Andrew Ng на Coursera (2010-2014)
  2. Машинное обучение – Caltech от Yaser Abu-Mostafa (2012-2014)
  3. Машинное обучение – Carnegie Mellon от Tom Mitchell (Весна 2011)
  4. Нейросети для машинного обучения – Geoffrey Hinton на Coursera (2012)
  5. Класс по нейросетям – Hugo Larochelle из Université de Sherbrooke (2013

Книги по глубинному обучению

В то время как ресурсы из предыдущей секции опираются на довольно обширную базу знаний, книга «Grokking Deep Learning», наоборот, рассчитана на новичков. Как говорят авторы: «Если вы закончили 11 классов и примерно понимаете, как писать на Python, мы научим вас глубинному обучению».

Популярной альтернативной этой книге является книга с говорящим названием Deep Learning Book. Она особенно хороша тем, что описывает всю ту математику, что будет необходима вам для погружения в эту область.

    1. «Глубинное обучение» от Yoshua Bengio, Ian Goodfellow и Aaron Courville (2015)
  1. «Нейросети и глубинное обучение» от Michael Nielsen (2014)
  2. «Глубинное обучение» от Microsoft Research (2013)
  3. «Туториалы по глубинному обучению» от лаборатории LISA, Университета Монреаля (2015)
  4. «neuraltalk» от Andrej Karpathy
  5. «Введение в генетические алгоритмы»
  6. «Современный подход к искусственному интеллекту»
  7. «Обзор на глубинное обучение и нейросети»

Мало? Вот еще несколько книг по глубинному обучению 😉

Видеоролики и лекции

Deep Learning Simplified – чудесный YouTube-канал. Вот их первое видео:

  1. «Как создать разум» от Ray Kurzweil
  2. «Глубинное обучение, машинное обучение и обучение без учителя» от Andrew Ng
  3. «Последние нововведения в глубинном обучении» от Geoff Hinton
  4. «Ненужная эффективность глубинного обучения» от Yann LeCun
  5. «Образное глубинное обучение» от Yoshua Bengio
  6. «Основные принципы иерархии временной памяти» от Jeff Hawkins
  7. «Обсуждение машинного обучения» (Глубинное обучение) – от Adam Coates (Stanford AI Lab)

Лучшие Github-проекты

Наиболее популярные проекты, команды и туториалы на Github. В скобках указано количество звездочек. Последнее обновление 08.09.2016.

  1. TensorFlow (29622) – компьютеризация информационных графиков для масштабируемого машинного обучения
  2. Caffe (11799) – быстрый фреймворк с открытым исходным кодом, посвященный глубинному обучению
  3. Neural Style (10148) – использование Torch для алгоритмов нейросетей
  4. Deep Dream (9042) – проект команды Google с открытым исходным кодом
  5. Keras (7502) – библиотека по глубинному обучению на Python. Совместима с Theano и TensorFlow
  6. Roc AlphaGo (7170) – независимая студенческая реплика публикации на DeepMind в 2016 году «Овладение игрой Го с помощью глубинного обучения, нейросетей и веточного поиска»
  7. TensorFlow Models (6671) – модели, созданные на TensorFlow
  8. Neural Doodle (6275) – делайте произведения искусства из своих двухбитных болванок с помощью глубинного обучения, генерируйте разнообразные тексты на основе фотографий, переносите стили между изображениями и много-много другого.
  9. CNTK (5975) – набор инструментов для компьютеризации сетей
  10. TensorFlow Examples (5872) – уроки с примерами по TensorFlow для новичков
  11. ConvNet JS (5231) – глубинное обучение на JavaScript. Тренируйтесь в создании конволюционных (или обычных) нейросетей прямо в браузере.
  12. Torch (5133) – Torch7, библиотека по глубинному обучению.

 

Оригинал статьи доступен по ссылке.

 

обзор / Блог компании OTUS. Онлайн-образование / Хабр

Всем привет. Уже в этом месяце в ОТУС стартует новый курс — «Математика для Data Science». В преддверии старта данного курса традиционно делимся с вами переводом интересного материала.

Аннотация. Глубокое обучение является передовой областью исследований машинного обучения (machine learning — ML). Оно представляет из себя нескольких скрытых слоев искусственных нейронных сетей. Методология глубокого обучения применяет нелинейные преобразования и модельные абстракции высокого уровня на больших базах данных. Последние достижения во внедрении архитектуры глубокого обучения в многочисленных областях уже внесли значительный вклад в развитие искусственного интеллекта. В этой статье представлено современное исследование о вкладе и новых применениях глубокого обучения. Следующий обзор в хронологическом порядке представляет, как и в каких наиболее значимых приложениях использовались алгоритмы глубокого обучения. Кроме того, представлены выгода и преимущества методологии глубокого обучения в ее многослойной иерархии и нелинейных операциях, которые сравниваются с более традиционными алгоритмами в обычных приложениях. Обзор последних достижений в области далее раскрывает общие концепции, постоянно растущие преимущества и популярность глубокого обучения.

Искусственный интеллект (ИИ) как интеллект, демонстрируемый машинами, является эффективным подходом к пониманию человеческого обучения и формирования рассуждений [1]. В 1950 году «Тест Тьюринга» был предложен как удовлетворительное объяснение того, как компьютер может воспроизводить когнитивные рассуждения человека [2]. Как область исследований, ИИ делится на более конкретные подобласти. Например: обработка естественного языка (Natural Language Processing — NLP) [3] может улучшить качество письма в различных приложениях [4,17]. Самым классическим подразделением в NLP является машинный перевод, под которым понимают переводом между языками. Алгоритмы машинного перевода способствовали появлению различных приложений, которые учитывают грамматическую структуру и орфографические ошибки. Более того, набор слов и словарный запас, относящиеся к теме материала, автоматически используются в качестве основного источника, когда компьютер предлагает изменения для автора или редактора [5]. На рис. 1 подробно показано, как ИИ охватывает семь областей компьютерных наук.

В последнее время машинное обучение и интеллектуальный анализ данных попали в центр внимания и стали наиболее популярными темами среди исследовательского сообщества. Совокупность этих областей исследования анализируют множество возможностей характеризации баз данных [9]. На протяжении многих лет базы данных собирались в статистических целях. Статистические кривые могут описывать прошлое и настоящее, чтобы предсказывать будущие модели поведения. Тем не менее, в течение последних десятилетий для обработки этих данных использовались только классические методы и алгоритмы, тогда как оптимизация этих алгоритмов могла бы лечь в основу эффективного самообучения [19]. Улучшенный процесс принятия решений может быть реализован на основе существующих значений, нескольких критериев и расширенных методов статистики. Таким образом, одним из наиболее важных применений этой оптимизации является медицина, где симптомы, причины и медицинские решения создают большие базы данных, которые можно использовать для определения лучшего лечения [11].

Рис. 1. Исследования в области искусственного интеллекта (ИИ) Источник: [1].

Поскольку ML охватывает широкий спектр исследований, на данный момент уже разработано множество подходов. Кластеризация, байесовская сеть, глубокое обучение и анализ дерева решений — это только их часть. Следующий обзор в основном фокусируется на глубоком обучении, его основных понятиях, проверенных и современных применениях в различных областях. Кроме того, в нем представлены несколько рисунков, отражающих стремительный рост публикаций с исследованиями в области глубокого обучения за последние годы в научных базах данных.

Концепция глубокого обучения (Deep Learning — DL) впервые появилась в 2006 году как новая область исследований в машинном обучении. Вначале оно было известно как иерархическое обучение в [2], и как правило оно включало в себя множество областей исследований, связанных с распознаванием образов. Глубокое обучение в основном принимает в расчет два ключевых фактора: нелинейная обработка в нескольких слоях или стадиях и обучение под наблюдением или без него [4]. Нелинейная обработка в нескольких слоях относится к алгоритму, в котором текущий слой принимает в качестве входных данных выходные данные предыдущего слоя. Иерархия устанавливается между слоями, чтобы упорядочить важность данных, полезность которых следует установить. С другой стороны, контролируемое и неконтролируемое обучение связано с меткой классов целей: ее присутствие подразумевает контролируемую систему, а отсутствие — неконтролируемую.

Глубокое обучение подразумевает слои абстрактного анализа и иерархические методы. Тем не менее, оно может быть использовано в многочисленных реальных приложениях. Как пример, в цифровой обработке изображений; раскраска черно-белых изображений раньше выполнялась вручную пользователями, которым приходилось выбирать каждый цвет на основе своего собственного суждения. Применяя алгоритм глубокого обучения, раскраска может выполняться автоматически с помощью компьютера [10]. Точно так же звук может быть добавлен в видео с игрой на барабанах без звука с использованием рекуррентных нейронных сетей (Recurrent Neural Networks — RNN), которые являются частью методов глубокого обучения [18].

Глубокое обучение может быть представлено как метод улучшения результатов и оптимизации времени обработки в нескольких вычислительных процессах. В области обработки естественного языка методы глубокого обучения были применены для создания подписей к изображениям [20] и генерации рукописного текста [6]. Следующие применения детальнее классифицированы в таких областях как цифровая обработка изображений, медицина и биометрия.

3.1 Обработка изображений

До того, как глубокое обучение официально утвердилось в качестве нового исследовательского подхода, некоторые приложения были реализованы в рамках концепции распознавания образов посредством обработки слоев. В 2003 году был разработан интересный пример с применением фильтрации частиц и алгоритма распространения доверия (Bayesian – belief propagation). Основная концепция этого приложения полагает, что человек может распознавать лицо другого человека, наблюдая только половину изображения лица [14], поэтому компьютер может восстановить изображение лица из обрезанного изображения.

Позже в 2006 году жадный алгоритм и иерархия были объединены в приложение, способное обрабатывать рукописные цифры [7]. Недавние исследования применили глубокое обучение в качестве основного инструмента для цифровой обработки изображений. Например, применение сверточных нейронных сетей (Convolutional Neural Networks — CNN) для распознавания радужной оболочки может быть более эффективным, чем использование привычных датчиков. Эффективность CNN может достигать 99,35% точности [16].

Мобильное распознавание местоположения в настоящее время позволяет пользователю узнать определенный адрес на основе изображения. Алгоритм SSPDH (Supervised Semantics – Preserving Deep Hashing) оказался значительным улучшением по сравнению VHB (Visual Hash Bit) и SSFS (Space – Saliency Fingerprint Selection). Точность SSPDH аж на 70% эффективнее [15].

Наконец, еще одно замечательное применение в цифровой обработке изображений с использованием метода глубокого обучения — распознавание лиц. Google, Facebook и Microsoft имеют уникальные модели распознавания лиц с глубоким обучением [8]. В последнее время идентификация на основе изображения лица изменилась на автоматическое распознавание путем определения возраста и пола в качестве исходных параметров. Sighthound Inc., например, тестировали алгоритм глубокой сверточной нейронной сети, способный распознавать не только возраст и пол, но даже эмоции [3]. Кроме того, была разработана надежная система для точного определения возраста и пола человека по одному изображению путем применения архитектуры глубокого многозадачного обучения [21].

3.2 Медицина

Цифровая обработка изображений, несомненно, является важной частью исследовательских областей, где может применяться метод глубокого обучения. Таким же образом, недавно тестировались клинические приложения. Например, сравнение между малослойным обучением и глубоким обучением в нейронных сетях привело к лучшей эффективности в прогнозировании заболеваний. Изображение, полученное с помощью магнитно-резонансной томографии (МРТ) [22] из головного мозга человека, было обработано, чтобы предсказать возможную болезнь Альцгеймера [3]. Не смотря на быстрый успех этой процедуры, некоторые проблемы должны быть серьезно рассмотрены для будущих применений. Одними из ограничений являются тренировка и зависимость от высокого качества. Объем, качество и сложность данных являются сложными аспектами, однако интеграция разнородных типов данных является потенциальным аспектом архитектуры глубокого обучения [17, 23].

Оптическая когерентная томография (ОКТ) является еще одним примером, где методы глубокого обучения показывают весомые результаты. Традиционно изображения обрабатываются путем ручной разработки сверточных матриц [12]. К сожалению, отсутствие учебных наборов ограничивает метод глубокого обучения. Тем не менее, в течение нескольких лет внедрение улучшенных тренировочных наборов будет эффективно предсказывать патологии сетчатки и уменьшать стоимость технологии ОКТ [24].

3.3 Биометрия

В 2009 году было применено приложение для автоматического распознавания речи, чтобы уменьшить частоту телефонных ошибок (Phone Error Rate — PER) с использованием двух разных архитектур сетей глубокого доверия [18]. В 2012 году метод CNN [25] был применен в рамках гибридной нейронной сети — скрытой модели маркова (Hybrid Neural Network — Hidden Markov Model — NN — HMM). В результате был достигнут PER на уровне 20,07%. Полученный PER лучше по сравнению с ранее применяемым 3-слойным методом базовой линии нейронной сети [26]. Смартфоны и разрешение их камер были протестированы для распознавания радужной оболочки. При использовании мобильных телефонов, разработанных различными компаниями, точность распознавания радужной оболочки может достигать до 87% эффективности [22,28].

С точки зрения безопасности, особенно контроля доступа; глубокое обучение используется в сочетании с биометрическими характеристиками. DL был использован для ускорения разработки и оптимизации устройств распознавания лиц FaceSentinel. По словам этого производителя, их устройства могут расширить процесс идентификации с одного-к-одному до одного-к-многим за девять месяцев [27]. Это усовершенствование движка могло бы занять 10 человеко-лет без внедрения DL. Что ускорило производство и запуск оборудования. Эти устройства используются в лондонском аэропорту Хитроу, а также могут использоваться для учета рабочего времени и посещаемости, и в банковском секторе [3, 29].

Таблица 1 подытоживает несколько применений, реализованных в течение предыдущих лет относительно глубокого обучения. В основном упоминаются распознавание речи и обработка изображений. В этом обзоре рассматриваются только некоторые из большого списка применений.

Таблица 1. Применения глубокого обучения, 2003–2017 гг.

(Применение: 2003 — Иерархический байесовский вывод в зрительной коре; 2006 — Классификация цифр; 2006 — Глубокая сеть доверия для телефонного распознавания; 2012 — Распознавание речи из множественных источников; 2015 — Распознавание радужки глаза с помощью камер смартфонов; 2016 — Освоение игры Го глубокими нейронными сетями с поиском по дереву; 2017 — Модель сенсорного распознавания радужки).

4.1 Анализ публикаций за год

На рис. 1 приведено количество публикаций по глубокому обучению из базы данных ScienceDirect в год с 2006 по июнь 2017 года. Очевидно, что постепенное увеличение числа публикаций мог бы описать экспоненциальный рост.

На рис. 2 представлено общее количество публикаций по глубокому обучению в Springer в год с января 2006 года по июнь 2017 года. В 2016 году наблюдается внезапный рост публикаций, достигающий 706 публикаций, что доказывает, что глубокое обучение действительно в центре внимания современных исследований.

На рис. 3 показано количество публикаций на конференциях, в журналах и изданиях IEEE с января 2006 года по июнь 2017 года. Примечательно, что с 2015 года количество публикаций значительно увеличилось. Разница между 2016 и 2015 годами составляет более 200% прироста.

Рис. 1. Рост количества публикаций по глубокому обучению в базе данных Sciencedirect (январь 2006 г. — июнь 2017 г.)

Рис. 2. Рост количества публикаций по глубокому обучению из базы данных Springer. (январь 2006 г. — июнь 2017 г.)

Рис. 3. Рост публикаций в по глубокому обучению из базы данных IEEE. (январь 2006 г. — июнь 2017 г.)

Глубокое обучение — действительно быстро растущее применение машинного обучения. Многочисленные приложения, описанные выше, доказывают его стремительное развитие всего за несколько лет. Использование этих алгоритмов в разных областях показывает его универсальность. Анализ публикаций, выполненный в этом исследовании, ясно демонстрирует актуальность этой технологии и дает четкую иллюстрацию роста глубокого обучения и тенденций в отношении будущих исследований в этой области.

Кроме того, важно отметить, что иерархия уровней и контроль в обучении являются ключевыми факторами для разработки успешного приложения в отношении глубокого обучения. Иерархия важна для соответствующей классификации данных, в то время как контроль учитывает важность самой базы данных как части процесса. Основная ценность глубокого обучения заключается в оптимизации существующих приложений в машинном обучении благодаря инновационности иерархической обработки. Глубокое обучение может обеспечить эффективные результаты при цифровой обработке изображений и распознавании речи. Снижение процента ошибок (от 10 до 20%) явно подтверждает улучшение по сравнению с существующими и проверенными методами.

В нынешнюю эпоху и в будущем глубокое обучение может стать полезным инструментом безопасности благодаря сочетанию распознавания лиц и речи. Помимо этого, цифровая обработка изображений является областью исследований, которая может применяться в множестве других областей. По этой причине и доказав истинную оптимизацию, глубокое обучение является современным и интересным предметом развития искусственного интеллекта.

  1. Abdel, O.: Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition. Acoustics, Speech and Signal Processing 7, 4277-4280 (2012).
  2. Mosavi A., Varkonyi-Koczy A. R.: Integration of Machine Learning and Optimization for Robot Learning. Advances in Intelligent Systems and Computing 519, 349-355 (2017).
  3. Bannister, A.: Biometrics and AI: how FaceSentinel evolves 13 times faster thanks to deep learning (2016).
  4. Bengio, Y.: Learning deep architectures for AI. Foundations and trends in Machine Learning 2, 1-127 (2009).
  5. Mosavi, A., Varkonyi-Koczy, A. R., Fullsack, M.: Combination of Machine Learning and Optimization for Automated Decision-Making. MCDM (2015).
  6. Deng L, Yu D Deep learning: methods and applications. Foundations and Trends in Signal Processing 7, 197-387 (2014)
  7. Goel, B.: Developments in The Field of Natural Language Processing. International Journal of Advanced Research in Computer Science 8, (2017).
  8. Vaezipour, A.: Mosavi, A. Seigerroth, U.: Machine learning integrated optimization for decision making, 26th Europian Conference on Operational Research, Rome (2013).
  9. Hinton G E, Simon O, Yee-Whye T A fast learning algorithm for deep belief nets. Neural computation 18, 1527-1554 (2006)
  10. Hisham, A., Harin, S.: Deep Learning – the new kid in Artificial Intelligence. (2017)
  11. Kim I W, Oh, M.: Deep learning: from chemoinformatics to precision medicine. Journal of Pharmaceutical Investigation: 1-7 (2017)
  12. Mosavi, A., Vaezipour, A.: Developing Effective Tools for Predictive Analytics and Informed Decisions. Technical Report. University of Tallinn (2013)
  13. Mosavi A., Y., Bathla, Varkonyi-Koczy A. R.: Predicting the Future Using Web

    Knowledge: State of the Art Survey Advances in Intelligent Systems and Computing (2017).
  14. Mosavi, A., Vaezipour, A.: Reactive Search Optimization; Application to Multiobjective

    Optimization Problems. Applied Mathematics 3, 1572-1582 (2012)
  15. Lee J-G (2017) Deep Learning in Medical Imaging: General Overview. Korean Journal of

    Radiology 18(4):570-584
  16. Lee T.: David M Hierarchical Bayesian inference in the visual cortex. JOSA 20, 1434-1448

    (2003).
  17. Liu W Deep learning hashing for mobile visual search. EURASIP Journal on Image and

    Video Processing 17, (2017).
  18. Marra F.: A Deep Learning Approach for Iris Sensor Model Identification. Pattern Recognition Letters (2017).
  19. Miotto R et al (2017) Deep learning for healthcare: review, opportunities and challenges.

    Briefings in Bioinformatics
  20. Mohamed A.: Deep belief networks for phone recognition. Nips workshop on deep learning

    for speech recognition and related applications: 1, 635-645 (2009).
  21. Moor. J.: The Turing test: the elusive standard of artificial intelligence. Springer Science &

    Business Media (2003).
  22. Vaezipour, A. Mosavi, U. Seigerroth, A.: Visual analytics and informed decisions in health

    and life sciences, International CAE Conference, Verona, Italy (2013)
  23. Raja K B, Raghavendra R, Vemuri V K, Busch C (2015) Smartphone based visible iris

    recognition using deep sparse filtering. Pattern Recognition Letters 57:33-42.
  24. Safdar S, Zafar S, Zafar N, Khan N F (2017) Machine learning based decision support systems (DSS) for heart disease diagnosis: a review. Artificial Intelligence Review: 1-17
  25. Mosavi, A. Varkonyi. A.: Learning in Robotics. Learning 157, (2017)
  26. Xing J, Li K, Hu W, Yuan C, Ling H et al (2017) Diagnosing deep learning models for high

    accuracy age estimation from a single image. Pattern Recognition
  27. Mosavi, A. Rabczuk, T.: Learning and Intelligent Optimization for Computational Materials

    Design Innovation, Learning and Intelligent Optimization, Springer-Verlag, (2017)
  28. Vaezipour, A., et al., Visual analytics for informed-decisions, International CAE Conference, Verona, Italy, (2013).
  29. Dehghan, A.: DAGER: Deep Age, Gender and Emotion Recognition Using Convolutional

    Neural Network3, 735-748 (2017)
  30. Mosavi, A: predictive decision model, 2015, https://doi.org/10.13140/RG.2.2.21094.630472
  31. Vaezipour, A., et al.: Visual analytics and informed decisions in health and life sciences.»

    Paper in Proceedings of International CAE Conference, Verona, Italy. (2013).
  32. Vaezipour, A.: Visual analytics for informed-decisions, CAE Conference, Italy, (2013).
  33. A.Vaezipour, A.:Machine learning integrated optimization for decision making. 26th European Conference on Operational Research, Rome (2013).
  34. Vaezipour, A.: Visual Analytics for Multi-Criteria Decision Analysis, in Proceedings of International CAE Conference, Verona, Italy (2013).
  35. Mosavi, A., Vaezipour, A.: Developing Effective Tools for Predictive Analytics and Informed Decisions. Technical Report. (2013). https://doi.org/10.13140/RG.2.2.23902.84800
  36. Mosavi A., Varkonyi-Koczy A. R.: Integration of Machine Learning and Optimization for

    Robot Learning. Advances in Intelligent Systems and Computing 519, 349-355 (2017).
  37. Mosavi, A., Varkonyi, A.: Learning in Robotics. Learning, 157, (2017).
  38. Mosavi, A.: Decision-making software architecture; the visualization and data mining assisted approach. International Journal of Information and Computer Science 3, 12-26 (2014).
  39. Mosavi, A.: The large scale system of multiple criteria decision making; pre-processing,

    Large Scale Complex Systems Theory and Applications 9, 354-359 (2010).
  40. Esmaeili, M., Mosavi, A.: Variable reduction for multiobjective optimization using data

    mining techniques. Computer Engineering and Technology 5, 325-333 (2010)
  41. Mosavi, A.: Data mining for decision making in engineering optimal design. Journal of AI

    and Data Mining 2, 7-14 (2014).
  42. Mosavi, A., Vaezipour, A.: Visual Analytics, Obuda University, Budapest, (2015).
  43. Mosavi, A., Vaezipour, A.: Reactive Search Optimization; Application to Multiobjective

    Optimization Problems. Applied Mathematics 3, 1572-1582 (2012).
  44. Mosavi, A., Varkonyi-Koczy, A. R., Fullsack, M.: Combination of Machine Learning and

    Optimization for Automated Decision-Making. MCDM (2015).
  45. Mosavi, A., Delavar, A.: Business Modeling, Obuda University, Budapest, (2016).
  46. Mosavi, A.: Application of data mining in multiobjective optimization problems. International Journal for Simulation and Multidisciplinary Design Optimization, 5, (2014)
  47. Mosavi, A. Rabczuk, T.: Learning and Intelligent Optimization for Material Design Innovation, Theoretical Computer Science and General Issues, LION11 (2017).
  48. Mosavi, A., Visual Analytics, Obuda University, 2016.
  49. Mosavi, A.: Predictive decision making, Tech Rep 2015. doi: 10.13140/RG.2.2.16061.46561
  50. Mosavi. A.: Predictive Decision Making, Predictive Decision Model, Tech. Report. (2015).
    https://doi.org/10.13140/RG.2.2.21094.63047
  51. Mosavi, A., Lopez, A.: Varkonyi-Koczy, A.: Industrial Applications of Big Data: State of

    the Art Survey, Advances in Intelligent Systems and Computing, (2017).
  52. Mosavi, A., Rabczuk, T., Varkonyi-Koczy, A.: Reviewing the Novel Machine Learning

    Tools for Materials Design, Advances in Intelligent Systems and Computing, (2017).
  53. Mousavi, S., Mosavi, A., Varkonyi-Koczy, A. R.: A load balancing algorithm for resource

    allocation in cloud computing, Advances in Intelligent Systems and Computing, (2017).
  54. Baranyai, M., Mosavi, A., Vajda, I., Varkonyi-Koczy, A. R.: Optimal Design of Electrical

    Machines: State of the Art Survey, Advances in Intelligent Systems and Computing, (2017).
  55. Mosavi, A., Benkreif, R., Varkonyi-Koczy, A.: Comparison of Euler-Bernoulli and Timoshenko Beam Equations for Railway System Dynamics, Advances in Intelligent Systems

    and Computing, (2017).
  56. Mosavi, A., Rituraj, R., Varkonyi-Koczy, A. R.: Reviewing the Multiobjective Optimization

    Package of modeFrontier in Energy Sector, Advances in Intelligent Systems and Computing,

    (2017).
  57. Mosavi, A., Bathla, Y., Varkonyi-Koczy A. R.: Predicting the Future Using Web

    Knowledge: State of the Art Survey, Advances in Intelligent Systems and Computing,

    (2017).

возможности, перспективы и немного истории / Блог компании ИТ-ГРАД / Хабр

Последние несколько лет словосочетание «глубинное обучение» всплывает в СМИ слишком часто. Различные журналы вроде KDnuggets и DigitalTrends стараются не упустить новости из этой сферы и рассказать о популярных фреймворках и библиотеках.

Даже популярные издания вроде The NY Times и Forbes стремятся регулярно писать о том, чем заняты ученые и разработчики из области deep learning. И интерес к глубинному обучению до сих пор не угасает. Сегодня мы расскажем о том, на что способно глубинное обучение сейчас, и по какому сценарию оно будет развиваться в будущем.

/ фото xdxd_vs_xdxd CC

Пара слов про глубинное обучение, нейронные сети и ИИ

Чем отличается алгоритм глубинного обучения от обычной нейронной сети? По словам Патрика Холла, ведущего исследователя данных в компании SAS, самое очевидное отличие: в нейронной сети, используемой в глубинном обучении, больше скрытых слоев. Эти слои находятся между первым, или входным, и последним, выходным, слоем нейронов. При этом совсем не обязательно связывать все нейроны на разных уровнях между собой.

Разграничение глубинного обучения и искусственного интеллекта не такое однозначное. Например, профессор Вашингтонского университета Педро Домингос соглашается с мнением, что глубинное обучение выступает гипонимом по отношению к термину «машинное обучение», которое в свою очередь является гипонимом по отношению к искусственному интеллекту. Домингос говорит, что на практике области их применения пересекаются достаточно редко.

Однако существует и другое мнение. Хуго Ларочелле, профессор Шербрукского университета, уверен, что данные концепты почти никак не связаны между собой. Хуго замечает, что ИИ фокусируется на цели, а глубинное обучение — на определенной технологии или методологии, необходимой для машинного обучения. Поэтому здесь и далее, говоря о достижениях в области ИИ (таких, как AlphaGo, например) будем иметь в виду, что подобные разработки используют алгоритмы глубинного обучения — но наряду и с другими разработками из области ИИ в целом и машинного обучения в частности [как справедливо отмечает Педро Домингос].

От «глубокой нейронной сети» до глубинного обучения

Глубокие нейронные сети появились достаточно давно, еще в 1980-е. Так почему же глубинное обучение начало активно развиваться только в 21 веке? Репрезентации в нейронной сети создаются в слоях, поэтому было логично предположить, что больше слоев позволит сети лучше обучаться. Но большую роль играет метод обучения сети. Раньше для глубинного обучения использовались те же алгоритмы, что и для обучения искусственных нейронных сетей — метод обратного шифрования. Такой метод мог эффективно обучать только последние слои сети, в результате чего процесс был чрезвычайно длительным, а скрытые слои глубинной нейронной сети, фактически, не «работали».

Только в 2006 году три независимых группы ученых смогли разработать способы преодоления трудностей. Джеффри Хинтон смог провести предобучение сети при помощи машины Больцмана, обучая каждый слой отдельно. Для решения проблем распознавания изображений Яном ЛеКаном было предложено использование сверточной нейронной сети, состоящей из сверточных слоев и слоев подвыборки. Каскадный автокодировщик, разработанный Иошуа Бенджио, также позволил задействовать все слои в глубокой нейронной сети.

Проекты, которые «видят» и «слышат»

Сегодня глубинное обучение используется в совершенно разных сферах, но, пожалуй больше всего примеров использования лежит в области обработки изображений. Функция распознавания лиц существует уже давно, но, как говорится, нет предела совершенству. Разработчики сервиса OpenFace уверены, что проблема еще не решена, ведь точность распознавания можно повысить. И это не просто слова, OpenFace умеет различать даже похожих внешне людей. Подробно о работе программы уже писали в этой статье. Глубинное обучение поможет и при работе с черно-белыми файлами, автоматической колоризацией которых занимается приложение Colornet.

Кроме того, глубокие сети теперь способны распознавать и человеческие эмоции. А вместе с возможностью отследить использование логотипа компании на фотографиях и анализом сопроводительного текста мы получаем мощный маркетинговый инструмент. Похожие сервисы разрабатывает, например, IBM. Инструмент позволяет оценить авторов текстов при поиске блогеров для сотрудничества и рекламы.

Программа NeuralTalk умеет описывать изображения при помощи нескольких предложений. В базу программы загружается набор изображений и 5 предложений, описывающих каждое из них. На стадии обучения алгоритм учится прогнозировать предложения на основе ключевого слова, используя предыдущий контекст. А на стадии прогнозирования нейронная сеть Джордана уже создает предложения, описывающие картинки.

Сегодня существует много приложений, которые могут решать разные задачи в работе с аудио. Например, приложение Magenta, разработанное командой Google, умеет создавать музыку. Но большая часть приложений направлена на распознавание речи. Интернет-сервис Google Voice умеет транскрибировать голосовую почту и имеет функции управления СМС, при этом для обучения глубоких сетей исследователями использовались существующие голосовые сообщения.

Проекты в «разговорном жанре»

По мнению таких ученых, как Ноам Хомски, невозможно научить компьютер полностью понимать речь и вести осознанный диалог, потому что даже механизм человеческой речи изучен не до конца. Попытки научить машины говорить начались еще в 1968 году, когда Терри Виноград создал программу SHRDLU. Она умела распознавать части речи, описывать предметы, отвечать на вопросы, даже обладала небольшой памятью. Но попытки расширить словарный запас машины привели к тому, что стало невозможно контролировать применение правил.

Но сегодня с помощью глубинного обучения Google в лице разработчика Куока Ле шагнул далеко вперед. Его разработки умеют отвечать на письма в Gmail и даже помогают специалистам технической поддержки Google. А программа Cleverbot обучалась на диалогах из 18 900 фильмов. Поэтому она может отвечать на вопросы даже о смысле жизни. Так, бот считает, что смысл жизни заключается в служении добру. Однако ученые вновь столкнулись с тем, что искусственный интеллект лишь имитирует понимание и не имеет представления о реальности. Программа воспринимает речь лишь как сочетание определенных символов.

Обучение машин языку может помочь и в переводе. Google давно занимается улучшением качества перевода в своем сервисе. Но насколько можно приблизить машинный перевод к идеалу, если и человек не всегда может правильно понимать смысл высказывания? Рэй Курцвейл предлагает для решения этой задачи графически представить семантическое значение слов в языке. Процесс достаточно трудоемкий: в специальный каталог Knowledge Graph, созданный в Google, ученые загрузили данные о почти 700 миллионах тем, мест, людей, между которыми было проведено почти миллиард различных связей. Все это направлено на улучшение качества перевода и восприятие искусственным интеллектом языка.

Сама идея о представлении языка графическими и/или математическими методами не нова. Еще в 80-е перед учеными стояла задача представить язык в формате, с которым могла бы работать нейронная сеть. В итоге был предложен вариант представления слов в виде математических векторов, что позволяло точно определить смысловую близость разных слов (например, в векторном пространстве слова «лодка» и «вода» должны быть близки друг к другу). На этих исследованиях и базируются сегодняшние разработки Google, которые современные исследователи называют уже не «векторами отдельных слов», а «векторами идей».

Глубинное обучение и здравоохранение

Сегодня глубинное обучение проникает даже в сферу здравоохранения и помогает следить за состоянием пациентов не хуже врачей. Например, медицинский центр Дармут-Хичкок в США использует специализированный сервис Microsoft ImagineCare, что позволяет врачам уловить едва заметные перемены в состоянии пациентов. Алгоритмы получают данные об изменениях веса, контролируют давление пациентов и могут даже распознавать эмоциональное состояние на основе анализа телефонных разговоров.

Глубинное обучение применяется и в фармацевтике. Сегодня для лечения разных видов рака используется молекулярно-таргетная терапия. Но для создания эффективного и безопасного лекарства необходимо идентифицировать активные молекулы, которые бы воздействовали только на заданную мишень, позволяя избежать побочных эффектов. Поиск таких молекул может выполняться с использованием глубинного обучения (описание проекта, проведенного совместно учеными из университетов Австрии, Бельгии и R&D-отдела компании Johnson&Johnson есть в этом научном материале).

Есть ли у алгоритма интуиция?

Насколько на самом деле «глубоко» глубинное обучение? Ответ на это вопрос могут дать разработчики AlphaGo. Этот алгоритм не умеет говорить, не умеет распознавать эмоции. Но он способен обыграть любого в настольную игру. На первый взгляд тут нет ничего особенного. Уже почти 20 лет назад компьютер, разработанный IBM, впервые обыграл в шахматы человека. Но AlphaGo – совсем другое дело. Настольная игра Го появилась в Древнем Китае. Начало чем-то похоже на шахматы – противники играют на доске в клетку, черные фигуры против белых. Но на этом сходства заканчиваются, потому что фигуры являются небольшими камушками, а цель игры – окружить камушек противника своими.

Но главное отличие в том, что не существует каких-либо заранее известных выигрышных комбинаций, в го невозможно думать на несколько ходов вперед. Машину нельзя запрограммировать на победу, потому что невозможно выстроить победную стратегию заранее. Здесь и вступает в игру глубинное обучение. Вместо программирования определенных ходов, AlphaGo проанализировала сотни тысяч сыгранных партий и сыграла миллион партий сама с собой. Искусственный интеллект может обучаться на практике и выполнять сложные задания, приобретая то, что человек назвал бы «интуитивным пониманием выигрышной стратегии».

Машины не захватят мир

Несмотря на ошеломляющие успехи AlphaGo, искусственный интеллект еще далек от порабощения человеческой расы. Машины научились своеобразному «интуитивному мышлению», обработке огромного массива данных, но, по словам Фей-Фей Ли, руководителя Стэнфордской лаборатории искусственного интеллекта, абстрактное и творческое мышление им недоступно.

Несмотря на определенный прогресс в распознавании изображений, компьютер может перепутать дорожный знак с холодильником. Вместе со своими коллегами Ли составляет базу изображений с их подробным описанием и большим количеством тегов, которые позволят компьютеру получить больше информации о реальных объектах.

По словам Ли, такой подход – обучение на основе фото и подробного его описания – похож на то, как учатся дети, ассоциируя слова с объектами, отношениями и действиями. Конечно, эта аналогия довольно грубая – ребенку для понимания взаимосвязей объектов реального мира не нужно дотошно описывать каждый предмет и его окружение.

Профессор Джош Тененбаум, изучающий когнитивистику в MIT, отмечает, что, алгоритм познания мира и обучения у компьютера сильно отличается от процесса познания у человека; несмотря на свой размер, искусственные нейронные сети не могут сравниться с устройством биологических сетей. Так, способность говорить формируется в человеке очень рано и базируется на визуальном восприятии мира, владении опорно-двигательным аппаратом. Тененбаум уверен, что научить машины полноценному мышлению без подражания человеческой речи и психологической составляющей не представляется возможным.

Фей-Фей Ли согласна с этим мнением. По словам ученой, современный уровень работы с искусственным интеллектом не позволит приблизить его к человеческому – как минимум за счет наличия у людей эмоционального и социального интеллекта. Поэтому захват мира машинами стоит отложить как минимум еще на пару десятилетий.

P.S. Дополнительное чтение: Наш IaaS-дайджест — 30 материалов о применимости облачных технологий.

как это работает? Часть 1 / Хабр

В этой статье вы узнаете

-В чем суть глубокого обучения

-Для чего нужны функции активации

-Что такое FCNN

-Какие задачи может решать FCNN

-Каковы недостатки FCNN и с помощью чего с ними бороться

Небольшое вступление

Это начало цикла статей о том, какие задачи есть в DL, сети, архитектуры, принципы работы, как решаются те или иные задачи и почему одно лучше другого.

Какие предварительные навыки для понимания всего нужны? Сказать сложно, но если вы умеете гуглить или правильно задавать вопросы, то, я уверен, мой цикл статей поможет разобраться во многом.

В чем вообще суть глубокого обучения?

Суть в том, чтобы построить некий алгоритм, который принимал бы на вход X и предсказывал Y. Если мы пишем алгоритм Евклида для поиска НОД, то мы просто напишем циклы, условия, присваивания и вот это вот все — мы знаем как построить такой алгоритм. А как построить алгоритм, который на вход принимает изображение и говорит собака там или кошка? Или вовсе ничего? А алгоритм, на вход которого мы подаем текст и хотим узнать — какого он жанра? Вот так просто ручками написать циклы и условия тут не выйдет — тут на помощь и приходят нейронные сети, глубокое обучение и все вот эти модные слова.

Более формально и чуть-чуть о функциях активации

Выражаясь формально, мы хотим построить функцию от функции от функции…от входного параметра X и весов нашей сети W, которая выдавала бы нам некий результат. Тут важно отметить, что мы не можем взять просто много линейных функций, т.к. суперпозиция линейных функций — линейная функция. Тогда любая глубокая сеть аналогична сети с двумя слоями (входом и выходом). Для чего нам нелинейность? Наши параметры, которые мы хотим научиться предсказывать, могут нелинейно зависеть от входных данных. Нелинейность достигается путем использования различных функций активаций на каждом слое.

Fully-connected neural networks(FCNN)

Просто полносвязная нейронная сеть. Выглядит как-то так:

Суть в том, что каждый нейрон одного слоя связан с каждым нейроном следующего и предыдущего (если они есть).

Первый слой — входной. Например, если мы хотим подать изображение 256x256x3 на вход такой сети, то ровно 256x256x3 нейронов во входном слое нам и понадобится (каждый нейрон будет принимать 1 компоненту (R, G или B) пикселя). Если хотим подать рост человека, его вес и еще 23 признака, то понадобится 25 нейронов во входном слое. Кол-во нейронов на выходе — кол-во признаков, которые мы хотим предсказать. Это может быть как 1 признак, так и все 100. В общем случае по выходному слою сети можно почти наверняка сказать — какую задачу она решает.

Каждая связь между нейронами — вес, который тренируется алгоритмом backpropagation, о котором я писал тут.

Какие задачи может решать FCNN

-Задача регрессии. Например, предсказание стоимости магазина по каким-то входным критериям типа страны, города, улицы, проходимости и т.п.

-Задача классификации. Например, классика — MNIST classification.

-Насчет задачи сегментации и обнаружения объектов с помощью FCNN я сказать не возьмусь. Быть может, кто-то поделится в комментариях 🙂

Недостатки FCNN

  1. Нейроны одного слоя не имеют «общей» информации (все веса в сети уникальны).
  2. Огромное кол-во обучаемых параметров (весов), если мы хотим обучать сеть на фотографиях.

Что делать с этими недостатками? Convolutional Neural Networks(CNN) — все верно. Об этом и будет моя следующая статья.

Заключение

Особо долго останавливаться на полносвязных нейронных сетях я не вижу особого смысла. Если кому интересна сама реализация таких сетей, то вот тут можно посмотреть и почитать о моей реализации.

15 лучших книг по глубинному обучению

Интересуетесь нейросетями и машинным обучением? Собрали подборку из 15 книг по глубинному обучению, которые помогут освоить эти технологии.

Ловите свежую подборку книг Deep Learning, которая поможет свернуть горы!

Гудфеллоу Я., Бенджио И., Курвилль А. − Глубокое обучение, 2017 г.

Эта книга считается «Библией», одной из лучших книг по глубинному обучению. Несмотря на то, что она написана техническим языком, её сможет осилить и технологический новичок.

Внутри рассказывается о математических и концептуальных основах, линейной алгебре, теории вероятностей и теории информации, численных вычислениях и машинном обучении. Она описывает методы глубокого обучения, используемые практиками в отрасли. Сюда входят сети с прямой связью, регуляризация, алгоритмы оптимизации, сверточные сети, моделирование последовательностей и практическая методология. Кроме того, вы узнаете об обработке естественного языка, распознавании речи, компьютерном зрении, системе онлайн-рекомендаций, биоинформатике и видеоиграх.

Франсуа Шолле − Глубокое обучение на Python, 2018 г.

Это учебник по моделям глубокого обучения с использованием языка Python и мощной библиотеки Keras. Написанная создателем Keras и исследователем Google AI Франсуа Шолле, эта книга укрепит понимание технологии через объяснения и практические примеры. Вы исследуете сложные концепции и попрактикуетесь с приложениями в области компьютерного зрения, обработки естественного языка и генеративных моделей. К тому времени, как вы закончите, у вас будут знания и практические навыки для применения глубокого обучения в ваших собственных проектах.

Орельен Жерон − Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow, 2018 г.

Эта книга предполагает, что вы почти ничего не знаете о машинном обучении. Её цель − дать вам концепции, знания и инструменты для реализации программ, способных учиться на данных. Здесь рассматривается большое количество методов. Например, линейная регрессия или олимпиадные способы решения задач.

Вместо того, чтобы реализовывать собственные игрушечные версии каждого алгоритма, авторы используют существующие готовые к работе платформы Python вроде Scikit-Learn и TensorFlow.

Ричард Саттон, Эндрю Барто − Обучение с подкреплением, 2017 г.

Ричард Саттон и Эндрю Барто дают ясное и простое описание ключевых идей и алгоритмов обучения с подкреплением. Оно основано на том, что агент пытается максимизировать получаемый выигрыш, действуя в сложной среде с высоким уровнем неопределенности. Предназначена для специалистов в области искусственного интеллекта, нейросетевого моделирования и управления, а также студентов и аспирантов.

Ясер Абу-Мостафа, Малик Магдон-Исмаил, Сюань-Тянь Линь − Learning From Data, 2012 г.

Следующий материал в подборке книг по глубинному обучению распространяется вместе со специально подготовленными онлайн-материалами. Здесь вы найдете введение в машинное обучение, что позволяет вычислительным системам улучшать свою производительность с помощью накопленного опыта. Это короткий курс, поэтому ждите качественно структурированной информации Здесь основные темы, которые должен знать каждый. Важно, что читателям также доступны электронные, регулярно обновляемые главы книги.

Адриан Роузброк − Deep Learning for Computer Vision with Python, 2017 г.

Эта книга не только для начинающих. Специалисты разного уровня с помощью этой книги смогут создавать обычное программное обеспечение, обрабатывать естественные языки, рисовать графики, производить сложные математические вычисления, составлять фото-роботы, а также создавать программы компьютерного зрения с помощью глубокого обучения.

Это руководство познакомит вас с основами компьютерного зрения, библиотеками и лучшими практиками.

Эндрю Траск − Grokking Deep Learning

Книга научит вас строить нейронные сети глубокого обучения с нуля. Эндрю Траск расскажет об устройстве технологии изнутри. Особенно полезна тем, кто уже знаком с математикой и программированием на среднем уровне. В процессе изучения вы узнаете о том, как учатся нейронные сети, построите сети, которые смогут распознавать и анализировать изображения, играть в видеоигры, переводить текст между языками и даже писать, как Шекспир.

Андрей Бурков − The Hundred-Page Machine Learning Book, 2019 г.

Эта книга является введением в машинное обучение от специалиста мирового уровня и суперзвезды LinkedIn Андрея Буркова. Она позволит начать работу с ML в течение нескольких дней. Достаточно первых пяти глав, а остальные понравятся практикующим инженерам, желающим использовать ML в своей повседневной работе, не тратя огромное количество времени на прохождение длинных курсов.

Максим Лапань − Deep Reinforcement Learning Hands-On, 2018 г.

Это ещё одна из популярных книг по глубинному обучению. Использование алгоритмов Google в играх, победы роботов над человеком заставили технических специалистов по всему миру начать следить за технологиями машинного обучения ещё пристальнее.

Книга является исчерпывающим руководство по самым последним инструментам deep learning. Вы будете оценивать методы, включая перекрестную энтропию, учиться применять их в реальных условиях.

А ещё вы познаете основы обучения с подкреплением, сделаете робота для торговли акциями и научитесь применять естественный язык для развития чат-ботов.

Сергей Николенко, А. Кадурин, Екатерина Архангельская − Глубокое обучение. Погружение в мир нейронных сетей, 2018 г.

Одна из немногих книг по глубинному обучению на русском. Внутри много математики, теории, основ и рассуждений, охватывающих большую часть того, что касается машинного обучения. По сути, это всеобъемлющее руководство для новичков, которые желают разобраться в вопросах работы с нейронными сетями.

Джуда Перл − The Book of Why, 2018 г.

Книга от всемирно известного ученого-компьютерщика Джуды Перл. Совместно с коллегами, он развеял стереотипы о причинно-следственной связи и объяснил, как мышление позволяет исследовать существующий и возможные миры, разобрал сущность человеческого и искусственного интеллекта. Как говорят авторы, книга нужна для того, чтобы показать ширину мышления.

Сандро Сканси − ​​Introduction to Deep Learning, 2018 г.

Краткое, лёгкое и доступное введение в машинное обучение. Преимущество этой книги перед другими в простых примерах для новичков. В ней вы найдёте популярные алгоритмы и архитектурные решения, интуитивно понятные любому начинающему разработчику. Книга охватывает важные темы: от обучения нейронных сетей, обработки языка, нейронных сетей с обратной связью, до математических предпосылок и истории искусственного интеллекта. Все примеры на языке программирования Python.

Эндрю Ын − Machine Learning Yearning, 2018 г.

Эта книга посвящена не алгоритмам машинного обучения, а тому, как заставить работать эти алгоритмы.

Чему она научит? Например, расстановке приоритетов, диагностике ошибок в системе машинного обучения, обучению систем в тестовом режиме. А ещё настройке проектов и сравнению их результатов с подобными, которые выполнены вручную человеком. Читатели узнают, когда и как применять сквозное, трансферное и многозадачное обучение.

Кристоф Молнар − Interpretable Machine Learning, 2019 г.

Книга о том, как сделать модели машинного обучения и их решения понятными.

Вы узнаете о простых, интерпретируемых моделях. Например, о деревьях решений, правилах принятия решений и линейной регрессии. Все методы интерпретации подробно объясняются: сильные и слабые стороны, техническое устройство, варианты интерпретации результатов.

Кому подходит эта книга? В первую очередь, она ориентирована на практиков машинного обучения − учёных статистиков. Но будет полезна всем, кто заинтересован в том, чтобы сделать модели машинного обучения понятными.

Майкл Нильсен − Neural Networks and Deep Learning, 2015 г.

Нейронные сети − одна из самых крутых парадигм программирования. В традиционном подходе к программированию мы разбиваем большие задачи на множество мелких и понятных. Это помогает компьютеру быстрее их выполнять. Нейронные сети учатся сами решать поступающие проблемы. По этой причине, сегодня всё больше крупных технологических компаний начинают применять технологии машинного обучения

Цель книги − помочь вам освоить основные понятия нейронных сетей, включая современные методы глубокого обучения. В процессе изучения книги, вы будете писать код, использующий нейронные сети и глубокое обучение для решения сложных задач. Таким образом, авторы рассчитывают сформировать у читателей фундаментальные навыки работы с технологией.

Понравилась подборка 15 лучших книг по глубинному обучению? Возможно, вас заинтересует следующее:

Источник: Подборка книг по глубинному обучению, которые стоит прочитать в 2019 году на FloydHub

Глубинное обучение: основные понятия | Издательство «Открытые системы»

Глубинное обучение (deep learning) – форма машинного обучения, которая предусматривает извлечение, или моделирование, признаков данных с использованием сложных многослойных фильтров. Поскольку глубинное обучение является весьма общим способом моделирования, оно способно решать сложные задачи, такие как компьютерное зрение и обработка естественного языка. Этот подход существенно отличен и от традиционного программирования, и от других методов машинного обучения.

Глубинное обучение не только может дать результат там, где другие методы не сработают, но и позволяет построить более точную модель или же сократить время на ее создание; расплачиваться же за это приходится еще большими вычислительными мощностями. Еще одним недостатком глубинного обучения является сложность интерпретации получаемых моделей.

Определяющая характеристика глубинного обучения — наличие более одного слоя между входом и выходом. Обычно, говоря о глубинном обучении, подразумевают использование глубоких нейронных сетей. Есть, однако, несколько алгоритмов, которые реализуют глубинное обучение, используя иные типы слоев.

Глубинное обучение против машинного обучения

Следуя сложившейся традиции, будем называть отличное от глубинного обучение классическим машинным обучением.

В общем случае, алгоритмы классического обучения работают намного быстрее алгоритмов глубинного обучения: одного или нескольких процессоров будет достаточно для обучения классической модели. Для моделей глубинного обучения обычно требуются аппаратные ускорители: графические процессоры, тензорные процессоры, программируемые логические матрицы (FPGA). Без них создание модели может занимать месяцы.

Для многих задач находится классический алгоритм машинного обучения, который дает «достаточно хорошую» модель. Но для ряда задач классические алгоритмы машинного обучения работают не очень хорошо.

Приложения для глубинного обучения

Есть много задач, где для создания лучших моделей требуется именно глубинное обучение. Обработка естественного языка – одна из них.

Осенью 2016 года качество перевода Google Translate для англо-французских, англо-китайских и англо-японских языковых пар внезапно резко улучшилось: бессвязные фразы подстрочника заменили предложения, близких по качеству к профессиональному переводчику. Что произошло? Команды Google Brain и Google Translate обновили систему: от использования прежних алгоритмов статистического машинного перевода на основе фраз (один из видов классического машинного обучения) перешли к использованию глубокой нейронной сети, обученной с использованием библиотеки Google TensorFlow.

Это был непростой проект. Большой группе исследователей, включая значительное число обладателей ученых степеней, потребовались месяцы работы над моделями и тысячи недель вычислений на GPU для их обучения. Это даже подтолкнуло Google к созданию процессорной архитектуры нового типа, «тензорного» процессора Tensor Processing Unit (TPU), на которой бы работали нейронные сети масштаба, соразмерного Google Translate.

Помимо задачи перевода с одного языка на другой к обработке естественного языка относят автоматическое резюмирование, выявление кореферентности, дискурс-анализ, морфологическую сегментацию, распознавание именованных сущностей, генерацию естественного языка, понимание естественного языка, разметку частей речи, анализ тональности и распознавание речи.

Еще одним хорошим примером применения глубинного обучения является классификация изображений. Как известно, животные обрабатывают изображения с помощью зрительной коры, а потому многие исследователи взяли архитектуру зрительной коры в качестве модели для нейронных сетей, предназначенных для распознавания изображений. Соответствующие биологические исследования начались еще в 1950-х годах.

Прорывом в области нейронных сетей для зрения стала созданная Яном Лекуном в 1998 году LeNet-5, семиуровневая сверточная нейронная сеть (CNN) для распознавания рукописных цифр, на изображениях размером 32×32 (в пикселах). Для анализа изображений с более высоким разрешением количество нейронов и слоев в LeNet-5 нужно увеличить.

Сегодня лучшие модели глубокой классификации изображений способны распознавать различные цветные изображения в качестве HD. В дополнение к «чистым» глубоким нейронным сетям (DNNs) иногда используют гибридные модели зрения, которые сочетают глубинное обучение с классическими алгоритмами машинного обучения, которые выполняют конкретные подзадачи.

Помимо задачи базовой классификации изображений, которая была решена с помощью глубинного обучения, есть и другие задачи, связанные со зрением: классификация изображений с локализацией, обнаружение объектов, сегментация изображений, передача стиля изображения, раскрашивание изображения, реконструкция изображения, рендеринг.

Классификация изображений может быть расширена до классификации видео путем извлечения отдельных кадров из видео и классификации каждого кадра. Обнаруженные объекты в видеоклипах можно отслеживать от кадра к кадру.

В книге «Deep Learning» Яна Гудфеллоу, Иошуа Бенджио и Аарона Курвилля, написанной в 2016 году, приведены примеры того, как глубинное обучение успешно используется для прогнозирования взаимодействия молекул, чтобы помочь фармацевтическим компаниям разрабатывать новые лекарства, искать субатомные частицы и автоматически анализировать изображения микроскопа, используемые для построения трехмерной карты человеческого мозга.

Нейронные сети

Идеи «искусственных» нейронных сетей восходят к 1940-м годам. Базовая концепция заключается в том, что сеть искусственных нейронов, построенных из взаимосвязанных пороговых переключателей, может научиться распознавать паттерны так же, как это делает мозг и нервная система животных, в частности, сетчатка глаза.

Обучение в глубоких нейронных сетях происходит путем закрепления связи между двумя нейронами, когда оба они одновременно активны во время обучения. В современном ПО нейросетей это чаще всего реализуется путем увеличения значений веса связей между нейронами, используя правило, называемое обратным распространением ошибки (backprop, BP).

Как моделируются нейроны? Каждый из них имеет функцию распространения, которая преобразует выходы связанных нейронов. Выход функции распространения переходит в функцию активации, которая срабатывает, когда ее вход превышает пороговое значение.

В 1940-х и 1950-х годах искусственные нейроны использовали функцию ступенчатой активации и назывались перцептронами. Про современные нейронные сети можно сказать, что они используют перцептроны, но на самом деле они используют гладкие функции активации, такие как логистическая функция, или сигмоида, гиперболический тангенс и линейный выпрямитель (ReLU).

Выходные значения функций активации могут передавать выходной функции с целью дополнительных преобразований. Однако часто выходной функцией является функция идентичности, это означает, что выходной сигнал функции активации передается нижестоящим соединенным нейронам.

Топологии нейронных сетей

В сети прямой связи нейроны организованы в отдельные слои: один входной слой, любое количество скрытых слоев обработки и один выходной слой, а выходы из каждого слоя идут только на следующий слой.

В сети прямой связи с короткими соединениями некоторые соединения могут перепрыгивать через один или несколько промежуточных уровней. В рекуррентных нейронных сетях нейроны могут влиять сами на себя, прямо или косвенно, через следующий слой.

Обучение

Контролируемое обучение нейронной сети выполняется так же, как и любое машинное обучение. Берут сеть с группами обучающих данных, сравнивают выход сети с желаемым выходом, формируют вектор ошибок и применяют поправки к сети, основываясь на векторе ошибок. Пакеты обучающих данных, которые пропускаются через сеть совместно перед применением поправок, называют эпохами.

backprop использует градиент функции ошибки (или стоимости) относительно весов и смещений модели, чтобы обнаружить правильное направление для минимизации ошибки. Применением поправок управляют алгоритм оптимизации и переменная скорости обучения, которая обычно должна быть небольшой, чтобы гарантировать сходимость, а функция ReLU не вызывала «отмирание» нейронов.

Оптимизаторы

Оптимизаторы для нейронных сетей используют некоторую форму алгоритма градиентного спуска, чтобы управлять обратным распространением; при этом часто задействуется механизм, который помогает избежать застревания в локальных минимумах, таких как оптимизация случайно выбранных минипартий (стохастический градиентный спуск), и применения поправок импульса к градиенту. Некоторые алгоритмы оптимизации также адаптируют скорость обучения параметров модели, глядя историю градиентов (AdaGrad, RMSProp и Adam).

Как и в любом машинном обучении, нужно проверить предсказания нейронной сети по отдельному набору данных проверки. Без этого есть риск создать нейронные сети, которые просто запоминают свои входные данные вместо того, чтобы учиться делать предсказания.

Реальные глубокие нейронные сети

Глубокая нейронная сеть для реальной задачи может иметь более десяти скрытых слоев. Его топология может быть простой или довольно сложной.

Чем больше слоев в сети, тем больше характеристик она может распознать. Однако, чем больше слоев в сети, тем больше времени потребуется для расчета, и тем сложнее будет обучение.

Алгоритмы глубинного обучения

Как говорилось выше, «наиболее глубинное» обучение осуществляется с помощью глубоких нейронных сетей. Сверточные нейронные сети (CNN) часто используются для компьютерного зрения. Рекуррентные нейронные сети (RNN) часто используются в задачах естественного языка и для обработки других последовательностей, как и сети с долгой краткосрочной памятью (Long short-term memory; LSTM) и нейронные сети с механизмом внимания. Случайные леса (они же — леса случайных решений), нейронными сетями не являющиеся, полезны для целого ряда задач классификации и регрессии.

Сверточные нейронные сети

Сверточные нейронные сети обычно используют сверточные слои, слои объединения, ReLU слои, полностью связанные и потерянные слои для имитации зрительной коры. Сверточный слой в основном считает интегралы многих небольших перекрывающихся областей. Слой объединения выполняет какую-то форму нелинейной понижающей дискретизации. Слои ReLU применяют функцию активации f(x) = max (0,x). В полностью связанном слое нейроны имеют связи со всеми активациями в предыдущем слое. Уровень потерь вычисляет, как сетевое обучение исправляет отклонение между предсказанными и истинными метками, используя функцию Softmax или функцию потерь перекрестной энтропии для классификации или евклидову функцию потерь для регрессии.

RNN, LSTM и нейронные сети с механизмом внимания

В нейронных сетях прямой связи информация течет от входа через скрытые слои к выходу. Это ограничивает сеть в обращении к каждому отдельному состоянию за раз.

В рекуррентных нейронных сетях информация проходит через цикл, что позволяет сети запоминать прошлые выходы. Это дает возможность проводить анализ последовательностей и временных рядов.

Сеть с долгой краткосрочной памятью способна забывать предыдущую информацию или запоминать ее. LSTM может работать с последовательностями из сотен прошлых входов.

Модули внимания – это обобщенные элементы, которые применяют веса к вектору входов. Иерархический нейронный кодировщик внимания использует несколько уровней модулей внимания для работы с десятками тысяч прошлых входов.

Случайные леса

Другой вид алгоритма глубинного обучения, не являющийся глубокой нейронной сетью, – это случайный лес. Случайный лес строится из многих слоев, но вместо нейронов он строится из деревьев решений и выводит статистическое среднее (режим для классификации или среднее для регрессии) предсказаний отдельных деревьев. Рандомизированные аспекты случайных лесов – результат использования бутстрап-агрегирования для отдельных деревьев и случайных подмножеств признаков.

Фреймворки для глубинного обучения

Писать программы глубинного обучения можно и с нуля, но гораздо эффективнее использовать фреймворки глубинного обучения, особенно учитывая, что они оптимизированы для использования с графическими процессорами и другими ускорителями. Вероятно лучшим фреймворком является Google TensorFlow. Предпочтительный высокоуровневый API для TensorFlow — Keras; его также можно использовать с другими серверными фреймворками.

PyTorch, созданный в Facebook при участии ряда других организаций, являющийся хорошей альтернативой TensorFlow, выделяется поддержкой динамических нейронных сетей, в которых топология сети может меняться от эпохи к эпохе. Fastai – это высокоуровневый сторонний API, который использует PyTorch в качестве серверного приложения.

Amazon MXNet является еще одной хорошей альтернативой TensorFlow, с претензией на лучшую масштабируемость. Gluon является предпочтительным высокоуровневым императивным API для MXNet.

Chainer разработки IBM и Intel послужил в некотором роде источником вдохновения для PyTorch, учитывая, что он определяет нейронную сеть путем запуска и поддерживает динамические нейронные сети.

Все упомянутые фреймворки в основном – для Python, а Deeplearning4j (первоначально созданный Sky Mind, а теперь являющийся проектом Apache) в первую очередь – для Java и Scala. DL4J совместим с Apache Spark и Hadoop.

ONNX первоначально был предложен в качестве открытой экосистемы для взаимозаменяемых моделей искусственного интеллекта, а сейчас в добавок имеет и исполняющую среду.

Nvidia TensorRT – еще одна среда исполнения для моделей искусственного интеллекта, в частности, для использования графических процессоров Nvidia. ONNX может использовать TensorRT в качестве плагина.

Трансферное обучение

Трансферное обучение (transfer learning) – это процесс «приспособления» модели, обученной на одном наборе данных, к другом набору данных. Трансферное обучение намного быстрее обучения «с нуля» и требует гораздо меньше данных.

Google Cloud AutoML реализует глубинное трансферное обучения для задач компьютерного зрения, компьютерного перевода и обработки естественного языка. Платформа машинного обучения Microsoft Azure предлагает аналогичные сервисы.

Распределенная обработка для систем глубинного обучения

В TensorFlow имеет собственный встроенный способ координации фабрики серверов, задействованных в распределенном обучении, более общим подходом является использование Open MPI. Horovod, созданная в Uber распределенная обучающая среда для TensorFlow, Keras и PyTorch, использует Open MPI, а также Nvidia NCCL. Эффективность масштабирования, обеспечиваемого Horovod, достигает в зависимости от модели, 90%.

Информационные ресурсы по глубинному обучению

Вы можете многое узнать о глубинном обучении, просто установив один из пакетов глубинного обучения, опробовав его примеры и прочитав соответствующие учебные пособия. Для получения дополнительной информации можете обратиться к одному из онлайн-ресурсов.

Поделитесь материалом с коллегами и друзьями

Курс о Deep Learning на пальцах / Хабр

Я все еще не до конца понял, как так получилось, но в прошлом году я слово за слово подписался прочитать курс по Deep Learning и вот, на удивление, прочитал. Обещал — выкладываю!

Курс не претендует на полноту, скорее это способ поиграться руками с основными областями, где deep learning устоялся как практический инструмент, и получить достаточную базу, чтобы свободно читать и понимать современные статьи.

Материалы курса были опробованы на студентах кафедры АФТИ Новосибирского Государственного Университета, поэтому есть шанс, что по ним действительно можно чему-то научиться.


Курс требует:

— Знания математики на уровне первого-второго курса университета: надо знать немного теории вероятностей, линейную алгебру, основы матанализа и анализ функций многих переменных. Если все это прошло мимо вас, вот все нужные курсы от MIT и Harvard. В них типично достаточно пройти первые две секции.

— Умения программировать на питоне.

В хорошем курсе должны быть доступны и лекции, и упражнения, и место, где можно задать по ним вопросы и обсудить. Здесь они собраны с миру по нитке:

— Лекции существуют как записи на Youtube.

— В качестве упражнений можно использовать задания великолепных Стенфордских курсов по DeepLearning (CS231n и CS224n), я ниже напишу какие конкретно.

— Обсуждать и спрашивать можно на ClosedCircles и ODS.ai.

Лекция 1: Введение
Лекция 2: Линейный классификатор
Лекция 2.1: Softmax

Упражнение: секции «k-Nearest Neighbor» и «Softmax classifier» отсюда

По специфике задания могут помочь вот эти lecture notes.

Лекция 3: Нейронные сети. Backpropagation
Лекция 4: Нейронные сети в деталях

Упражнение: секции «Two-Layer Neural Network» отсюда и «Fully-connected Neural Network» отсюда

Лекция 5: Сверточные нейронные сети (CNN)
Лекция 6: Библиотеки для глубокого обучения

Упражнение: секции «Convolutional Networks» и «PyTorch on CIFAR-10» отсюда

Лекция 7: Другие задачи компьютерного зрения
Лекция 8: Введение в NLP. word2vec

Упражнение: секция «word2vec» отсюда

Лекция 9: Рекуррентные нейронные сети (RNN)
Лекция 10: Машинный перевод, Seq2Seq, Attention

Здесь хорошего готового задания я не нашел, но можно реализовать на PyTorch Char-RNN из знаменитого поста Andrej Karpathy и натравить на Шекспира.

Лекция 11: Введение в обучение с подкреплением(RL), базовые алгоритмы
Лекция 12: Примеры использования RL. Alpha(Go)Zero.
Лекция 13: Нейросети в 2018.

Все вопросы по курсу можно задавать мне лично или обсуждать в кружочке #data на ClosedCircles.com (вот инвайт).
Кроме этого, задания можно обсуждать в канале #class_cs231n на ODS.ai, там помогут. Для этого придется получить туда инвайт самому, отправляйте заявки.

Ну и вообще, звоните-пишите, всегда рад.

Прежде всего, огромное спасибо buriy, с которым мы готовили курс. Спасибо родной кафедре, которая дала вообще такую возможность.

Всем в тусовках на ODS.ai и ClosedCircles, кто помогал в подготовке, отвечал на вопросы, присылал фидбек, напоминал что надо все выложить, итд итп.

Наконец, всем кто следил за стримами на канале, задавал вопросы в реалтайме и вообще создавал ощущение, что я не со стеной разговариваю.

От души.

Глубокое обучение

Глубокое обучение

Книга прессы MIT

Ян Гудфеллоу, Йошуа Бенжио и Аарон Курвиль

Учебник по глубокому обучению — это ресурс, призванный помочь студентам
и практики занимаются машинным обучением в целом
и, в частности, глубокое обучение.
Онлайн-версия книги завершена и останется
доступно онлайн бесплатно.

Учебник по глубокому обучению теперь можно заказать на
Amazon.

Чтобы получать свежие объявления, присоединяйтесь к нашему
список рассылки.

Цитирование книги

Чтобы процитировать эту книгу, используйте эту запись bibtex:

@book {Гудфеллоу-е-ал-2016,
    title = {Глубокое обучение},
    author = {Ян Гудфеллоу, Йошуа Бенжио и Аарон Курвиль},
    publisher = {MIT Press},
    примечание = {\ {URL http://www.deeplearningbook.org}},
    год = {} 2016
}
 

Чтобы написать свой собственный документ, используя наш стиль LaTeX, математическую нотацию или
чтобы скопировать нашу страницу обозначений, загрузите наши
файлы шаблонов.

Исправления в опубликованных изданиях

Глубокое обучение

  • Библиография
  • Индекс
  • FAQ

    • Можно мне получить эту книгу в формате PDF?

      Нет, наш контракт с MIT Press запрещает распространение слишком легко копируемых
      электронные форматы книги.

    • Почему вы используете формат HTML для веб-версии книги?

      Этот формат является своего рода слабым DRM, требуемым нашим контрактом с MIT Press.
      Он предназначен для предотвращения несанкционированного копирования / редактирования
      книги.

    • Как лучше всего распечатать формат HTML?

      Печать лучше всего работает при печати прямо из браузера с помощью Chrome.
      Другие браузеры тоже не работают.

    • Можно ли перевести книгу на китайский язык?
    • Права были куплены

      Post and Telecom Press.

    Если вы заметили какие-либо опечатки (помимо известных проблем, перечисленных ниже) или у вас есть предложения по упражнениям, которые можно добавить в
    веб-сайт, не стесняйтесь обращаться к авторам напрямую по электронной почте
    по адресу: [email protected]

    Поскольку книга полная и печатается, мы не вносим больших изменений,
    только небольшие исправления.

    Известные проблемы: в устаревших версиях Edge.
    В браузере знак «не равно» иногда отображается как знак «равно».
    Это можно решить, обновив до последней версии.

    ,

    Что такое глубокое обучение? | Как это работает, методы и применение

    MATLAB упрощает глубокое обучение. Обладая инструментами и функциями для управления большими наборами данных, MATLAB также предлагает специализированные наборы инструментов для работы с машинным обучением, нейронными сетями, компьютерным зрением и автоматизированным вождением.

    С помощью всего нескольких строк кода MATLAB позволяет выполнять глубокое обучение, не будучи экспертом. Начните быстро, создавайте и визуализируйте модели, а также развертывайте модели на серверах и встроенных устройствах.

    Команды

    успешно используют MATLAB для глубокого обучения, потому что он позволяет вам:

    1. Создавайте и визуализируйте модели с помощью всего нескольких строк кода.
    2. MATLAB позволяет создавать модели глубокого обучения с минимальным кодом. С помощью MATLAB вы можете быстро импортировать предварительно обученные модели, а также визуализировать и отлаживать промежуточные результаты по мере настройки параметров обучения.

    3. Выполняйте глубокое обучение, не будучи экспертом.
    4. MATLAB можно использовать для обучения и приобретения опыта в области глубокого обучения.Большинство из нас никогда не проходили курс глубокого обучения. Мы должны учиться на работе. MATLAB делает изучение этой области практичным и доступным. Кроме того, MATLAB позволяет экспертам в предметной области проводить глубокое обучение — вместо того, чтобы передавать задачу специалистам по данным, которые могут не знать вашу отрасль или приложение.

    5. Автоматизация наземной маркировки изображений и видео.
    6. MATLAB позволяет пользователям интерактивно маркировать объекты на изображениях и может автоматизировать наземную маркировку в видеороликах для обучения и тестирования моделей глубокого обучения.Этот интерактивный и автоматизированный подход может привести к лучшим результатам за меньшее время.

    7. Интегрируйте глубокое обучение в единый рабочий процесс.
    8. MATLAB может объединить несколько доменов в один рабочий процесс. С MATLAB вы можете думать и программировать в одной среде. Он предлагает инструменты и функции для глубокого обучения, а также для ряда областей, которые используются в алгоритмах глубокого обучения, таких как обработка сигналов, компьютерное зрение и аналитика данных.

    С MATLAB вы можете интегрировать результаты в ваши существующие приложения.MATLAB автоматизирует развертывание ваших моделей глубокого обучения в корпоративных системах, кластерах, облаках и встроенных устройствах.

    Ознакомьтесь с дополнительными функциями глубокого обучения и получите пример кода.

    Связанные продукты: MATLAB, Computer Vision Toolbox ™, Statistics and Machine Learning Toolbox ™, Deep Learning Toolbox ™ и Automated Driving Toolbox ™.

    ,

    учебников «Глубокое обучение

    Книги по глубокому обучению

    Deep Learning, Йошуа Бенжио, Ян Гудфеллоу, Аарон Курвиль, MIT Press, в стадии подготовки.

    Обзорные статьи по глубокому обучению

    Йошуа Бенжио, Изучение глубинных архитектур для искусственного интеллекта, основы и тенденции в машинном обучении, 2 (1), стр. 1-127, 2009 г.

    Йошуа Бенжио, Аарон Курвиль, Паскаль Винсент, Репрезентативное обучение: обзор и новые перспективы, Arxiv, 2012.

    Юрген Шмидхубер, Глубокое обучение и нейронные сети: обзор, arXiv, 2014.

    Учебники по коду глубокого обучения

    Учебники по глубокому обучению — это пошаговое руководство с кодом для нескольких важных глубинных архитектур (в процессе; учебные материалы для курса Йошуа Бенджио IFT6266).

    Неконтролируемая функция и глубокое обучение

    Учебники

    Stanford по неконтролируемым функциям и глубокому обучению содержат вики-страницы и примеры кода Matlab для нескольких основных концепций и алгоритмов, используемых для неконтролируемого изучения функций и глубокого обучения.

    Видео

    • Летняя школа глубокого обучения 2015

    Видео лекций, прочитанных на Летней школе Deep Learning 2015 в Монреале: http://videolectures.net/deeplearning2015_montreal (Монреальский университет, август 2015 г.)

    • Представления глубокого обучения

    Технический доклад Йошуа Бенжио о представлениях глубокого обучения в Google Montreal (Google Montreal, 13 ноября 2012 г.)

    • Глубокое обучение с мультипликативным взаимодействием

    Выступление Джеффри Хинтона в Центре теоретической неврологии Редвуда (Калифорнийский университет в Беркли, март 2010 г.).

    • Последние разработки в области глубокого обучения

    GoogleTech Talk Джеффри Хинтона, март 2010 г.

    • Изучение глубоких иерархий представлений

    Общая презентация, сделанная Йошуа Бенжио в сентябре 2009 г., также в Google.

    • Новое поколение нейронных сетей

    Google TechTalk Джеффри Хинтона, декабрь 2007 г.

    Учебное пособие Джеффри Хинтона NIPS 2007 г. [обновлено в 2009 г.] по Deep Belief Networks 3-часовое видео, ppt, pdf, чтения

    • Эффективное обучение глубоких сетей

    Выступление Джеффри Хинтона в Google об отсеве и «Мозге, сексе и машинном обучении».

    Выступление Йошуа Бенжио и Ричарда Сошера «Глубокое обучение для НЛП (без магии)» на ACL 2012.

    • Учебное пособие по изучению глубинных архитектур

    Презентация Йошуа Бенжио и Яна ЛеКуна на «Семинаре ICML по изучению функций Hiearchies» 18 июня 2009 г.

    Энергетическое обучение

    [LeCun et al 2006]. Учебное пособие по обучению на основе энергии , в Bakir et al. (eds) «Прогнозирование структурированных результатов», MIT Press 2006: 60-страничное учебное пособие по обучению на основе энергии с упором на модели структурированных результатов.Учебное пособие включает аннотированную библиографию дискриминантного обучения с простым обзором CRF, сетей Маркова с максимальным запасом и сетей преобразователей графов.

    Учебное пособие по обучению на основе энергии, проведенное в 2006 г. на летней школе CIAR 2006 г.: нейронные вычисления и адаптивное восприятие. [Обучение на основе энергии: слайды в DjVu (5,2 МБ), слайды в формате PDF (18,2 МБ)] [Глубокое обучение для общих Распознавание объектов: слайды в DjVu (3,8 МБ), слайды в PDF (11,6 МБ)]

    ECCV 2010 Учебное пособие

    Обучение признакам для классификации изображений (Кай Ю и Эндрю Нг): введение парадигмы изучения признаков на изображениях без ярлыков с упором на приложения для контролируемой классификации изображений.

    NIPS 2010 Мастерская

    Deep Learning и неконтролируемое изучение функций: основные понятия о неконтролируемом изучении функций и методах глубокого обучения со ссылками на документы и код.

    Летние школы

    Летняя школа для выпускников: глубокое обучение, специальное обучение: летняя школа IPAM по глубокому обучению.

    Онлайн-курсы

    Интернет-курс Джеффри Хинтона по нейронным сетям на Coursera.

    Курс «Глубокое обучение для компьютерного зрения и обработки естественного языка» от Колумбийского университета, Лянлян Цао и Джеймс Фан.

    ,

    Блог «Глубокое обучение

    Лаборатория

    MILA из Монреальского университета ищет разработчика программного обеспечения и еще одного разработчика программного обеспечения с опытом машинного обучения. Эти разработчики программного обеспечения будут помогать и улучшать библиотеки программного обеспечения, такие как Theano, и работать над другими связанными задачами.

    Если вам интересно, подайте заявку, перейдя на этот веб-сайт и найдите номера 504679 и 504641 .

    Заявки необходимо заполнить по следующей ссылке.
    https://rh-carriere-dmz.synchro.umontreal.ca/psc/rhprpr9_car/EMPLOYEE/HRMS/c/HRS_HRAM.HRS_CE.GBL

    Веб-сайт приложений на французском языке. Если у вас возникнут трудности с заполнением этой формы, свяжитесь с нами: frederic (dot) bastien gmail * dot * com

    Недавно была основана новая некоммерческая исследовательская компания по искусственному интеллекту.Согласно объявлению, сделанному на веб-сайте компании, цель компании — продвигать цифровой интеллект таким образом, который, скорее всего, принесет пользу человечеству в целом, не ограниченный необходимостью получения финансовой отдачи. Объявление было сделано в последний день конференции NIPS 2015, а 12 декабря 2015 года OpenAI провела небольшое мероприятие рядом с местом проведения конференции.

    Директором по исследованиям OpenAI является Илья Суцкевер, один из мировых экспертов в области машинного обучения. Наш технический директор — Грег Брокман, бывший технический директор Stripe.Другие члены-основатели группы — инженеры-исследователи и ученые мирового уровня: Тревор Блэквелл, Вики Чунг, Андрей Карпати, Дарк Кингма, Джон Шульман, Памела Вагата и Войцех Заремба. Питер Аббель, Йошуа Бенжио, Алан Кей, Сергей Левин и Вишал Сикка являются советниками группы. Сопредседатели OpenAI — Сэм Альтман и Илон Маск.
    Сэм, Грег, Илон, Рид Хоффман, Джессика Ливингстон, Питер Тиль, Amazon Web Services (AWS), Infosys и YC Research делают пожертвования для поддержки OpenAI.В общей сложности эти спонсоры выделили 1 миллиард долларов, хотя рассчитывают потратить лишь крошечную часть этой суммы в следующие несколько лет.
    Medium опубликовал интервью об OpenAI с Альтманом, Маском и Брокманом [2], в котором основатели ответили на различные вопросы о своей новой инициативе в области ИИ.
    В статье Guardian об OpenAI, написанной Нилом Лоуренсом [3], профессором машинного обучения из Университета Шеффилда, помимо открытых алгоритмов подчеркивается важность открытых данных для сообщества ИИ.

    [1] OpenAI, Представляем OpenAI, https://openai.com/blog/introduction-openai/, Грег Бекман, Илья Суцкевер, команда OpenAI, 11 декабря 2015 г.
    [2] Medium, Как Илон Маск и Y Combinator планируют чтобы остановить захват компьютеров, https://medium.com/backchannel/how-elon-musk-and-y-combinator-plan-to-stop-computers-from-taking-over-17e0e27dd02a#.x79zvtwsl, Стивен Леви , 11 декабря 2015 г.
    [3] The Guardian, OpenAI не принесет пользы человечеству без обмена данными, http://www.theguardian.com/media-network/2015/dec/14/openai-benefit-humanity-data -sharing-elon-musk-peter-thiel, Нил Лоуренс, 12 декабря 2015 г.

    Лаборатория творческого разрушения при университете Торонто 15 декабря в Торонто проводит конференцию по экономике машинного интеллекта: «Машинное обучение и рынок интеллекта».

    Это собрание не конференция по информатике. Основное внимание уделяется бизнес-возможностям, которые открывает ML: что уже произошло, тенденции и то, как может развиваться будущее. Помимо таких исследователей, как Джефф Хинтон, Рус Салахутдинов и Илья Суцкевер, на конференции также примут участие основатели предприятий, ориентированных на машинное обучение (e.g., Clarifai, MetaMind, Atomwise), крупные организации, которые находятся на переднем крае применения машинного обучения (например, Uber, IBM, Bloomberg), инвесторы, ориентированные на предприятия машинного обучения (например, Accel, Bessemer, Google Ventures), и авторы недавних книги о значении достижений в области машинного интеллекта (Мастер-алгоритм, Суперинтеллект, Машины любящей благодати, Люди не должны применяться). Программа прилагается.

    Присутствуют многие предприниматели и изобретатели, такие как Тони Лакавера (Wind), Тед Ливингстон (Kik), Дэвид Осип (Ceridian), Джорди Роуз (D-Wave), Джевон Макдональд (GoInstant), Томи Поутанен (Оптимизированные алгоритмы поиска), Майк Сербинис (Кобо), Дэн Дебоу (Риппл), Деннис Кавельман (RIM) и Барни Пелл (Powerset, Moon Express).

    Кроме того, ряд канадских генеральных директоров также посетят (Дэйв Маккей [RBC], Брайан Портер [Scotiabank], Дон Уокер [Magna], Пол Десмаре III [Power Corp], Сэм Себастьян [Google], Джеррард Шмид [D&H], Килиан Берц [BCG], Джоанна Ротенберг [BMO, Управление частным капиталом], Стив Карлайл [GM] и т. Д.)

    К нам присоединятся несколько венчурных капиталистов (Relay, Real, BDC, Celtic House, Georgian, Accel, Bessemer, Google Ventures, DFJ, FoundersFund, Greylock, True, Amplify, Lux, Bloomberg, Microsoft, Salesforce, Spark и т. Д.).

    Также будут участвовать несколько представителей международных печатных СМИ (The Economist, Wired, New York Times, Financial Times, Associated Press, Bloomberg и т. Д.).

    К нам также присоединятся генерал-губернатор и мэр Торонто, а также ряд провинциальных и федеральных политиков.

    Если вы хотите принять участие, то зарегистрируйтесь здесь: http://bit.ly/1OuuHIB

    Для официальных объявлений «Creative Destruction Lab» на Facebook и Twitter, пожалуйста, проверьте ссылки в [1] и [2].

    [1] https://twitter.com/creativedlab/status/672066522395705345

    [2] https://www.facebook.com/creativedestructionlab/?fref=nf

    Открыто открытое обсуждение представленных материалов # ICLR2016:

    https://cmt.research.microsoft.com/ICLR2016Conference/Protected/PublicComment.aspx

    Access требует учетной записи CMT. Если у вас его еще нет, перейдите сюда:

    https://cmt.research.microsoft.com / ICLR2016Conference / Public / SignUp.aspx

    Обратите внимание, что назначенным рецензентам и региональным руководителям каждого документа будет предложено учитывать комментарии общественности при оценке представленных материалов.
    Таким образом, ваши комментарии будут очень полезны и оценены!

    Сообщение Хьюго Ларошеля в Google+:

    https://plus.google.com/118152791700014302076/posts/ap34Xg9S6xU

    В MILA (Монреальский институт алгоритмов обучения) мы ищем разработчика программного обеспечения, который поможет нам улучшить наши библиотеки программного обеспечения (в основном Theano) и решить другие связанные с этим задачи.

    Это годичный контракт на полную ставку.

    Продолжительность контакта может быть увеличена в зависимости от доступного финансирования.
    Если вы заинтересованы, отправьте свое резюме Фредерику Бастьену по адресу « frederic.bastien AT gmail.com », указав в теме письма «Позиция разработчика программного обеспечения в MILA».
    Кандидатам необходимо иметь разрешение на работу в Канаде.

    Видео с недавно организованной «Летней школы глубокого обучения 2015» в Монреале размещены в видеолекциях онлайн.сайт нетто:

    http://videolectures.net/deeplearning2015_montreal/

    Архитектура «рекуррентных нейронных сетей», первоначально разработанная исследовательскими группами Юргена Шмидхубера из швейцарской лаборатории искусственного интеллекта IDSIA и Мюнхенского технического университета, значительно улучшила Google Voice (на 49%) и теперь доступна миллиарду пользователей. Вы можете найти недавний исследовательский блог Google по этому поводу, созданный Хашимом Саком, Эндрю Старшим, Канишкой Рао, Франсуазой Бофайс и Йоханом Шалквиком:

    http: // googleresearch. blogspot.ch/2015/09/google- голосовой поиск-быстрее-и-многое другое. HTML

    Это приложение распознавания речи рекуррентных нейронных сетей «Long Short-Term Memory (LSTM)» (с 1997 г.) [1] с «воротами забывания» (с 1999 г.) [2] и «Временной классификацией коннекционистов (CTC)» ( с 2006 г.) [3].

    Google использует LSTM также для множества других приложений, таких как современный машинный перевод [4], создание подписей к изображениям [5], обработка естественного языка и т. Д.

    Список литературы

    [1] S. Hochreiter и J. Schmidhuber. Кратковременная долговременная память. Neural Computation, 9 (8): 1735-1780, 1997. ftp://ftp.idsia.ch/pub/ juergen / lstm.pdf

    .

    [2] F. Gers, N. Schraudolph, J. Schmidhuber. Изучение точного времени с помощью повторяющихся сетей LSTM. Journal of Machine Learning Research 3: 115-143, 2002. ftp://ftp.idsia.ch/pub/ juergen / TimeCountOsci-JMLR- final.pdf

    [3] А. Грейвс, С. Фернандес, Ф.Гомес, Дж. Шмидхубер. Темпоральная классификация коннекционистов: маркировка данных несегментированной последовательности с помощью рекуррентных нейронных сетей. Материалы Международной конференции по машинному обучению (ICML-06, Питтсбург), 2006 г. ftp://ftp.idsia.ch/pub/ juergen / icml2006.pdf

    [4] И. Суцкевер, О. Виньялс, О., К. В. Ле, (2014). Последовательность для последовательного обучения с помощью нейронных сетей. Технический отчет http://arxiv.org/abs/1409.3215 [cs.CL], Google. NIPS’2014.

    [5] О. Виньялс, А.Тошев, С. Бенжио, Д. Эрхан. Покажи и расскажи: генератор титров нейронных изображений. http://arxiv.org/abs/1411.4555

    Вы также можете получить доступ к оригинальной записи из блога Кёнхёна Чо, DeepRNN.

    Обзор

    Финалом семинара по глубокому обучению на ICML 2015 стала панельная дискуссия о будущем глубокого обучения. После пары недель обширных обсуждений и обмена электронными письмами между организаторами семинара мы пригласили шесть участников дискуссии; Йошуа Бенгио (Университет Монреаля), Нил Лоуренс (Университет Шеффилда), Юрген Шмидхубер (IDSIA), Демис Хассабис (Google DeepMind), Янн ЛеКун (Facebook, Нью-Йоркский университет) и Кевин Мерфи (Google).Поскольку недавняя революция в области глубокого обучения произошла как в академических, так и в промышленных кругах, мы изо всех сил старались сбалансировать участников дискуссии, чтобы аудитория могла услышать мнение экспертов как в отрасли, так и в академических кругах. Прежде чем я скажу что-либо еще, я хотел бы поблагодарить участников дискуссии за то, что они приняли приглашение!

    Макс Веллинг (Амстердамский университет) модерировал дискуссию, и лично я считаю, что его модерация идеальна. Очень плотный часовой график с шестью замечательными участниками дискуссии по грандиозной теме будущего глубокого обучения; Не могу представить, чтобы кто-то мог работать лучше, чем Макс.От имени всех остальных организаторов (обратите внимание, что Макс Веллинг также является одним из организаторов семинара) я ему очень благодарен!

    Теперь, когда панельная дискуссия окончена, я хотел бы вкратце рассказать о том, что я услышал от шести участников. К сожалению, только когда началась панельная дискуссия, я понял, что у меня нет с собой блокнота … Я в ярости порылся в рюкзаке и нашел статью, которую нужно просмотреть. Другими словами, из-за нехватки места моя запись здесь, вероятно, не является точной и обширной.

    Я пишу это в самолете, и простите меня за любую ошибку ниже (или выше). Я хотел записать это до того, как остынет жар от обсуждения. Кроме того, почти все, что заключено в кавычки, не является точной цитатой, а является перефразированным.

    О настоящем и будущем глубокого обучения

    Бенжио начал с того, что отметил, что обработка естественного языка (NLP) не претерпела революций в результате глубокого обучения, хотя за последний год был достигнут огромный прогресс.Он считает, что у НЛП есть потенциал, чтобы стать следующим большим достижением в области глубокого обучения. Кроме того, он хочет, чтобы больше усилий было вложено в обучение без учителя, что нашло отклик у ЛеКуна, Хассабиса и Шмидхубера.

    Интересно, что четверо из шести участников дискуссии, ЛеКун, Хассабис, Лоуренс и Мерфи, сочли медицину / здравоохранение следующим важным направлением глубокого / машинного обучения. Некоторыми из областей, к которым они проявили интерес, были анализ медицинских изображений (LeCun) и открытие лекарств (Hassabis). Что касается этого, я считаю, что Лоуренс уже продвигается в этом направлении (DeepHealth из его предыдущего выступления в тот же день), и будет интересно позже сопоставить его подход с подходами Google DeepMind и Facebook.

    ЛеКун и Хассабис выбрали системы вопросов и ответов и диалоговые системы на естественном языке в качестве следующих важных вещей. Особенно мне понравилось, как ЛеКун помещает их в контекст включения рассуждений, основанных на знаниях, их приобретении и планировании, в нейронные сети (или, собственно говоря, в любую модель машинного обучения). Это поддержали и Хассабис, и Шмидхубер.

    Шмидхубер и Хассабис считают последовательное принятие решений следующей важной темой исследования. Пример Шмидхубера с обезьянами-капуцинами был одновременно вдохновляющим и забавным (не только потому, что он ошибочно назвал это обезьяной капучино).) Чтобы сорвать плод на верхушке дерева, обезьяна-капуцин без особых усилий планирует последовательность промежуточных целей (например, подойти к дереву, взобраться на дерево, схватить плод и т. Д.). Шмидхубер считает, что через 10 лет у нас будут машины с интеллектом животного уровня (например, смартфон Капуцина?).

    Немного отличаясь от других участников дискуссии, Лоуренс и Мерфи больше заинтересованы в переносе недавнего успеха глубокого обучения на задачи / наборы данных, которые люди не могут решить должным образом (позвольте мне пока просто называть такие задачи «некогнитивными» задачами.Лоуренс отметил, что успех глубокого обучения до сих пор в значительной степени ограничивался задачами, которые люди могут выполнять без особых усилий, но будущее может быть за некогнитивными задачами. Когда дело доходит до этих некогнитивных задач, интерпретируемость обученных моделей становится более ценной, отмечает Мерфи.

    Иерархическое планирование, приобретение знаний и способность выполнять некогнитивные задачи естественным образом приводят к идее автоматизированной лаборатории, объяснили Мерфи и Шмидхубер. В этой автоматизированной лаборатории машина будет активно планировать свои цели, чтобы расширить свои знания о мире (путем наблюдений и экспериментов) и обеспечить понимание мира (интерпретируемость.)

    Об промышленности и академических кругах

    Одно удивительное замечание Лекуна заключалось в том, что, по его мнению, разрыв между инфраструктурой промышленных и академических лабораторий со временем будет сокращаться, а не увеличиваться. Это будет здорово, но я более пессимистичен, чем он.

    ЛеКун продолжил объяснение открытого исследования в Facebook AI Research (FAIR). По его словам, есть три причины, по которым отрасль (не только для FAIR) должна продвигать открытую науку: (1) так развиваются исследования в целом, (2) это делает компанию более привлекательной для потенциальных сотрудников / исследователей и (3) ) В исследованиях существует конкуренция между различными компаниями, и это способ опередить других.

    К моему удивлению, по словам Хассабиса, Google DeepMind (далее DeepMind) и FAIR договорились обмениваться фреймворком исследовательского программного обеспечения на основе Torch. Я смутно помню, что слышал что-то об этом в ходе обсуждения несколько недель или месяцев назад, но, видимо, это произошло. Я считаю, что это еще больше ускорит исследования как FAIR, так и DeepMind. Тем не менее, еще предстоит увидеть, будет ли выгодно другим исследовательским центрам (например, университетам) для двух стран с самой высокой концентрацией исследователей глубокого обучения в мире совместно использовать и использовать одну и ту же базу кода.

    Хассабис, Лоуренс, Мерфи и Бенжио — все считают, что огромные ресурсы, доступные в промышленных лабораториях, не обязательно являются проблемой для академических лабораторий. Лоуренс отметил, что, за исключением компаний, управляемых данными (вспомните Google и Facebook), большинство компаний в мире страдают от обилия данных, а не пользуются ими, что открывает большие возможности для исследователей в академических лабораториях. Мерфи сравнил научные исследования в наши дни с русскими во время космической гонки между США и Россией.Отсутствие ресурсов может оказаться полезным или даже необходимым для алгоритмических прорывов, которые Бенжио и Хассабис все еще считают важными. Кроме того, Хассабис предложил находить задачи или проблемы, в которых можно легко генерировать искусственные данные, такие как игры.

    Ответ Шмидхубера был здесь самым уникальным. Он считает, что код для действительно работающих агентов ИИ будет настолько простым и коротким, что в конечном итоге школьники начнут с ним играть. Другими словами, не стоит беспокоиться, что отрасли монополизируют ИИ и его исследования.Не о чем волноваться!

    О шумихе и потенциальном втором NN Winter

    Поскольку этот вопрос о чрезмерном преувеличении задают ему каждый раз, когда он дает интервью журналисту, ЛеКун начал с этой темы. По словам ЛеКуна, чрезмерное раздувание опасно, и есть четыре фактора; (1) самообманчивые ученые, которым нужно финансирование, (2) основатели стартапов, которым нужно финансирование, (3) руководители программ финансирующих агентств, которые управляют финансированием, и (4) неудавшаяся журналистика (которая, вероятно, также нуждается в финансировании / зарплате). В области глубокого обучения четвертый фактор сыграл важную роль, и, что удивительно, не все новостные статьи стали результатом работы пиар-машин в Google и Facebook.Скорее, ЛеКан предпочитает, чтобы журналисты звонили исследователям, прежде чем писать потенциально чепуху.

    ЛеКун и Бенжио полагают, что потенциальным решением как избежать чрезмерной шумихи, так и ускорить прогресс в исследованиях является открытая система обзора, где (настоящие) ученые / исследователи размещают свои работы в Интернете и публично комментируют их, чтобы люди могли увидеть как положительные, так и обратные стороны статьи (и почему эта статья сама по себе не вызовет сингулярности). Продвигая ее дальше, Мерфи указал на важность исследовательского программного обеспечения с открытым исходным кодом, с помощью которого другим людям будет легче понять слабые стороны или ограничения недавно предложенного методы в статьях.Тем не менее, он указал, что для самих авторов важно четко указывать ограничения своих подходов при написании статьи. Конечно, для этого необходимо то, что сказал Леон Ботту в своем пленарном выступлении (рецензенты должны поощрять обсуждение ограничений, а не убивать статью из-за них).

    Точно так же Лоуренс предложил, чтобы мы, исследователи и ученые, медленно, но верно приближались к общественности. Если мы не можем доверять журналистам, возможно, нам придется сделать это самим.Хорошим примером, на который он указал, является подкаст «Говорящие машины» Райана Адамса и Кэтрин Горман.

    Хассабис согласен с тем, что чрезмерное раздувание опасно, но также считает, что третьей зимы AI / NN не будет. Ведь теперь мы лучше знаем, чем были вызваны предыдущие зимы AI / NN, и мы лучше не обещаем слишком многого. Если я могу добавить сюда свое собственное мнение, я согласен с Хассабисом, и особенно потому, что нейронные сети сейчас широко используются в коммерческих приложениях (вспомните Google Voice), будет еще труднее провести еще одну зиму NN (я имею в виду, что это работает!)

    Шмидхубер также согласен со всеми другими участниками дискуссии, что зимы AI / NN больше не будет, но по еще одной причине; достижения в области аппаратных технологий в направлении «более RNN-подобных (следовательно, мозговых) архитектур».Он считал, что пришло время перейти к аппаратным технологиям, которые больше подходят для нейронных сетей, а точнее — к рекуррентным нейронным сетям, где «небольшой трехмерный объем с множеством процессоров, соединенных множеством коротких и нескольких длинных проводов».

    Один комментарий от Мерфи был моим любимым; « это просто человеческая природа ».

    О страхе и сингулярности ИИ

    По-видимому, Хассабис из DeepMind был в центре недавних опасений ИИ со стороны таких выдающихся фигур, как Илон Маск, Стивен Хокинг и Билл Гейтс.Хассабис представил Маску ИИ, что, возможно, его встревожило. Однако в последние месяцы Хассабис убедил Маска, а также побеседовал об этом с Хокингом в течение трех часов. По его словам, сейчас Хокинг волнуется меньше. Однако он подчеркнул, что мы должны быть готовы, а не бояться будущего.

    Мерфи обнаружил, что подобный страх ИИ и обсуждение сингулярности сильно отвлекают. В мире существует так много других серьезных проблем, которые требуют немедленного внимания, например, изменение климата и распространение неравенства.Подобный страх ИИ — это просто переоцененные спекуляции, и их нужно прекратить, с чем согласны и Бенжио, и ЛеКун. Точно так же Лоуренс не считает страх перед ИИ той проблемой, о которой стоит беспокоиться. Скорее его больше беспокоит проблема цифровой олигархии и неравенства данных.

    Одно интересное замечание ЛеКуна заключалось в том, что мы должны быть осторожны при различении интеллекта и качества. Большинство проблемных форм человеческого поведения, из-за которых многие опасаются человеческого ИИ, вызваны человеческими качествами, а не интеллектом.Никакая интеллектуальная машина не обязательно должна унаследовать человеческие качества.

    У Шмидхубера был совершенно уникальный взгляд на этот вопрос. Он считает, что мы увидим сообщество агентов ИИ, состоящее как из умных, так и из глупых. Они будут больше интересоваться друг другом (поскольку десятилетние девочки больше интересуются другими десятилетними девочками и тусуются с ними, а обезьяны-капуцины заинтересованы в общении с другими обезьянами-капуцинами) и, возможно, не будут слишком много интересуется людьми. Более того, он считает, что агенты ИИ будут значительно умнее людей (или, скорее, его самого) без тех человеческих качеств, которые ему не нравятся в себе, что согласуется с замечанием ЛеКуна.

    Вопросы из аудитории

    К сожалению, все это время я таскал с собой микрофон и впоследствии не мог ничего сделать. Были отличные вопросы (например, от Таймена Тилемана) и ответы участников дискуссии. Надеюсь, если кто-то прочитает это и запомнит эти вопросы и ответы, поделитесь этим в разделе комментариев.

    Один вопрос, который я помню, исходил от Тилемана. Он спросил участников дискуссии об их мнении об активном обучении / исследовании как о варианте эффективного обучения без учителя.Шмидхубер и Мерфи ответили, и, прежде чем я раскрыл их ответ, мне он очень понравился. Короче говоря (насколько я уверен в своей памяти) активное исследование будет происходить естественным образом, как следствие вознаграждения за лучшее объяснение мира. Знание об окружающем мире и его накопление должны быть вознаграждены, и чтобы максимизировать эту награду, агент или алгоритм будут активно исследовать окружающую местность (даже без присмотра). По словам Мерфи, это может отражать то, как дети учатся так быстро без особого надзора. сигнал или даже без большого количества неконтролируемых сигналов (их способ активного исследования компенсирует отсутствие неконтролируемых примеров, позволяя ребенку собирать высококачественные неконтролируемые примеры.)

    Мне выпала честь задать последний вопрос, адресованный в основном Хассабису, ЛеКану и Мерфи, о том, что компании будут делать, если (случайно или намеренно) построят действительно работающий агент ИИ (в любом смысле). Скрывают ли они это, думая, что мир не готов к этому? Сохранят ли они это в секрете из-за потенциальных возможностей для коммерциализации? Позвольте мне кратко изложить их ответы (насколько я помню, но опять же, тогда я не мог это записать).

    Все они заявили, что этого не произойдет (одна авария привела к мыслительной машине.) И поэтому ЛеКун не считает это опасным, поскольку это будет происходить постепенно в результате совместных усилий многих ученых как в промышленности, так и в академических кругах. Хассабис верит так же, как и ЛеКун, и также не мог представить, что такое открытие, если бы оно произошло, можно было бы сдержать (вероятно, лучшая утечка в истории человечества). Однако он утверждал, что готовиться к будущему. где мы, люди, получим доступ к действительно мыслящим машинам, и я разделяю это мнение.Мерфи был согласен и с ЛеКуном, и с Хассабисом. Вместе с ЛеКуном он сделал замечание по поводу недавно вышедшего фильма «Экс-машина» (который, кстати, является моим фаворитом в этом году): «Это прекрасно снятый фильм, но ничего подобного не произойдет.

    Я согласен со всем, что они сделали. Хотя у моего вопроса была другая причина, которая, к сожалению, ими не обсуждалась (несомненно, из-за нехватки времени). То есть, когда у нас есть алгоритмы или механизмы, которые «думают» и говорят, что несколько наиболее важных частей были разработаны в пара коммерческих компаний (например, Hassabis, LeCun и Murphy), которые будут иметь право на эти важные компоненты, будут ли эти ключевые компоненты принадлежать этим компаниям или частным лицам, должны ли они быть обнародованы (что-то вроде универсального права на искусственное интеллект?), и самое главное, кто будет решать все это?

    Вывод?

    Очевидно, вывода нет.Это постоянная работа, и я или мы, организаторы, надеемся, что эта панельная дискуссия была успешной в том, что пролила хотя бы немного света на пути к будущему глубокого обучения, а также общего искусственного интеллекта (хотя, как указал Лоуренс вскрыть абсурдность этого термина, процитировав Зубина Гахрамани: « если летит птица, то летит ли самолет искусственно? »)

    Но позвольте мне указать на несколько вещей, которые я лично считаю очень интересными и вдохновляющими:

    1. Обучение без учителя как обучение с подкреплением и автоматизированная лаборатория: вместо того, чтобы принимать во внимание каждый отдельный немаркированный пример, мы должны позволить модели выборочно рассматривать подмножество немаркированных примеров, чтобы максимизировать вознаграждение, определяемое количеством накопленных знаний.
    2. Избыточного шумихи можно избежать в основном за счет активного участия исследователей в распространении последних результатов и идей, вместо того, чтобы позволить неспециалистам объяснять их неспециалистам. Подкастинг, открытое рецензирование и ведение блога могут помочь, но, вероятно, здесь нет единственного правильного ответа.
    3. Я не думаю, что было какое-то одно соглашение по вопросу между промышленностью и научным сообществом. Однако я чувствовал, что все три академических эксперта, а также представители других отраслевых экспертов согласны с тем, что каждый играет свою роль (иногда частично совпадающую) в достижении единой великой цели.
    4. Глубокое обучение оказалось успешным в том, в чем люди хороши (например, в зрении и речи), и в будущем мы, исследователи, должны также изучить задачи / наборы данных, в которых люди не особенно хороши (или становятся хорошими только спустя годы и годы. специального обучения.) В этом смысле медицина / здравоохранение, кажется, одна из областей, в которой большинство участников дискуссии интересовались и, вероятно, инвестируют в нее.

    Что касается формата панельной дискуссии, то в целом он мне понравился, но, конечно, как обычно, было несколько неудовлетворительных моментов.Самым неудовлетворительным было установленное нами ограничение по времени (1 час). Мы собрали шесть замечательных участников дискуссии, которым есть чем поделиться с аудиторией и миром, но в среднем на одного участника дискуссии было отведено всего 10 минут. На самом деле, как одному из организаторов, это отчасти связано с моей ошибкой в ​​планировании. Было бы даже лучше, если бы панельная дискуссия была запланирована на целый день с большим количеством участников, большим количеством тем и большим вовлечением аудитории (по крайней мере, мне бы это понравилось!) Но, конечно же, трехдневная — давний семинар был выходом из нашей лиги.

    Еще я думаю, что можно улучшить, это разовый характер обсуждения. Возможно, такая панельная дискуссия станет ежегодным мероприятием. Он может быть совмещен с мастерской или даже проводиться онлайн. Это может помочь, как отметили многие участники дискуссии, нам (и другим) избежать переоценки результатов нашего исследования или будущего всей области машинного обучения и станет отличным способом приблизиться к гораздо более широкой аудитории, включая как старших, так и младших. исследователи, а также другая информированная / заинтересованная общественность.Может быть, я или вы, читающие это, должны послать электронное письмо ведущим «Говорящих машин» и предложить это.

    Комментарий Юргена Шмидхубера

    Шмидхубер прочитал этот пост и прислал мне по электронной почте свой комментарий, чтобы прояснить некоторые вещи. С его разрешения помещаю здесь его комментарий как есть:

    Спасибо за ваше резюме! Думаю, было бы хорошо опубликовать точную стенограмму. Позвольте мне пока предложить несколько пояснений:

    1.Почему без дополнительной зимы НН? Законы физики заставляют наше оборудование становиться все более и более похожим на 3D-RNN (и похожим на мозг): плотно упакованные процессоры, соединенные множеством коротких и нескольких длинных проводов, например http://www.reddit.com/r/ машинное обучение / комментарии / 2xcyrl / i_am_j% C3% BCrgen_schmidhuber_ama / coz9n6n. Природа, кажется, диктует такие 3D-архитектуры, и именно поэтому и быстрые компьютеры, и мозг такие, какие они есть. То есть даже без какой-либо биологической мотивации алгоритмы RNN станут еще более важными — новой зимы NN не предвидится.

    И в ближайшем будущем будет серьезное коммерческое давление, чтобы сделать очень дружелюбные, не очень умные ИИ, которые делают своих пользователей счастливыми. К сожалению, похожий на ребенка ИИ также может быть обучен больными людьми, чтобы стать ребенком-солдатом, что звучит ужасно. Поэтому я бы никогда не сказал: «Не о чем беспокоиться!» Тем не менее, глупые конфликты целей между роботами и людьми в известных сюжетах фантастических фильмов (Матрица, Терминатор) не имеют никакого смысла.

    Ура,

    Юрген

    Недавно Джеффри Хинтон, Ян Лекун и Йошуа Бенджио провели Reddit AMA, где подписчики r / MachineLearning задавали им вопросы.Каждая AMA содержит интересные анекдоты о глубоком обучении от самых известных ученых в этой области.

    AMA Reddit Йошуа Бенжио: http://www.reddit.com/r/MachineLearning/comments/1ysry1/ama_yoshua_bengio

    AMA Reddit Янна Лекуна: http://www.reddit.com/r/MachineLearning/comments/25lnbt/ama_yann_lecun

    AMA Джеффри Хинтона: http://www.reddit.com/r/MachineLearning/comments/2lmo0l/ama_geoffrey_hinton

    В дополнение к этому, Майкл I Джордан, влиятельный ученый в области машинного обучения, также провел на Reddit AMA, где на вопросы он высказал несколько замечаний о глубоком обучении.

    AMA Майкла I Джордана: http://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jordan/

    DeepMind приобрела стартап Google за 500 миллионов долларов и установила новое сотрудничество с Оксфордским университетом. Новость объявлена ​​Демисом Хассабисом, соучредителем DeepMind и вице-президентом по разработке в Google из сообщения в блоге [1]. DeepMind нанимает исследователей глубокого обучения профессор Нандо де Фрейтас, профессор Фил Блансом, доктор Эдвард Грефенстетт и доктор Карл Мориц Херманн из Оксфордского университета, которые в начале этого года объединились для создания Dark Blue Labs.Также доктор Карен Симонян, Макс Ядерберг и профессор Эндрю Зиссерман, один из ведущих мировых экспертов по системам компьютерного зрения, недавно открывший стартап под названием Vision Factory, присоединятся к DeepMind из Оксфордского университета [1,2].

    Три профессора, нанятых DeepMind, проводят совместные встречи в Оксфордском университете, где они и дальше будут проводить часть своего времени.

    [1] Сотрудничество с Оксфордским университетом по искусственному интеллекту, http: // googlepolicyeurope.blogspot.be/2014/10/teaming-up-with-oxford-university-on.html, последнее обращение: 24-10-2014.

    [2] DeepMind Google нанимает две команды ИИ в Великобритании и сотрудничает с Оксфордом, http://techcrunch.com/2014/10/23/googles-deepmind-acqui-hires-two-ai-teams-in- the-uk-partners-with-oxford /, последнее обращение: 24-10-2014.

    .

    Leave a Comment

    Ваш адрес email не будет опубликован. Обязательные поля помечены *