Преподавание iPhone на диске

* Эта статья в соавторстве с нейрофизиком Лос-Аламоса Майклом Хэмом

Это история о грядущей сингулярности.

Для незнакомых термин «сингулярность» происходит от астрофизики, где это технически пятно в черной дыре, где материя раздроблена до крошечной точки с бесконечной массой и без объема; и метафорически – горизонт событий – точка, за которой мы не можем видеть.

В 1950-х годах математик Джон фон Нойманн применил эту метафору к технологиям, написав: «[] когда-либо ускоряя прогресс технологии и изменения в способе жизни человека, что дает появление приближения к какой-то существенной особенности в истории расы за которыми человеческие дела, как мы их знаем, не могут продолжаться ».

Рэй Курцвейл, автор The Singularity Near Near и самый большой популяризатор этого термина, ссылается на сингулярность как момент времени, когда компьютеры становятся умнее людей.

Особенность, которую мы описываем, не является чем-то совершенно драматичным, но не менее революционным. Очень скоро, возможно, в течение следующих пяти лет мы пересечем линию, и компьютеры начнут видеть лучше, чем люди.

Что это значит? Ну, сейчас компьютеры в основном заперты в цифровой вселенной – они еще не могут прямо понять наш аналоговый мир. По-прежнему требуется какое-то вмешательство человека.

Примером может служить iPhone Siri. Говоря с вашим iPhone, Siri преобразует аналоговый вход (ваш голос) в цифровой ответ, но процесс – в то время как потрясающий – по-прежнему требует человека.

В машинном видении, кроме как в чрезвычайно громоздких системах, таких как LIDAR, главные глаза для автономного автомобиля Google – способность обойтись без участия человека еще не существует в какой-либо реальной способности.

Реалистично, я имею в виду, что система LIDAR является a) очень дорогой b) довольно громоздкой. Другими словами, он не подходит для вашего iPhone.

Но если iPhone сможет обрабатывать данные с камеры с такой же точностью, как и у человека, он может управлять вашим автомобилем. Короче говоря, это визуальная особенность.

И мы приближаемся. Как обнаружение номерного знака, так и распознавание лица – это компьютерные трюки, которые уже работают. Но они ограниченные алгоритмы – они делают одну вещь очень хорошо, но не так много. Вы не можете подключить свой iPhone к своей комнате и сказать, чтобы он очистил грязь, но не Легос.

Две силы меняют это, и, как оказалось, это те же две силы, которые управляют всеми особенностями.

Первый – экспоненциальные кривые. Закон Мура, Закон о маслах и т. Д. То же ускорение в вычислительной мощности, которое привело к прорыву Сири, – это эволюция машинного зрения. Разница в том, что обнаружение речи является проблемой мегабайта, а машинное зрение – проблемой с гигабайтом. Но по мере того, как наши компьютеры продолжают работать быстрее, эта проблема полностью исчезает.

Вторая – данные – критическая масса данных.

Мы обнаружили, что самые простые способы обезопасить человеческие способности – это обучать их. Например, именно массовый рост веб-сайтов (то есть цифровой текст) позволил увидеть синхронность текста (точка, в которой машины могли читать, а также люди). Точно так же для достижения речевой сингулярности (aka Siri) потребовалось огромное количество оцифрованной речи человека. Аналогично, без Youtube и 72 часов видео, загружаемых каждую минуту, предстоящая визуальная особенность была бы невозможна.

В июне прошлого года Google объединил 16 000 компьютерных процессоров в гигантское машинное зрение, изучающее нейронную сеть и выпустив на YouTube. В результате, как отмечает New York Times, сеть научилась распознавать кошек.

Зачем? Просто…. На YouTube есть куча кошачьих видеороликов. Так что это одна из тех вещей, которые он видел много. Именно так ребенок учится распознавать объекты, которые они видят каждый день.

История кота обошла. То, что большинство людей пропустило в этой статье Times, было то, что алгоритм машинного зрения Google был намного лучше, чем что-либо еще, что получилось – примерно удвоение его точности (при распознавании объектов из списка около 20 000 предметов) на пути к обнаружению кошек.

Это удвоение – это экспоненциальный рост. Видимый экспоненциальный рост. Это означает, что хотя машинное зрение было на экспоненциальной кривой некоторое время, оно было ниже колена кривой, где эти удвоения в основном невидимы. Успех Google значительно приближает дугу к колену – это означает, что мы приближаемся к зрению, как мы, люди, это знаем.

С другой стороны, когда мы говорим о зрении, как мы, люди, знаем об этом, мы говорим о допустимом пороге ошибки. Человеческая визуальная система довольно хороша. Не здорово, но более чем достаточно, чтобы держать нас вокруг этих последних 200 000 лет. Именно по этой причине частота ошибок приемлема для нас.

Но это имеет пределы. Человеческое зрение устает. В экспериментах, проведенных в Национальной лаборатории Лос-Аламоса, когда людям предлагали выполнять задачи распознавания предметов, эксперименты проводились в течение часа, чтобы не дойти до того момента, когда испытуемые больше не могли сосредоточиться на задаче. Машина Google работала в течение недели над миллионами изображений, задолго до того, как любой человек мог надеяться на то, чтобы идти в ногу со временем.

Как только этот порог будет преодолен, влияние на общество будет значительным.

Прямо сейчас, например, у нас есть хирургический робот Da Vinci. Удивительное изобретение. Да Винчи помогает хирургам выполнять все, начиная с сердечных обходов через желудочные обходы с гораздо большей точностью и меньшим побочным эффектом, чем у человека без посторонней помощи. Но да Винчи все еще нуждается в человеческом участии. Способность выполнять настоящую операцию – руки намного лучше, чем руки, но нам нужно одолжить глаза. Но когда машинное зрение становится лучше человеческого зрения, хирург становится устаревшим.

Ладно, не полностью устаревшие, нам все равно понадобятся их знания и исследовательские навыки. Тем не менее, IBM отправила Watson (суперкомпьютер Jeopardy -winning) в медицинскую школу. Он загружается с максимально возможной медицинской информацией. Результаты приведут в облако невероятно мощное диагностическое устройство. Соедините это диагностическое устройство с улучшением зрения человека (и микрофлюидный анализ на лабораторных условиях), и это не просто хирурги, которые не работают.

Врачи тоже. В настоящее время диагностическая ошибка для врачей-врачей составляет 45 процентов. Это означает, что если вы обратитесь к своему врачу три раза – проценты говорят, что он ошибался в одном из этих посещений. У нас уже есть Watson, технология Lab-on-a-chip уже несколько лет (см. Премию Qualcomm Tricorder X Prize). Машинное зрение завершает триумвират. Результаты изменят здоровье навсегда.

Честно говоря, это не просто медицинское обслуживание. Когда машины способны визуально взаимодействовать с миром, он откроет для себя технологию, которая теперь является только научной фантастикой.

Итак, Сири, заставляй меня работать, пока я заканчиваю смотреть последние двадцать минут Терминатора.