Блоха

Как сделать экспертов глупыми.

Есть старая шутка про ученого и блоху. Ученый положил блоху на стол, затем сильно ударил его рукой по столу, и блоха прыгнула. Затем ученый оторвал две ноги блохи и снова ударил их, и блоха снова подпрыгнула. Ученый оторвал еще две ноги, повторил процедуру, и снова блоха прыгнула.

Ученый оторвал последние две ноги, хлопнул ладонью по столу и – без прыжков. Он попробовал еще раз, сильно ударил рукой по столу, но блоха все еще не прыгнула.

Ученый записал свое наблюдение: «Когда блоха теряет все ноги, она становится глухой».

Точно так же, если вы берете экспертов и ставите их в ситуацию, когда им приходится выполнять незнакомую задачу (две ноги в отрыве), и удаляете какой-либо значимый контекст (еще две ноги в отрыве), и применяете неподходящий критерий оценки (последние две ноги выключены) Ошибочно полагать, что эксперты глупы.

Мне напомнили об этой шутке, когда я прочитал некоторые рассказы о том, как продвинутые системы искусственного интеллекта превосходят экспертов. Например, в сфере здравоохранения диагност, лечащий пациента, может посмотреть на рентген на наличие признаков пневмонии, но системы искусственного интеллекта могут более точно обнаружить пневмонию в рентгеновских лучах. Или врач может изучить результаты анализа крови, но системы искусственного интеллекта могут определять проблемы из электронных медицинских карт более точно, чем врачи.

На этой фотографии не хватает того, что у врача также есть возможность встречаться с пациентами и наблюдать за ними – как они двигаются, особенно по сравнению с последним визитом в офис. Как они дышат и так далее. Системы ИИ не имеют возможности принять эти наблюдения во внимание, поэтому сравнительные исследования отсеивают любые наблюдения и требуют, чтобы врачи полностью основывали свои суждения на объективных записях. Это две ноги. Врачам не разрешается рассматривать какую-либо личную историю с пациентами – еще две ноги. Врачи не могут советоваться с членами семьи – последние два шага. И поэтому исследователи приходят к выводу, что врачи не очень умелые – не такие точные, как ИИ.

Я думаю, что нам нужен способ, позволяющий разработчикам ИИ улучшать суждения врачей, а не заменять их. Вот пример, исследование Wang et al. (2016). Уровень ошибок патологов составил 3,5 процента, тогда как коэффициент ошибок модели ИИ составил всего 2,9 процента. Казалось бы, явная победа модели AI. Тем не менее, общая частота ошибок при добавлении патолога к ИИ составила 0,5%.

 Wang et al. generated this graphic

Добавление патолога в ИИ

Источник: Wang et al. сгенерировал эту графику

Другое исследование (Rosenberg et al., 2018) описывает, как механизм с использованием искусственного интеллекта использовал «интеллект роя» среди группы экспертов-рентгенологов, изучающих рентгенографию грудной клетки на наличие пневмонии. Рой превзошел стандартную производительность радиолога на 33 процента, но он также побил современную систему глубокого обучения Стэнфорда на 22 процента.

Сиддики (2018) описал еще один пример партнерства между человеком и ИИ. Опытные врачи могут идентифицировать одного из тысячи очень больных детей примерно в три четверти времени. Чтобы повысить точность выявления и уменьшить количество пропущенных детей, некоторые больницы в настоящее время используют количественные алгоритмы из своих электронных медицинских карт, чтобы выбрать, какие лихорадки были опасными. Алгоритмы полностью опираются на данные и являются более точными, чем врачи, выявляя серьезные инфекции девять раз из десяти. Однако алгоритмы имели в десять раз больше ложных срабатываний. Одна больница в филадельфийской больнице взяла за основу компьютерный список вызывающих беспокойство лихорадок, но затем попросила своих лучших врачей и медсестер осмотреть детей, прежде чем объявить, что инфекция смертельна, и доставить их в больницу для внутривенных лекарств. Их команды с высокой точностью отсеивали ложные срабатывания алгоритма. Кроме того, врачи и медсестры обнаружили случаи, пропущенные компьютером, в результате чего уровень выявления смертельных инфекций возрос с 86,2 процента по одному алгоритму до 99,4 процента по алгоритму в сочетании с человеческим восприятием.

Так что экспертов легко сделать глупыми. Но гораздо интереснее и эффективнее использовать свои способности на работе.

Я благодарю Лоренцо Барбериса Канонико за то, что он привлек мое внимание к этим исследованиям.

Рекомендации

Розенберг Л., Уиллкокс Г., Халаби С., Лунгрен М., Балтакс Д. и Лайонс М. (2018). Искусственный интеллект Swarm используется для повышения точности диагностики в радиологии. , IEMCON 2018 – 9-я ежегодная конференция по информационным технологиям, электронике и мобильной связи

Сиддики, Дж. (2018). Почему врачи отказываются от инструментов, которые облегчают их работу. Scientific American, Бюллетень наблюдений, 15 октября 2018 г.

Ван Д., Хосла А., Гаргейя Р., Иршад Х., Бек А.Х. (2016). Глубокое обучение для выявления метастатического рака молочной железы. Неопубликованная статья.