Использование данных по физике для перенастройки компьютерного зрения

Использ. данных по физике для перенастройки КЗ

.fav_bar { float:left; border:1px solid #a7b1b5; margin-top:10px; margin-bottom:20px; } .fav_bar span.fav_bar-label { text-align:center; padding:8px 0px 0px 0px; float:left; margin-left:-1px; border-right:1px dotted #a7b1b5; border-left:1px solid #a7b1b5; display:block; width:69px; height:24px; color:#6e7476; font-weight:bold; font-size:12px; text-transform:uppercase; font-family:Arial, Helvetica, sans-serif; } .fav_bar a, #plus-one { float:left; border-right:1px dotted #a7b1b5; display:block; width:36px; height:32px; text-indent:-9999px; } .fav_bar a.fav_print { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_print:hover { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.mobile-apps { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #FFF; background-size: 10px; } .fav_bar a.mobile-apps:hover { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #e6e9ea; background-size: 10px} .fav_bar a.fav_de { background: url(/images/icons/de.gif) no-repeat 0 0 #fff } .fav_bar a.fav_de:hover { background: url(/images/icons/de.gif) no-repeat 0 0 #e6e9ea } .fav_bar a.fav_acm_digital { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_acm_digital:hover { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_pdf { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_pdf:hover { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_more .at-icon-wrapper{ height: 33px !important ; width: 35px !important; padding: 0 !important; border-right: none !important; } .a2a_kit { line-height: 24px !important; width: unset !important; height: unset !important; padding: 0 !important; border-right: unset !important; border-left: unset !important; } .fav_bar .a2a_kit a .a2a_svg { margin-left: 7px; margin-top: 4px; padding: unset !important; }

Согласно Лалех Джалилиан из Медицинской школы Дэвида Геффена при Университете Калифорнии в Лос-Анджелесе (UCLA), "Включение физических свойств в компьютерное зрение может улучшить точность многих устройств и представить совершенно новые технологии". ¶ Кредит: Виджай Патель / Getty Images

Компьютерное зрение преобразовало множество задач – от проверки компонентов на производственных линиях до проверки подлинности пассажиров при посадке на рейсы. Оно может предоставлять высококачественные результаты в широком спектре ситуаций и сценариев. Однако, по мере усложнения и требовательности условий, как точность, так и полезность технологии снижаются.

Проблема заключается в природе компьютерного зрения и искусственного интеллекта (ИИ). Ученые-данным обучают современные системы на сверточных сетях с использованием огромных объемов данных – во многих случаях десятков тысяч изображений. Однако компьютерная система зрения, скорее всего, столкнется с трудностями и допустит серьезные ошибки, когда ей придется идентифицировать объекты с использованием неполных или неизвестных переменных.

“Современные системы компьютерного зрения отлично справляются с идентификацией вещей в фиксированной среде, которая включает обучение”, – говорит Ачута Кадамби, ассистент профессора электротехники и компьютерных наук Университета Калифорнии в Лос-Анджелесе (UCLA). Однако изменения освещения, видимости или давления могут заставить эти системы неправильно оценить ситуацию, – говорит он. “Мы не можем создать исчерпывающий набор обучающих данных, который учитывает все реальные переменные”, – объясняет он.

В результате исследователи ищут способы дополнить обычные данные компьютерного зрения метаданными, собранными из физических датчиков и систем. В июне 2023 года команда из Университета Калифорнии в Лос-Анджелесе и Лаборатории исследования армии США представила новый подход в научной статье, опубликованной в журнале Nature Machine Intelligence. “Цель состоит в том, чтобы помочь этим системам лучше ‘видеть’, прибегая к идеям, вытекающим из физических законов”, говорит Кадамби.

Дополняет Лалех Джалилиан, ассоциированный профессор и анестезиолог в Давид Геффенской медицинской школе Университета Калифорнии в Лос-Анджелесе, частый сотрудник Кадамби: “Включение физических свойств в компьютерное зрение может улучшить точность многих устройств и внести совершенно новые технологии”.

Улучшение видимости

Соблазнительно удивляться мощи современной технологии компьютерного зрения, но инженеры и дизайнеры продуктов вынуждены столкнуться с неприятной правдой: модели глубокого обучения работают без внутреннего понимания объектов и среды, которые они “видят”. Результаты основаны исключительно на способности модели точно предсказывать, что произойдет дальше.

Даже самые передовые методы компьютерного зрения обладают ограниченными возможностями прогнозирования. Кадамби указывает, например, что когда модель глубокого обучения пытается отобразить траекторию мяча или самолета в движении, могут возникать серьезные проблемы. Поскольку система глубокого обучения не нацелена на явное моделирование окружающих факторов, таких как атмосферное давление, сопротивление и погода, “Траектория может варьироваться от незначительно неточной до абсурдно неточной”, говорит Кадамби.

Такие аномалии не особенно важны для сканирования лица или когда система сталкивается с несколькими экземплярами одного и того же предмета на конвейерной ленте. Однако для движущихся объектов и тех, которым требуются продвинутые трехмерные (3D) прогностические возможности, основанные на плоской геометрии – для автономных транспортных средств и некоторых медицинских инструментов, например, могут возникать проблемы. “Фактическая физическая среда не включена явно в компьютерную систему зрения”, отмечает Кадамби.

Такие граничные случаи, которые не являются совсем редкими, могут вызывать непредсказуемые, иногда фатальные реакции системы. Например, в 2018 году женщина была убита автомобилем без водителя Uber, потому что система компьютерного зрения не смогла распознать, что она переходит дорогу на велосипеде. Система компьютерного зрения была обучена обнаруживать пешеходов и велосипеды, но не и то, и другое одновременно.

Гибридный подход, разработанный Кадамби и его коллегами исследователями, направлен непосредственно на решение этой проблемы. Путем включения атрибутов, основанных на физике – метаданных, полученных из подключенных устройств интернета вещей (IoT), квантовых датчиков и общих знаний человека о физических свойствах – можно достичь уровня интеллекта, более близкого к человеческому. Вдруг модель может применять известные свойства гравитации, сопротивления, веса, движения и атмосферного давления для генерации гораздо более точных прогнозов.

Этот фреймворк фокусируется на трех основных областях: пометка объектов дополнительной информацией, определяющей их поведение; введение физики в архитектуру сети с помощью кодирования, которое могут читать камеры и системы искусственного интеллекта; и включение физических данных в наборы обучающих выборок для создания более надежных моделей искусственного интеллекта. Результатом является автономное транспортное средство, робот или беспилотный летательный аппарат, которые, вероятно, будут лучше справляться с плохой погодой и другими сложными условиями.

Взгляд на реальность

В будущем физические метаданные могут принести выгоду не только роботам и автоматизированным системам. Например, в UCLA Medical Center Джалилиан, имеющая опыт в области инженерии, исследует способы улучшения точности и точности медицинских устройств с помощью тегов данных. Это включает оксиметры крови, которые иногда допускают ошибки на основе цвета кожи.

Джалилиан также рассматривает возможность использования камера-генерируемых изображений и мультимодальных датчиков для измерения показателей здоровья пациента и получения других данных удаленно. “Технология может поддерживать гораздо более продвинутую телемедицину. Удаленные медицинские устройства с алгоритмами искусственного интеллекта, работающими на видеопотоке, могут предоставлять информацию о состоянии человека”, говорит она. Например, система может обнаружить пациента с низким уровнем кислорода в крови и предупредить врача. “Это изменяет подход от реактивной медицины к превентивной медицине”.

Другие исследователи также ищут способы дополнить компьютерное зрение данными. Например, группа исследователей из Массачусетского технологического института (MIT) и IBM разработала фреймворк, основанный на методах распознавания объектов, смоделированных по образу и подобию человеческого мозга. Эти дополнительные нейронные данные приводят к более “человекообразной” обработке, говорит профессор MIT Джеймс ДиКарло. Фактически, добавление биологических данных к потокам видения приводит к повышению уровня точности в категоризации объектов, хотя система также имеет тенденцию терпеть неудачи, как и люди.

Хотя идея улучшения машинных данных с помощью тегов и других форм метаданных, исходящих из физического мира, только начинает обретать форму, Кадамби и другие оптимистично рассчитывают, что эта техника приведет к более надежному и точному компьютерному зрению, а также к возможности избежать ложных срабатываний, которые могут преследовать системы зрения. Машины, которые видят лучше, могут фундаментально изменить способ работы робототехники, технологий автоматизации и других систем восприятия, а также то, как и где они используются.

“Изображения фундаментально отличаются от данных, поступающих из систем на основе языка, потому что изображения создаются на основе законов оптической физики”, – заключает Кадамби. Вставка физических метаданных в системы компьютерного зрения “может создавать гораздо лучшие модели и значительно улучшать их возможности”.

Сэмюэл Грингард – автор и журналист, проживающий в Уэст-Линн, штат Орегон, США.