Исследователи компании Apple и Университета Карнеги-Меллон представляют бесконечного ученика пользовательского интерфейса революция в доступности приложений через непрерывное машинное обучение

Бесконечный ученик пользовательского интерфейса революция в доступности приложений с использованием непрерывного машинного обучения от исследователей Apple и Университета Карнеги-Меллон

Статья публикует ссылки на изображения:
– https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-15-at-8.03.36-AM-1024×711.png
– https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-15-at-8.03.36-AM-150×150.png

Машинное обучение все больше интегрируется в различные области. Его широкое использование распространяется на все отрасли, в том числе на мир пользовательских интерфейсов (UI), где оно является ключевым элементом для предвосхищения семантических данных. Это приложение не только улучшает доступность и упрощает тестирование, но также помогает автоматизировать задачи, связанные с UI, что приводит к более удобным и эффективным приложениям.

В настоящее время многие модели в основном полагаются на наборы данных статических снимков, оцененных людьми. Однако этот подход является дорогостоящим и может приводить к непредвиденным ошибкам. Поскольку люди не могут взаимодействовать с элементом интерфейса в живом приложении, чтобы подтвердить свои выводы, аннотаторы должны полностью полагаться на визуальные подсказки при оценке того, является ли элемент интерфейса доступным на основе снимка.

Несмотря на недостатки использования наборов данных, которые записывают только фиксированные снимки представлений мобильных приложений, их использование и поддержка являются дорогостоящими. Однако благодаря их обилию данных эти наборы данных продолжают оставаться бесценными для обучения глубоких нейронных сетей (DNN).

В результате исследователи Apple совместно с Карнеги-Меллоновским университетом разработали систему AI Never-Ending UI Learner. Эта система непрерывно взаимодействует с фактическими мобильными приложениями, что позволяет ей постоянно улучшать свое понимание конструктивных шаблонов и новых тенденций в UI. Она автономно загружает приложения из магазинов приложений для мобильных устройств и внимательно изучает каждое из них, чтобы найти новые и сложные сценарии для обучения.

Never-Ending UI Learner уже исследовал более 5000 часов работы устройств, выполнив более 500 000 действий в 6000 приложениях. Благодаря этому продолжительному взаимодействию будут обучены три различные модели компьютерного зрения: одна для прогнозирования доступности тапов, другая для прогнозирования перетаскивания и третья для определения сходства экранов.

Во время исследования система совершает множество действий, таких как тапы и свайпы, по элементам интерфейса каждого приложения. Исследователи подчеркивают, что система классифицирует элементы интерфейса, используя разработанные эвристики, определяя такие характеристики, как доступность кнопки или возможность перемещения изображения.

С использованием собранных данных обучаются модели, предсказывающие доступность тапов и перетаскивания элементов интерфейса, а также сходство просмотренных экранов. Весь процесс не требует дополнительных примеров, размеченных людьми, даже если процесс может начинаться с модели, обученной на размеченных данных.

Исследователи подчеркивают, что этот метод активного исследования приложений имеет преимущества. Он помогает системе выявить сложные ситуации, которые типичные размеченные наборы данных, созданные людьми, могут упустить. Иногда люди могут не заметить все, что можно коснуться на экране, потому что изображения не всегда очень четкие. Однако система может нажимать на элементы и наблюдать за результатом нажатия, что предоставляет более ясную и точную информацию.

Исследователи продемонстрировали, как модели, обученные на этих данных, улучшаются со временем. Прогнозирование тапов достигает точности 86% после пяти циклов обучения.

Исследователи подчеркивают, что приложения, направленные на улучшение доступности, могли бы получать более частые обновления, чтобы отслеживать неочевидные изменения. С другой стороны, более длительные интервалы, позволяющие накоплению более значительных изменений интерфейса, могут быть предпочтительными для задач, таких как суммирование или анализ моделей дизайна. Определение оптимальных графиков повторного обучения и обновлений потребует дальнейших исследований.

Эта работа подчеркивает возможность непрерывного обучения, что позволяет системам адаптироваться и развиваться с накоплением данных. В настоящее время система фокусируется на моделировании простых семантических элементов, таких как доступность тапов, но Apple надеется применить аналогичные принципы для изучения более сложных представлений мобильных пользовательских интерфейсов и паттернов взаимодействия.