Как автоматизированные кассы в розничной торговле могут распознавать немаркированные продукты? Знакомьтесь с подходом PseudoAugment в компьютерном зрении

Автоматизированные кассы в розничной торговле могут распознавать немаркированные продукты с помощью подхода PseudoAugment в компьютерном зрении.

С развитием методов машинного обучения и глубокого обучения также наблюдается увеличение автоматизации различных аспектов. Автоматизация постепенно уменьшает необходимость человеческого вмешательства во многие рутинные аспекты повседневной жизни, особенно в розничной торговле.

Они позволяют нам отслеживать природные ресурсы и также способствуют экологической устойчивости. Автоматизированные системы помогают оптимизировать цепочку поставок, улучшая управление запасами, прогнозирование спроса и координацию логистики. Однако есть случаи, когда автоматизация является сложной и сложной задачей. Один из примеров – идентификация продукции без штрих-кода.

Для правильного выставления счета потребителю на самообслуживаемой кассе требуется возможность различения взвешенных объектов. Такая система должна иметь возможность идентифицировать все множество видов различных непакетированных продуктов, зерновых и других товаров, продаваемых. Обычно во многих розничных магазинах клиентам нужно запомнить код товара и взвесить товары в отделе, чтобы самостоятельно определить тип фруктов или овощей.

Для решения этой проблемы исследователи из Сколтеха и других учреждений разработали новый способ различения взвешенных товаров в супермаркете. Исследователи использовали компьютерное зрение для облегчения этого процесса. Такой подход ускоряет обучение нейронной сети, даже когда вводятся новые виды продукции.

Для облегчения этого исследования исследователи собрали различные типы изображений. Собранные ими изображения были сделаны в разных местах: в саду, в местном продуктовом магазине и в лабораторной обстановке. Они сделали 1000 естественных изображений на каждый класс, всего 5000 естественных изображений. Другой тип изображения, который они использовали, содержит изображения контейнеров с видом сверху, на которых находится множество объектов. Они использовали 70 изображений сверху на каждый класс, в среднем по 7,1 объекта на изображение. Они объединили различные изображения и фоны, применили различные преобразования и создали больше обучающих изображений, чем количество обрезанных объектов.

Исследователи также увеличили (визуальное изменение исходных данных, которое добавляет созданные изображения к фотографиям) изображения, чтобы гарантировать, что качество обнаружения снижается гораздо меньше, чем без PseudoAugment.

Команда исследователей сказала, что существуют несколько ограничений с ранее использовавшимися типами процессов. Они сказали, что сложность заключается в том, что в супермаркете есть много визуально похожих фруктов или овощей, и появляются новые виды. Классические системы компьютерного зрения должны быть переобучены каждый раз, когда доставляется новый вид. Они также сказали, что это занимает много времени, потому что нам нужно собрать много данных, а затем разметить их вручную.

Чтобы проверить точность и производительность этого подхода, исследователи категоризировали пять разных видов фруктов и обнаружили, что при количестве естественных обучающих фотографий менее 50 вывод основной конвейер был в основном догадкой. Они подчеркнули, что преимущество такого подхода видно, когда исходное обучающее изображение меньше 250. Исследователи также проверили точность подхода на проблеме классификации фруктов и обнаружили, что подход может достичь точности 98,3% без естественных обучающих изображений.