Эта статья об искусственном интеллекте представляет BioCLIP используя набор данных TreeOfLife-10M для преобразования компьютерного зрения в биологии и консервации.

Использование набора данных TreeOfLife-10M и BioCLIP для преобразования компьютерного зрения в биологии и консервации статья о применении искусственного интеллекта

Многие отрасли биологии, включая экологию, эволюционную биологию и биоразнообразие, все больше обращаются к цифровым изображениям и компьютерному зрению в качестве инструментов исследования. Современные технологии значительно улучшили их способность анализировать большие объемы изображений из музеев, камер-ловушек и платформ гражданской науки. Эти данные могут быть использованы для определения видов, понимания механизмов адаптации, оценки структуры и разнообразия популяций, а также для контроля и сохранения биоразнообразия.

Тем не менее, поиск и обучение подходящей модели для заданной задачи и ручная разметка достаточного количества данных для конкретных видов и исследования все еще являются значительными проблемами, когда речь идет о применении компьютерного зрения для решения биологических вопросов. Это требует большого объема знаний машинного обучения и времени.

Исследователи из Огайского государственного университета, Microsoft, Калифорнийского университета в Ирвине и Ренсселерского политехнического института исследуют создание такой модели для фундаментального видения Древа Жизни в этом усилии. Эта модель должна удовлетворять следующим требованиям, чтобы быть в общем применимой к задачам биологии в реальном мире. Прежде всего, она должна быть способна вместить исследователей, изучающих широкий спектр клад, а не только одну, и в идеале обобщить на всё древо жизни. Кроме того, она должна получать детализированные представления изображений существ, потому что в области биологии обычно встречаются визуально сходные организмы, такие как близкородственные виды в одном роде или виды, имитирующие внешность друг друга для достижения выживания. Из-за организации Жизни в виде широких групп (таких как животные, грибы и растения) и очень детализированных групп, этот уровень детализации имеет важное значение. Наконец, отличные результаты в режиме с небольшим количеством данных (например, нулевой или малое количество) являются критически важными из-за высоких затрат на сбор и разметку данных в биологии.

Текущие модели общего назначения, обученные на сотни миллионов изображений, не дают достаточных результатов при применении их в эволюционной биологии и экологии, хотя эти цели не новы для компьютерного зрения. Исследователи выделили две основные проблемы, которые препятствуют созданию модели фундаментального видения в биологии. Во-первых, требуются более качественные наборы данных для предварительного обучения, так как уже доступные неудовлетворительны по размеру, разнообразию или детализации меток. Во-вторых, так как текущие алгоритмы предварительного обучения не успешно решают три основные задачи, необходимо найти лучшие методы предварительного обучения, которые бы использовали уникальные характеристики биологической области.

С учетом этих целей и преград, команда представляет следующее:

  1. TREE OF LIFE-10M, обширный набор биологических изображений для машинного обучения
  2. BIOCLIP – модель на основе зрения для Древа Жизни, обученная с использованием соответствующих таксонов в TREEOFLIFE-10M.

TREEOFLIFE-10M – обширный и разнообразный набор изображений биологии, готовых для обучения машинного обучения. С более чем 10 миллионами фотографий, охватывающих 454 тысячи таксонов в Древе Жизни, исследователи составили и освободили самый большой на сегодняшний день готовый к обучению набор данных биологических изображений с соответствующими таксономическими метками. Всего 2,7 миллиона фотографий составляют 10 000 таксонов iNat21 – самую большую подготовленную для обучения коллекцию биологических изображений. Существующие наборы данных высокого качества, такие как iNat21 и BIOSCAN-1M, включены в TREEOFLIFE-10M. Большая часть разнообразия данных в TREEOFLIFE-10M поставляется с раздела “Энциклопедия Жизни” (eol.org), который содержит новые отобранные фотографии из этого источника. Таксономическая иерархия и высшие таксономические ранжирования каждого изображения в TREEOFLIFE-10M аннотированы наиболее полно. С помощью TREEOFLIFE-10M можно обучать модели типа BIOCLIP и другие будущие модели в области биологии.

BIOCLIP – представление Древа Жизни на основе зрения. Один из распространенных и прямолинейных подходов к обучению моделей зрения на больших размеченных наборах данных, подобных TREEOFLIFE10M, заключается в изучении прогнозирования таксономических индексов изображений с использованием целевой классификации с учителем. Этот подход также используют ResNet50 и Swin Transformer. Однако этот подход пренебрегает и не использует сложную систему таксономических меток – таксоны не существуют в изоляции, а взаимосвязаны в рамках подробной таксономии. Поэтому возможно, что модель, обученная с использованием базовой классификации с учителем, не сможет классифицировать неизвестные таксоны без обучения на них или обобщать хорошо на таксоны, которые отсутствовали при обучении. Вместо этого команда применяет новый подход, объединяющий обширную биологическую таксономию BIOCLIP с мультимодальным контрастным обучением в стиле CLIP. Используя цель контрастного обучения CLIP, они могут научиться ассоциировать изображения с соответствующими таксономическими именами после “сглаживания” таксономии от Королевства до наиболее отдаленного ранга таксона в виде строки, известной как таксономическое имя. При использовании таксономических имен таксонов, которые не видны, BIOCLIP также может классифицировать через нулевое обучение.

Команда также предлагает и показывает, что смешанная техника обучения с использованием текста является полезной; это означает, что они сохраняют обобщение от имен таксономии, но имеют большую гибкость при тестировании, сочетая несколько типов текста (например, научные названия с общими названиями) во время обучения. Например, пользователи могут по-прежнему использовать общие названия видов, и BIOCLIP будет работать исключительно хорошо. Их тщательная оценка BIOCLIP основана на десяти классификационных наборах изображений, охватывающих флору, фауну и насекомых, а также специально составленном наборе данных о редких видов, которые не использовались во время обучения. BIOCLIP значительно превосходит CLIP и OpenCLIP, в результате чего абсолютное улучшение в случае использования небольшого количества данных составляет в среднем 17%, а в случае использования нулевого количества данных – 18% соответственно. Кроме того, его внутренний анализ может объяснить лучшую обобщаемость BIOCLIP, показывая, что он научился иерархическому представлению, соответствующему Древу Жизни.

Обучение BIOCLIP остается сосредоточенным на классификации, хотя команда успешно применила объект CLIP для изучения визуальных представлений для сотен тысяч таксонов. Для того чтобы BIOCLIP мог извлекать представления на уровне детального описания признаков, они планируют включить фотографии высокого качества с сайта inaturalist.org, которых более 100 миллионов, и получить более подробные текстовые описания внешности видов в будущей работе.