Исследователи из Стэнфордского университета предлагают MAPTree байесовский подход к построению деревьев решений с повышенной устойчивостью и производительностью.

Специалисты из Стэнфордского университета представляют MAPTree байесовский подход к созданию решающих деревьев с повышенной надежностью и эффективностью.

Деревья решений — популярный алгоритм машинного обучения, который может использоваться как для классификации, так и для регрессии. Они работают путем рекурсивного разделения набора данных на подмножества в соответствии с наиболее важным свойством на каждом узле. Структура дерева иллюстрирует процесс принятия решений, при этом каждый внутренний узел обозначает выбор на основе признака, каждая ветвь представляет результат выбора, а каждый листовой узел представляет результат. Их хвалят за их эффективность, приспособляемость и интерпретируемость. 

В работе с названием “MAPTree: Превосходство оптимальных деревьев решений с использованием Байесовских деревьев решений” команда из Стэнфордского университета разработала алгоритм MAPTree. Этот метод определяет дерево с наибольшей апостериорной вероятностью, тщательно оценивая апостериорное распределение Байесовских классификационных и регрессионных деревьев (BCART), созданных для конкретного набора данных. Исследование показывает, что MAPTree может успешно улучшать модели деревьев решений за пределы того, что ранее считалось оптимальным.

Байесовские классификационные и регрессионные деревья (BCART) стали передовым подходом, вводящим апостериорное распределение по структурам деревьев на основе доступных данных. В практике этот подход, как правило, превосходит обычные жадные методы, производя более улучшенные структуры деревьев. Однако он страдает от недостатка в виде экспоненциально длинных времен смешивания и частого застревания в локальных минимумах.

Исследователи разработали формальную связь между проблемами поиска AND/OR и выводом с наибольшей апостериорной вероятностью Байесовских классификационных и регрессионных деревьев (BCART), осветляя основную структуру проблемы. Они подчеркивают, что создание отдельных деревьев решений является главной целью данного исследования. Это поспорит с идеей оптимальных деревьев решений, которая рассматривает создание деревьев решений как задачу глобальной оптимизации, нацеленную на максимизацию общей целевой функции.

В качестве более совершенного метода Байесовские классификационные и регрессионные деревья (BCART) предоставляют апостериорное распределение по архитектурам деревьев на основе доступных данных. Этот метод создает более улучшенные архитектуры деревьев по сравнению с традиционными жадными методами. 

Исследователи также подчеркивают, что MAPTree предлагает практикам более быстрые результаты, превосходя предыдущие методы, основанные на выборке, по вычислительной эффективности. Деревья, найденные с помощью MAPTree, показали лучшую производительность по сравнению с самыми передовыми алгоритмами, доступными в настоящее время, или показали сходную производительность, при этом оставляя меньший экологический след. 

Для оценки точности обобщения, логарифма правдоподобия и размера деревьев, созданных с помощью MAPTree и базовых техник, была использована коллекция из 16 наборов данных из набора данных CP4IM. Было установлено, что в ситуациях схожей производительности MAPTree либо превосходит базовые показатели точности испытаний или логарифма правдоподобия, либо создает заметно более компактные деревья решений.

В заключение, MAPTree предлагает более быструю, более эффективную и более действительную альтернативу существующим методологиям, представляя собой значительное преимущество в моделировании деревьев решений. Его потенциальное влияние на анализ данных и машинное обучение нельзя недооценивать, предлагая специалистам мощный инструмент для создания деревьев решений, которые превосходят в производительности и эффективности.