Прогнозирование хронической болезни почек новый взгляд
Прогнозирование хронической болезни почек новый взгляд' can be condensed to 'Новый взгляд на прогнозирование хронической болезни почек'.
Использование SHAP для создания интерпретируемой модели, согласованной с медицинской литературой
Введение
Почки работают усердно, чтобы удалить отходы, токсины и избыточные жидкости из крови, и их правильное функционирование является важным для здоровья. Хроническая болезнь почек (ХБП) – это состояние, при котором почки не фильтруют кровь так хорошо, как должны, что приводит к накоплению жидкостей и отходов в крови, что в долгосрочной перспективе может привести к почечной недостаточности. [1] ХБП поражает более 10% всемирного населения и прогнозируется, что к 2040 году она станет пятой по величине причиной потери времени жизни в мире. [2]
В этой статье моя цель не была создать наиболее точную модель, которая может предсказывать возникновение ХБП у пациентов. Вместо этого целью было проверить, является ли лучшая модель, разработанная с использованием стандартных алгоритмов машинного обучения, также наиболее содержательной моделью согласно медицинской литературе. Я использовал принципы SHAP (SHapley Additive exPlanations), игровой теоретический подход к объяснению вывода модели машинного обучения.
Что говорит медицинская литература?
Медицинская литература связывает развитие и прогрессирование ХБП с несколькими основными симптомами.
- Сахарный диабет и гипертония: Сахарный диабет и гипертония – два наиболее важных фактора риска, связанных с ХБП. В проведенном в США исследовании с 2011 по 2014 годы было обнаружено, что распространенность ХБП (стадии 3-4) составляет 24,5% среди диабетиков, 14,3% среди преддиабетиков и 4,9% среди недиабетиков. В том же исследовании было отмечено, что распространенность ХБП составляет 35,8% среди гипертонических лиц, 14,4% среди предгипертонических лиц и 10,2% среди негипертонических лиц. [2]
- Уменьшение уровня гемоглобина и эритроцитов: Почки производят гормон, называемый эритропоэтином (EPO), который помогает в производстве эритроцитов. При ХБП почки не могут производить достаточное количество EPO, что приводит к развитию анемии, то есть снижению уровня эритроцитов и, таким образом, гемоглобина в крови. [3]
- Повышенный уровень креатинина в сыворотке (крови): Креатинин – это продукт распада нормальных мышц и белков, а избыток удаляется из крови посредством почек. При ХБП почка не может эффективно удалять избыток креатинина, что приводит к его высокому уровню в крови. [4]
- Уменьшение относительной плотности мочи: Относительная плотность мочи является показателем того, насколько хорошо почка может концентрировать мочу. У пациентов, страдающих ХБП, относительная плотность мочи снижена, так как почки теряют свою способность эффективно концентрировать мочу. [5]
- Гематурия и альбуминурия: Гематурия и альбуминурия относятся к наличию эритроцитов и альбумина в моче соответственно. Обычно фильтры в почках предотвращают попадание крови (или эритроцитов) и альбумина в мочу. Однако нарушение этих фильтров может вызвать попадание крови (или эритроцитов) и альбумина в мочу. [6][7]
Набор данных
В этой статье использовался набор данных «Хроническая болезнь почек», доступный на Kaggle, изначально предоставленный UCI в их репозитории ML. Он состоит из данных 400 пациентов, включая 24 характеристики и 1 бинарную целевую переменную (отсутствие ХБП = 0, наличие ХБП = 1). Подробное описание характеристик можно найти здесь.
- Как успешно сдать экзамен на профессиональный сертификат Data Scientist
- Визуализации вложений
- Вправо свайпайте для вашей карьеры создайте Tinder для работы
Предварительная обработка данных
В наборе данных ХБП было много пропущенных значений, которые требовалось заполнить перед дальнейшим анализом. На этом графике показана визуальная представление пропущенных данных, где желтые линии указывают на отсутствие значений в этом столбце.
![Визуальное представление пропущенных данных (обозначено желтыми линиями)](https://miro.medium.com/v2/resize:fit:640/format:webp/1*GJ6hFh5qqTWZs0_9PAXUKQ.png)
Пропущенные значения были заполнены следующим образом:
- Для числовых признаков пропущенные значения были заполнены медианой. Среднее не использовалось, так как среднее значение чувствительно к выбросам, в отличие от медианы. Из-за наличия выбросов в этих столбцах, медиана является более надежной мерой центрального значения.
- Категориальные признаки “rbc” и “pc” содержали пропущенные значения в объеме 38% и 16,25% соответственно. Поскольку это значительная часть пропущенных данных, пропущенные значения были заполнены значением “unknown”. Использование моды здесь не является наилучшим решением, так как категоризация такой большой группы наблюдений в одну категорию была бы рискованной.
- Все остальные категориальные признаки содержали менее или равно 1% пропущенных данных. Таким образом, пропущенные значения были заполнены их соответствующими модами.
Построение модели и проверка интерпретируемости с использованием SHAP
После заполнения пропущенных значений данные были разделены на обучающую и тестовую выборки (соотношение 70:30), и была построена простая классификационная модель Random Forest. Точность на тестовой выборке составила 100%, то есть модель правильно классифицировала пациентов, которых она не видела ранее, 100% времени. Матрица ошибок показана ниже.
![Матрица ошибок, сгенерированная при запуске модели на тестовых данных](https://miro.medium.com/v2/resize:fit:640/format:webp/1*33RIcC4EWYdJvcVyzeOeZA.png)
Теперь, конечно, у нас есть отличная модель классификации. Но что, если нас интересует интерпретируемость, то есть как каждый признак вносит положительный или отрицательный вклад в прогноз? Какие наиболее важные признаки влияют на прогнозы? Соответствуют ли результаты клиническим данным? Это вопросы, на которые нам поможет ответить SHAP.
SHAP – это математический подход, основанный на теории игр, который можно использовать для объяснения прогнозов любой модели машинного обучения, рассчитывая вклад каждого признака в прогноз. Он поможет нам определить наиболее важные признаки, которые помогают формировать прогноз, и направление, в котором они влияют на целевую переменную. [8] Для тестовых данных была применена модель объяснения SHAP, и была сгенерирована глобальная диаграмма важности признаков, как показано ниже.
![Диаграмма глобальной важности признаков, сгенерированная с использованием SHAP](https://miro.medium.com/v2/resize:fit:640/format:webp/1*0uiJ6PxIq8VVuZVOvE0a3w.png)
Три наиболее важных признака, влияющих на прогноз, – это уровень гемоглобина (“hemo”), относительная плотность мочи (“sg”) и наличие эритроцитов в моче (“rbc_normal”). Поскольку важность признака рассчитывается путем взятия среднего абсолютного значения SHAP для этого признака по всем данным, диаграмма предоставляет информацию только о порядке важности, а не о направлении влияния. Давайте создадим более информативную диаграмму, которая объединяет оба этих аспекта.
![Диаграмма с использованием beeswarm, сгенерированная с использованием SHAP](https://miro.medium.com/v2/resize:fit:640/format:webp/1*nLT2dLGvSBweGeux77gssw.png)
Эта диаграмма beeswarm отлично показывает, как наиболее значимые признаки влияют на прогноз модели на основе набора данных. Розовые точки указывают на пациентов, у которых предсказана ХХБ, а синие точки указывают на пациентов, у которых предсказано отсутствие ХХБ. Теперь, когда мы знаем наиболее важные признаки, влияющие на прогноз, давайте посмотрим, соответствует ли их направление влияния клиническим данным, представленным ранее в этой статье.
- Наличие сахарного диабета (“dm_yes”) и гипертонии (“htn_yes”) связано с наличием ХХБ. Это соответствует клиническим данным, хотя ожидалось, что они будут находиться выше в глобальной важности, так как они являются основными факторами риска, связанными с ХХБ.
- Низкий уровень гемоглобина (“hemo”), низкий уровень гематокрита (“pcv”: процент объема эритроцитов в крови) и низкое количество эритроцитов (“rc”) связаны с ХХБ. Это также соответствует клиническим данным, так как пациенты, страдающие от ХХБ, не могут производить достаточное количество эритроцитов.
- Низкая относительная плотность мочи (“sg”) связана с ХХБ, что можно объяснить клинически, так как почки теряют свою способность концентрировать мочу.
- Высокий уровень альбумина в моче (“al”) и высокий уровень креатинина в сыворотке крови (“sc”) связаны с ХХБ, что соответствует клиническим данным, так как почки теряют свою способность эффективно фильтровать кровь.
- Наличие эритроцитов в моче или аномалии мочи (“rbc_normal”; бинарный категориальный признак, где значение = 1 указывает на нормальную мочу без эритроцитов, а значение = 0 указывает на аномальную мочу, которая может содержать эритроциты) связано с ХХБ. Это подтверждает клинические данные, так как гематурия чаще встречается у пациентов, страдающих от ХХБ.
Вкратце, основные характеристики и их влияние на прогноз соответствуют медицинской литературе.
Заключение
В этой статье можно выделить два основных вывода:
- Медицинская литература связывает развитие и прогрессирование ХБП с теми же основными характеристиками, которые использует модель машинного обучения для классификации, является ли пациент подозрительным на ХБП.
- Направление влияния этих основных характеристик на целевую переменную поддерживает клинические находки, что говорит о том, что модель не только на 100% точно прогнозирует ХБП, но и имеет медицинскую значимость, а результаты полностью интерпретируемы.
Одно из возможных ограничений этого исследования – это небольшой объем выборки. После получения дополнительных данных модель следует протестировать на более крупной группе пациентов, чтобы убедиться, что она продолжает работать с высокой точностью. Также будет интересно узнать, меняется ли порядок важности характеристик для более крупной группы пациентов.
В медицинской сфере самая точная модель не всегда является наиболее значимой. В этом исследовании использовался SHAP для проверки соответствия нашей модели медицинской литературе. Преимущество полученной модели заключается в том, что она не только высоко точна, но и легко интерпретируема и подтверждается клиническими находками. Эта модель может быть очень полезна в телемедицине, где она может использоваться для выявления пациентов, у которых есть повышенный риск развития ХБП. Будущие исследования могут включать изучение отдельных наблюдений и определение, какие характеристики модели оказывают наибольшее влияние на прогноз на индивидуальном уровне.
Код для этого проекта можно найти здесь. Все изображения в статье были созданы мной с использованием Google Colab.
Ссылки
Лицензия на исходные данные: L. Rubini, P. Soundarapandian и P. Eswaran, Chronic_Kidney_Disease (2015), Репозиторий машинного обучения UCI (CC BY 4.0)
Набор данных “Хроническое заболевание почек” на Kaggle: https://www.kaggle.com/datasets/mansoordaku/ckdisease
Оригинальная документация по SHAP: https://shap.readthedocs.io/en/latest/api_examples.html#plots
[1] Основы хронической болезни почек (2022), Центры контроля и профилактики заболеваний
[2] C.P. Kovesdy, Эпидемиология хронической болезни почек: обновление 2022 (2022), Kidney International Supplements
[3] H. Shaikh, M.F. Hashmi и N.R. Aeddula, Анемия при хронической почечной болезни (2023), Национальная медицинская библиотека
[4] Креатинин в сыворотке (крови) (2023), Национальный фонд почек
[5] J.A. Simerville, W.C. Maxted и J.J. Pahira, Анализ мочи: полный обзор (2005), American Family Physician
[6] P.F. Orlandi и др., Гематурия как фактор риска прогрессирования хронической болезни почек и смерти: результаты исследования Chronic Renal Insufficiency Cohort (CRIC) (2018), BMC Nephrology
[7] Альбуминурия (2016), Национальный институт диабета и болезней пищеварения и почек
[8] R. Bagheri, Введение в значения SHAP и их применение в машинном обучении (2022), Towards Data Science