Прогнозирование хронической болезни почек новый взгляд

Прогнозирование хронической болезни почек новый взгляд' can be condensed to 'Новый взгляд на прогнозирование хронической болезни почек'.

Использование SHAP для создания интерпретируемой модели, согласованной с медицинской литературой

Фото Robina Weermeijer на Unsplash

Введение

Почки работают усердно, чтобы удалить отходы, токсины и избыточные жидкости из крови, и их правильное функционирование является важным для здоровья. Хроническая болезнь почек (ХБП) – это состояние, при котором почки не фильтруют кровь так хорошо, как должны, что приводит к накоплению жидкостей и отходов в крови, что в долгосрочной перспективе может привести к почечной недостаточности. [1] ХБП поражает более 10% всемирного населения и прогнозируется, что к 2040 году она станет пятой по величине причиной потери времени жизни в мире. [2]

В этой статье моя цель не была создать наиболее точную модель, которая может предсказывать возникновение ХБП у пациентов. Вместо этого целью было проверить, является ли лучшая модель, разработанная с использованием стандартных алгоритмов машинного обучения, также наиболее содержательной моделью согласно медицинской литературе. Я использовал принципы SHAP (SHapley Additive exPlanations), игровой теоретический подход к объяснению вывода модели машинного обучения.

Что говорит медицинская литература?

Медицинская литература связывает развитие и прогрессирование ХБП с несколькими основными симптомами.

  1. Сахарный диабет и гипертония: Сахарный диабет и гипертония – два наиболее важных фактора риска, связанных с ХБП. В проведенном в США исследовании с 2011 по 2014 годы было обнаружено, что распространенность ХБП (стадии 3-4) составляет 24,5% среди диабетиков, 14,3% среди преддиабетиков и 4,9% среди недиабетиков. В том же исследовании было отмечено, что распространенность ХБП составляет 35,8% среди гипертонических лиц, 14,4% среди предгипертонических лиц и 10,2% среди негипертонических лиц. [2]
  2. Уменьшение уровня гемоглобина и эритроцитов: Почки производят гормон, называемый эритропоэтином (EPO), который помогает в производстве эритроцитов. При ХБП почки не могут производить достаточное количество EPO, что приводит к развитию анемии, то есть снижению уровня эритроцитов и, таким образом, гемоглобина в крови. [3]
  3. Повышенный уровень креатинина в сыворотке (крови): Креатинин – это продукт распада нормальных мышц и белков, а избыток удаляется из крови посредством почек. При ХБП почка не может эффективно удалять избыток креатинина, что приводит к его высокому уровню в крови. [4]
  4. Уменьшение относительной плотности мочи: Относительная плотность мочи является показателем того, насколько хорошо почка может концентрировать мочу. У пациентов, страдающих ХБП, относительная плотность мочи снижена, так как почки теряют свою способность эффективно концентрировать мочу. [5]
  5. Гематурия и альбуминурия: Гематурия и альбуминурия относятся к наличию эритроцитов и альбумина в моче соответственно. Обычно фильтры в почках предотвращают попадание крови (или эритроцитов) и альбумина в мочу. Однако нарушение этих фильтров может вызвать попадание крови (или эритроцитов) и альбумина в мочу. [6][7]

Набор данных

В этой статье использовался набор данных «Хроническая болезнь почек», доступный на Kaggle, изначально предоставленный UCI в их репозитории ML. Он состоит из данных 400 пациентов, включая 24 характеристики и 1 бинарную целевую переменную (отсутствие ХБП = 0, наличие ХБП = 1). Подробное описание характеристик можно найти здесь.

Предварительная обработка данных

В наборе данных ХБП было много пропущенных значений, которые требовалось заполнить перед дальнейшим анализом. На этом графике показана визуальная представление пропущенных данных, где желтые линии указывают на отсутствие значений в этом столбце.

Визуальное представление пропущенных данных (обозначено желтыми линиями)

Пропущенные значения были заполнены следующим образом:

  1. Для числовых признаков пропущенные значения были заполнены медианой. Среднее не использовалось, так как среднее значение чувствительно к выбросам, в отличие от медианы. Из-за наличия выбросов в этих столбцах, медиана является более надежной мерой центрального значения.
  2. Категориальные признаки “rbc” и “pc” содержали пропущенные значения в объеме 38% и 16,25% соответственно. Поскольку это значительная часть пропущенных данных, пропущенные значения были заполнены значением “unknown”. Использование моды здесь не является наилучшим решением, так как категоризация такой большой группы наблюдений в одну категорию была бы рискованной.
  3. Все остальные категориальные признаки содержали менее или равно 1% пропущенных данных. Таким образом, пропущенные значения были заполнены их соответствующими модами.

Построение модели и проверка интерпретируемости с использованием SHAP

После заполнения пропущенных значений данные были разделены на обучающую и тестовую выборки (соотношение 70:30), и была построена простая классификационная модель Random Forest. Точность на тестовой выборке составила 100%, то есть модель правильно классифицировала пациентов, которых она не видела ранее, 100% времени. Матрица ошибок показана ниже.

Матрица ошибок, сгенерированная при запуске модели на тестовых данных

Теперь, конечно, у нас есть отличная модель классификации. Но что, если нас интересует интерпретируемость, то есть как каждый признак вносит положительный или отрицательный вклад в прогноз? Какие наиболее важные признаки влияют на прогнозы? Соответствуют ли результаты клиническим данным? Это вопросы, на которые нам поможет ответить SHAP.

SHAP – это математический подход, основанный на теории игр, который можно использовать для объяснения прогнозов любой модели машинного обучения, рассчитывая вклад каждого признака в прогноз. Он поможет нам определить наиболее важные признаки, которые помогают формировать прогноз, и направление, в котором они влияют на целевую переменную. [8] Для тестовых данных была применена модель объяснения SHAP, и была сгенерирована глобальная диаграмма важности признаков, как показано ниже.

Диаграмма глобальной важности признаков, сгенерированная с использованием SHAP

Три наиболее важных признака, влияющих на прогноз, – это уровень гемоглобина (“hemo”), относительная плотность мочи (“sg”) и наличие эритроцитов в моче (“rbc_normal”). Поскольку важность признака рассчитывается путем взятия среднего абсолютного значения SHAP для этого признака по всем данным, диаграмма предоставляет информацию только о порядке важности, а не о направлении влияния. Давайте создадим более информативную диаграмму, которая объединяет оба этих аспекта.

Диаграмма с использованием beeswarm, сгенерированная с использованием SHAP

Эта диаграмма beeswarm отлично показывает, как наиболее значимые признаки влияют на прогноз модели на основе набора данных. Розовые точки указывают на пациентов, у которых предсказана ХХБ, а синие точки указывают на пациентов, у которых предсказано отсутствие ХХБ. Теперь, когда мы знаем наиболее важные признаки, влияющие на прогноз, давайте посмотрим, соответствует ли их направление влияния клиническим данным, представленным ранее в этой статье.

  1. Наличие сахарного диабета (“dm_yes”) и гипертонии (“htn_yes”) связано с наличием ХХБ. Это соответствует клиническим данным, хотя ожидалось, что они будут находиться выше в глобальной важности, так как они являются основными факторами риска, связанными с ХХБ.
  2. Низкий уровень гемоглобина (“hemo”), низкий уровень гематокрита (“pcv”: процент объема эритроцитов в крови) и низкое количество эритроцитов (“rc”) связаны с ХХБ. Это также соответствует клиническим данным, так как пациенты, страдающие от ХХБ, не могут производить достаточное количество эритроцитов.
  3. Низкая относительная плотность мочи (“sg”) связана с ХХБ, что можно объяснить клинически, так как почки теряют свою способность концентрировать мочу.
  4. Высокий уровень альбумина в моче (“al”) и высокий уровень креатинина в сыворотке крови (“sc”) связаны с ХХБ, что соответствует клиническим данным, так как почки теряют свою способность эффективно фильтровать кровь.
  5. Наличие эритроцитов в моче или аномалии мочи (“rbc_normal”; бинарный категориальный признак, где значение = 1 указывает на нормальную мочу без эритроцитов, а значение = 0 указывает на аномальную мочу, которая может содержать эритроциты) связано с ХХБ. Это подтверждает клинические данные, так как гематурия чаще встречается у пациентов, страдающих от ХХБ.

Вкратце, основные характеристики и их влияние на прогноз соответствуют медицинской литературе.

Заключение

В этой статье можно выделить два основных вывода:

  1. Медицинская литература связывает развитие и прогрессирование ХБП с теми же основными характеристиками, которые использует модель машинного обучения для классификации, является ли пациент подозрительным на ХБП.
  2. Направление влияния этих основных характеристик на целевую переменную поддерживает клинические находки, что говорит о том, что модель не только на 100% точно прогнозирует ХБП, но и имеет медицинскую значимость, а результаты полностью интерпретируемы.

Одно из возможных ограничений этого исследования – это небольшой объем выборки. После получения дополнительных данных модель следует протестировать на более крупной группе пациентов, чтобы убедиться, что она продолжает работать с высокой точностью. Также будет интересно узнать, меняется ли порядок важности характеристик для более крупной группы пациентов.

В медицинской сфере самая точная модель не всегда является наиболее значимой. В этом исследовании использовался SHAP для проверки соответствия нашей модели медицинской литературе. Преимущество полученной модели заключается в том, что она не только высоко точна, но и легко интерпретируема и подтверждается клиническими находками. Эта модель может быть очень полезна в телемедицине, где она может использоваться для выявления пациентов, у которых есть повышенный риск развития ХБП. Будущие исследования могут включать изучение отдельных наблюдений и определение, какие характеристики модели оказывают наибольшее влияние на прогноз на индивидуальном уровне.

Код для этого проекта можно найти здесь. Все изображения в статье были созданы мной с использованием Google Colab.

Ссылки

Лицензия на исходные данные: L. Rubini, P. Soundarapandian и P. Eswaran, Chronic_Kidney_Disease (2015), Репозиторий машинного обучения UCI (CC BY 4.0)

Набор данных “Хроническое заболевание почек” на Kaggle: https://www.kaggle.com/datasets/mansoordaku/ckdisease

Оригинальная документация по SHAP: https://shap.readthedocs.io/en/latest/api_examples.html#plots

[1] Основы хронической болезни почек (2022), Центры контроля и профилактики заболеваний

[2] C.P. Kovesdy, Эпидемиология хронической болезни почек: обновление 2022 (2022), Kidney International Supplements

[3] H. Shaikh, M.F. Hashmi и N.R. Aeddula, Анемия при хронической почечной болезни (2023), Национальная медицинская библиотека

[4] Креатинин в сыворотке (крови) (2023), Национальный фонд почек

[5] J.A. Simerville, W.C. Maxted и J.J. Pahira, Анализ мочи: полный обзор (2005), American Family Physician

[6] P.F. Orlandi и др., Гематурия как фактор риска прогрессирования хронической болезни почек и смерти: результаты исследования Chronic Renal Insufficiency Cohort (CRIC) (2018), BMC Nephrology

[7] Альбуминурия (2016), Национальный институт диабета и болезней пищеварения и почек

[8] R. Bagheri, Введение в значения SHAP и их применение в машинном обучении (2022), Towards Data Science