Читать книгу Искусственный интеллект в здравоохранении онлайн

Подготовка набора данных включает определенные процедуры (рис. 4).


Рис. 4. Процесс подготовки набора данных для обучения и тестирования систем ИИ. Источник: [Национальный стандарт РФ ГОСТ Ρ 59921.5…].


классификация регрессия

кластеризация детекция аномалий

Подход к формированию набора данных определяется необходимостью валидации системы ИИ.

Аналитическая валидация

В этом случае необходимо представление данных: синдромов, заболеваний, исходов, отражающее максимальную вариативность (то есть и частые, и редкие случаи представлены в одинаковом объеме). Набор данных для аналитической валидации должен быть подготовлен для определения следующих характеристик: производительность (например, время, затрачиваемое на обработку системы ИИ медицинского исследования при наличии функции автоматического расчета времени и т. д.), точность интерпретации исследований с учетом функциональных возможностей системы ИИ, повторяемость, воспроизводимость.

Возможно включение исследований с нарушением технологии (внешние помехи, артефакты, неверное наложение электродов/датчиков, нарушение последовательности регистрации, укладки пациента). Такие исследования должны быть помечены должным образом. Для снижения систематической ошибки следует использовать данные из разных источников (например, из разных медицинских организаций) и разные модели оборудования.

Клиническая валидация

В этом случае необходимо представление данных согласно частоте их встречаемости, заболеваемости, распространенности в популяции. При проведении клинической валидации следует использовать верифицированный набор данных. Характеристики наборов данных (размерность, разреженность, баланс, распределение классов и др.) должны подбираться в соответствии с задачей.

Под размерностью понимается количество атрибутов, которые имеют объекты в наборе данных (например, значение артериального давления, масса тела пациента, уровень холестерина и др.). Наборы данных с высокой размерностью (с большим количеством атрибутов) выдвигают повышенные требования к алгоритмам системы ИИ, допустимому размеру таких наборов, а также к вычислительным ресурсам для их обработки. В зависимости от поставленной цели и дизайна исследования допустимо обоснованное снижение размерности набора данных, в частности, за счет кластеризации данных либо группировки взаимосвязанных по какому-либо признаку атрибутов в объединенные категории.