Читать книгу Искусственный интеллект в здравоохранении онлайн

Высокий уровень разреженности (отсутствия) данных способен существенно осложнить для системы ИИ задачу поиска и категоризации объектов интереса, что нужно учитывать в зависимости от поставленной задачи.

Сбалансированный набор данных должен содержать одинаковое количество примеров различных категорий (классов) объектов интереса. В случае бинарной классификации это может соответствовать распределению 50/50 для случаев «патология/норма».

Важным этапом подготовки данных является деидентификация (обезличивание). Должны быть удалены любые персональные данные. В случае необходимости возможно их изменение, например замена даты рождения на возраст.

Подготовленные наборы данных могут быть структурированы посредством выделения признаков в соответствии с поставленной задачей. В процессе структурирования снижают размерность набора данных, оставляя достаточный список атрибутов для точного и полного описания элементов набора данных, что будет способствовать последующему обобщению шагов и проведению качественной разметки (аннотации) данных.

Фильтрация набора данных позволяет исключить данные, не соответствующие заданным параметрам (например, смазанные изображения), повысив их качество.

Существенную роль в подготовке данных играет разметка. Выделяется три вида разметки: ретроспективная, проспективная разметка, верификация [Национальный стандарт РФ ГОСТ Р 59921.5…].

Ретроспективная разметка представляет собой сбор элементов согласно указанным метаданным, перечень которых выбирают в соответствии с поставленной целью. Такую разметку проводят путем выгрузки данных из информационной системы. Ретроспективная разметка не предполагает выполнение манипуляций или какой-либо обработки элементов. Для каждого элемента набора данных устанавливают соответствие с информацией (диагноз, результаты лабораторного исследования и др.). К примеру, ретроспективная разметка пациентов с подтвержденной новой коронавирусной инфекцией предполагает следующий перечень метаданных: идентификационный номер, дата рождения, дата выполнения рентгенологического исследования, результаты теста на полимеразную цепную реакцию.