Читать книгу Нейросети. Основы онлайн

Процесс PCA включает следующие шаги:

1. Центрирование данных: Среднее значение каждого признака вычитается из всех значений, чтобы данные имели среднее значение, равное нулю.

2. Вычисление ковариационной матрицы: Определяется ковариационная матрица для центрированных данных, отражающая взаимосвязь между различными признаками.

3. Поиск собственных векторов и собственных значений: Собственные векторы ковариационной матрицы указывают направления главных компонент, а собственные значения определяют важность каждой из этих компонент.

4. Проекция данных: Данные проецируются на новое пространство, образованное главными компонентами.

PCA широко используется для предобработки данных, уменьшения шума, визуализации многомерных данных и как этап предварительного анализа перед применением других методов машинного обучения.

t-SNE (t-distributed Stochastic Neighbor Embedding)

t-SNE (t-distributed Stochastic Neighbor Embedding) – это нелинейный метод снижения размерности, который часто используется для визуализации высокоразмерных данных. В отличие от PCA, который сохраняет глобальную структуру данных, t-SNE фокусируется на сохранении локальной структуры данных. Это означает, что t-SNE старается сохранять близкие расстояния между точками, которые были близки в исходном пространстве, и раздельные расстояния между точками, которые были далеко друг от друга.

Основные шаги t-SNE включают:

1. Вычисление вероятностей: Для каждой пары точек в высокоразмерном пространстве вычисляются вероятности близости.

2. Оптимизация: В новом пространстве меньшей размерности t-SNE находит такие расположения точек, чтобы вероятности близости были максимально похожи на исходные.

3. Минимизация Kullback-Leibler расхождения: Процесс оптимизации включает минимизацию расхождения Kullback-Leibler между распределениями вероятностей в исходном и новом пространствах.

t-SNE особенно полезен для выявления кластеров и локальных структур в данных, что делает его популярным инструментом для визуализации данных в биоинформатике, нейронауках и других областях.