Читать книгу Нейросети. Основы онлайн
Процесс PCA включает следующие шаги:
1. Центрирование данных: Среднее значение каждого признака вычитается из всех значений, чтобы данные имели среднее значение, равное нулю.
2. Вычисление ковариационной матрицы: Определяется ковариационная матрица для центрированных данных, отражающая взаимосвязь между различными признаками.
3. Поиск собственных векторов и собственных значений: Собственные векторы ковариационной матрицы указывают направления главных компонент, а собственные значения определяют важность каждой из этих компонент.
4. Проекция данных: Данные проецируются на новое пространство, образованное главными компонентами.
PCA широко используется для предобработки данных, уменьшения шума, визуализации многомерных данных и как этап предварительного анализа перед применением других методов машинного обучения.
t-SNE (t-distributed Stochastic Neighbor Embedding)
t-SNE (t-distributed Stochastic Neighbor Embedding) – это нелинейный метод снижения размерности, который часто используется для визуализации высокоразмерных данных. В отличие от PCA, который сохраняет глобальную структуру данных, t-SNE фокусируется на сохранении локальной структуры данных. Это означает, что t-SNE старается сохранять близкие расстояния между точками, которые были близки в исходном пространстве, и раздельные расстояния между точками, которые были далеко друг от друга.
Основные шаги t-SNE включают:
1. Вычисление вероятностей: Для каждой пары точек в высокоразмерном пространстве вычисляются вероятности близости.
2. Оптимизация: В новом пространстве меньшей размерности t-SNE находит такие расположения точек, чтобы вероятности близости были максимально похожи на исходные.
3. Минимизация Kullback-Leibler расхождения: Процесс оптимизации включает минимизацию расхождения Kullback-Leibler между распределениями вероятностей в исходном и новом пространствах.
t-SNE особенно полезен для выявления кластеров и локальных структур в данных, что делает его популярным инструментом для визуализации данных в биоинформатике, нейронауках и других областях.