Читать книгу Нейросети. Основы онлайн
UMAP (Uniform Manifold Approximation and Projection)
UMAP (Uniform Manifold Approximation and Projection) – это современный метод снижения размерности, который, подобно t-SNE, фокусируется на сохранении локальной структуры данных. Однако UMAP часто работает быстрее и лучше масштабируется на большие наборы данных. Основной принцип UMAP заключается в предположении, что данные лежат на многообразии меньшей размерности в исходном пространстве, и стремится сохранять топологическую структуру этого многообразия при проекции в пространство меньшей размерности.
Основные этапы UMAP включают:
1. Построение графа k-ближайших соседей: Определяется граф, где точки связаны с их ближайшими соседями.
2. Оптимизация графа: Граф оптимизируется, чтобы минимизировать расхождение между распределениями расстояний в высокоразмерном и низкоразмерном пространствах.
3. Проекция данных: Данные проецируются в новое пространство меньшей размерности, сохраняя топологические свойства исходного пространства.
UMAP используется для визуализации данных, выявления кластеров и структур в данных, а также как этап предварительного анализа перед применением других методов машинного обучения. Благодаря своей скорости и способности работать с большими наборами данных, UMAP становится все более популярным в различных областях науки и индустрии.
3. Ассоциативные правила
Ассоциативные правила – это метод выявления частых закономерностей в больших наборах данных. Этот метод особенно полезен в анализе корзины покупателя, где необходимо выявить, какие товары часто покупаются вместе.
Алгоритм Apriori
Алгоритм Apriori является одним из самых известных и широко используемых методов для выявления частых наборов элементов и создания ассоциативных правил в больших наборах данных. Этот алгоритм используется в анализе транзакционных баз данных для поиска интересных корреляций и закономерностей, таких как "если покупатель купил товар A, то он, вероятно, купит товар B".
Основная идея алгоритма Apriori заключается в итеративном подходе для нахождения частых наборов элементов. Он использует принцип "подмножество частого множества также является частым" (если набор элементов является частым, то все его подмножества также являются частыми). Алгоритм работает следующим образом: