Читать книгу Искусственный интеллект. Машинное обучение онлайн
# Вычисляем среднее значение и стандартное отклонение роста
mean_height = np.mean(heights)
std_dev_height = np.std(heights)
# Устанавливаем пороговое значение Z-оценки
threshold = 3
# Вычисляем Z-оценки для каждого значения роста
z_scores = (heights – mean_height) / std_dev_height
# Обнаруживаем аномальные значения роста
anomalies = heights[np.abs(z_scores) > threshold]
print("Аномальные значения роста:", anomalies)
```
Этот код вычисляет Z-оценки для каждого значения роста, а затем определяет аномальные значения, которые превышают установленный порог. В данном примере аномальными считаются значения роста, отклонение от среднего которых превышает 3 стандартных отклонения.
Методы машинного обучения предоставляют эффективные инструменты для обнаружения аномалий, особенно в случаях, когда аномалии не могут быть просто обнаружены с использованием статистических методов. Одним из таких методов является метод опорных векторов (SVM), который использует идею поиска оптимальной гиперплоскости для разделения данных на нормальные и аномальные. SVM строит гиперплоскость таким образом, чтобы максимизировать расстояние между ней и ближайшими точками обоих классов, что позволяет эффективно разделять аномалии от нормальных данных.
Кроме того, методы кластеризации, такие как метод k-средних, могут использоваться для выявления аномалий. В этом случае, аномалии могут быть выделены как объекты, которые не принадлежат ни к одному кластеру или принадлежат к очень маленькому кластеру. Такие объекты могут считаться аномальными, поскольку они существенно отличаются от остальных данных.
Модели машинного обучения обучения с учителем также могут быть применены для обнаружения аномалий, где данные классифицируются на аномальные и нормальные на основе обучающего набора данных с явно определенными метками классов. Это позволяет моделям обнаруживать аномалии, основываясь на обучающем опыте и знаниях о структуре данных.
Таким образом, методы машинного обучения предоставляют гибкие и мощные инструменты для обнаружения аномалий в различных типах данных и условиях, позволяя выявлять аномалии более сложными способами, чем традиционные статистические методы.