Читать книгу Искусственный интеллект. Машинное обучение онлайн

Допустим, у нас есть набор данных о продажах товаров в интернет-магазине за последний год. Мы хотим выявить аномалии в ценах продуктов, которые могут указывать на ошибки в данных или наличие выбросов.

Для этого мы можем использовать Z-оценку. Предположим, у нас есть столбец данных, содержащий цены продуктов. Мы можем вычислить Z-оценку для каждой цены, используя формулу:

Рассмотрим пример кода на Python, который вычисляет Z-оценку для набора данных и идентифицирует аномальные значения:

```python

import numpy as np

# Пример данных о ценах продуктов

prices = [10, 12, 15, 9, 11, 30, 13, 14, 8, 11]

# Вычисляем среднее значение и стандартное отклонение

mean_price = np.mean(prices)

std_dev = np.std(prices)

# Определяем порог Z-оценки

threshold = 2

# Вычисляем Z-оценку для каждой цены

z_scores = [(price – mean_price) / std_dev for price in prices]

# Идентифицируем аномальные значения

anomalies = [price for price, z_score in zip(prices, z_scores) if abs(z_score) > threshold]

# Выводим аномальные значения

print("Аномальные цены:", anomalies)

```

Этот код использует библиотеку NumPy для вычисления среднего значения и стандартного отклонения, а затем вычисляет Z-оценку для каждой цены в наборе данных. После этого он определяет аномальные значения, превышающие заданный порог Z-оценки, и выводит их на экран.

Диаграмма ящика с усами (или boxplot) – это важный инструмент в анализе данных, который позволяет визуализировать распределение и основные статистические характеристики набора данных. Этот график состоит из "ящика", представляющего межквартильный размах данных, "усов", которые указывают на минимальное и максимальное значение в пределах определенного расстояния от квартилей, а также отдельных точек, которые могут быть выбросами.

"Ящик" диаграммы является прямоугольником, ограниченным верхним и нижним квартилями. Вертикальная линия внутри ящика обозначает медиану данных. "Усы" диаграммы обычно находятся на расстоянии, равном 1.5 межквартильным размахам от верхнего и нижнего квартилей. Это расстояние определяет "усы" как участок данных, который считается разумным или "нормальным", не считая выбросов.