Читать книгу Искусственный интеллект. Машинное обучение онлайн
На получившемся графике мы видим ящик, который представляет межквартильный размах (от первого квартиля до третьего квартиля) и медиану (линия внутри ящика). Усы расширяются до самого нижнего и самого верхнего значения данных, а выбросы отображаются в виде точек за пределами усов.
3. Пример диаграммы рассеяния:
```python
import matplotlib.pyplot as plt
# Данные для визуализации
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]
# Построение диаграммы рассеяния
plt.scatter(x, y, color='green')
# Добавление названий осей и заголовка
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Пример диаграммы рассеяния')
# Отображение графика
plt.show()
На результате данного кода мы видим диаграмму рассеяния, которая помогает визуализировать взаимосвязь между двумя переменными.
Этот код использует библиотеку `matplotlib.pyplot` для построения диаграммы рассеяния. Данные для визуализации представлены в виде двух списков `x` и `y`, которые содержат значения соответствующих переменных.
Функция `scatter()` используется для построения диаграммы рассеяния на основе этих данных. Мы можем указать цвет точек с помощью параметра `color`.
Затем добавляются названия осей и заголовок с помощью функций `xlabel()`, `ylabel()` и `title()`. Наконец, график отображается с помощью функции `show()`.
На получившейся диаграмме мы видим точки, которые представляют пары значений переменных X и Y. По расположению точек можно сделать выводы о возможной корреляции между этими переменными: например, положительной (если точки идут вверх) или отрицательной (если точки идут вниз).
Эти примеры демонстрируют основные возможности визуализации данных с использованием библиотеки `matplotlib` в Python.
После визуализации данных статистический анализ играет ключевую роль в понимании распределения данных и выявлении основных характеристик. В этом процессе обычно вычисляются различные статистические метрики, такие как среднее значение, медиана, стандартное отклонение, квартили и корреляции между переменными.
Среднее значение представляет собой сумму всех значений переменной, деленную на количество этих значений, и дает представление о центре распределения данных. Медиана, с другой стороны, является значением, которое разделяет распределение на две равные части, и является более устойчивой к выбросам, чем среднее значение. Стандартное отклонение измеряет разброс значений относительно среднего значения и позволяет оценить разброс данных вокруг среднего. Квартили представляют собой значения, которые делят упорядоченное распределение данных на четыре равные части и помогают понять вариабельность данных.