Читать книгу Искусственный интеллект. Машинное обучение онлайн

2. Преобразование текстов писем в числовые признаки: Используется `CountVectorizer` для преобразования текстов писем в векторы признаков, которые представляют частоту встречаемости слов в каждом письме.

3. Разделение данных на обучающий и тестовый наборы: С помощью `train_test_split` данные разделяются на две части: обучающий набор (80% данных) и тестовый набор (20% данных). Обучающий набор используется для обучения модели, а тестовый набор – для проверки качества обучения.

4. Создание и обучение модели: Создается модель наивного байесовского классификатора (`MultinomialNB`) и обучается на обучающем наборе данных (`X_train` и `y_train`). В процессе обучения модель анализирует тексты писем и соответствующие им метки, учась определять, какие тексты являются спамом, а какие – нет.

5. Прогнозирование меток для тестового набора данных: Обученная модель используется для предсказания меток (спам или не спам) для писем из тестового набора данных (`X_test`). Предсказанные метки сохраняются в переменной `y_pred`.

6. Оценка качества модели: Используется метрика точности (`accuracy_score`), чтобы оценить, насколько хорошо модель справляется с предсказанием меток на тестовом наборе данных. Точность показывает долю правильно предсказанных меток от общего числа предсказаний.

Таким образом, пример задачи классификации спама в электронных письмах демонстрирует принципы работы обучения с учителем и применения модели для решения реальных задач.


Обучение без учителя (Unsupervised Learning)

Обучение без учителя (Unsupervised Learning) представляет собой процесс обучения модели на наборе данных, в котором отсутствуют метки или правильные ответы. В отличие от обучения с учителем, где модель обучается на данных с явно указанными ответами, в обучении без учителя модель должна самостоятельно выявлять скрытые закономерности или структуру в данных.

Кластеризация – это метод обучения без учителя, который используется для группировки объектов данных на основе их сходства. В процессе кластеризации модель стремится выделить группы, или кластеры, объектов, которые обладают общими характеристиками или свойствами. Этот процесс позволяет обнаружить скрытую структуру в данных и сделать их более понятными и удобными для анализа.