machine-learning Лабораторная работа

Лабораторная работа №2: Основы Pandas

Лабораторная работа №2: Основы Pandas

Цель: Научиться загружать реальные данные, проводить их первичную диагностику, выбирать нужные фрагменты с помощью loc/iloc и фильтровать записи по сложным условиям.

Инструменты:

  • Python 3
  • Pandas (DataFrame, Series)

Данные: Мы будем работать с набором данных California Housing. Это реальные данные переписи населения, содержащие информацию о ценах на жилье, расположении и характеристиках районов.


Часть 1: Загрузка и первичный анализ (Sanity Check)

Первый шаг любого проекта — превратить сырой файл (CSV, Excel) в DataFrame и понять, с чем мы имеем дело.


Часть 2: Индексация и выборка (Slicing)

Умение точно “вырезать” кусок таблицы — навык хирурга данных. Помните:

  • .iloc — по номеру (позиции).
  • .loc — по метке (имени).

Часть 3: Фильтрация и создание признаков

Бизнес часто ставит задачи в духе: “Найди мне все дорогие дома на побережье”.


Часть 4: Сохранение результатов

После очистки и обработки данные часто нужно сохранить для следующего этапа или отчета.

Задание 4.1: Экспорт

Сохраните luxury_ocean_df в файл expensive_ocean_houses.csv.

Важный нюанс сохранения

Укажите index=False, чтобы не сохранять технический индекс Pandas в CSV.

# TODO: Сохраните отфильтрованный датафрейм
# ...

print("Файл сохранен. Проверьте вкладку 'Files' в Colab.")

🧠 Проверка знаний

Какой метод Pandas используется для выборки данных строго по их числовой позиции (номеру строки и столбца)?

Почему при сохранении DataFrame в CSV-файл рекомендуется использовать параметр index=False?