
Состав презентации:
1. Вводная часть 2. Этапы Работы 3. Итоговые графики 4. Описание применения генеративной модели
Я решила проанализировать датасет с рейтингом фильмов, для меня это и вправду интересные данные, так как мне всегда казалось, что оценка творчества очень субъективна и неоценима, посмотрю на датасет и выявлю, за что же люди снижают или повышают балл фильму
Описание датасета: Датасет содержит более 120 тысяч фильмов с 1911 по 2024 год, присутствующих на сайте IMDB.com.
Данные были собраны с использованием библиотек web-scraping Python Selenium и BeautifulSoup.
Я обрабатывала данные так: сначала подключила библиотеки, потом посмотрела как выглядит датасет.

Теперь проверяем на наличие пропусков и дубликатов, чтобы почистить данные.

Сейчас я буду кодировать данные, чтобы интересно с ними работать, начну с выявления категориального.
Все становится куда лучше, сейчас я еще почищу данные, например, я выяснила, что ссылки на источник фильмов мне вообще неважен, поэтому уберу его, чтобы посмотреть на корреляцию и визуализировать ее.
И вот первая визуализация инфографики, стилизируя, я использовала уже готовые паттерны в сиборне для построения хитмэпа.
Это матрица корреляции, где прослеживается как коррелируется один признак от другого, можно сделать вывод, что рейтинг зависит от длины фильма (продолжительности), пойдем дальше анализировать.
пс зависимость продолжительности от продолжительности и прочее нам неинтеренсы, так как понятное дело полностью коррелирруются увеличу количество признаков)
Теперь мы пойдем дальше, чтобы строить графики еще и посмотрим на зависимость рейтинга от продолжительности фильмов.
Слайд теперь попробую визуализировать с помощью hexbin графика зависимость года релиза и рейтинга.
Чтобы точно убедиться в выводах, построю 3д график. Удобство и красота 3д графика в том, что он визуализирует как год выпуска, так и оценки IMDB и количество оценок, чтобы позволить анализировать их вместе и понять возможные взаимосвязи между этими переменными.
Теперь сгруппирую признаки и буду смотреть топ 5 режиссеров, и в каких жанрах они круты.
Еще можно посмотреть количество фильмов оцененных на определенную оценку.
Я попроосила ИИ преобразовать визуализацию моего кода, чтобы он нарисовал его в неоновых цветах. Он сделал почти так, но значения по осям синим цветом, которого не было видно, поэтому я поменяла на белый.
Промт был таким: перепиши код, чтобы визуализация была в неоновых оттенках на черном фоне.
Использовала ChatGPT4 https://t.me/ChatGPT_MultiBot
А уже тут, поработав над новым датафреймом, мы видим статистику лучших режиссеров (основываясь средней оценке их фильмов), график которой убывает.