Original size 2480x3470

Анализ данных IMDb

PROTECT STATUS: not protected
20

Состав презентации:

1. Вводная часть 2. Этапы Работы 3. Итоговые графики 4. Описание применения генеративной модели

Я решила проанализировать датасет с рейтингом фильмов, для меня это и вправду интересные данные, так как мне всегда казалось, что оценка творчества очень субъективна и неоценима, посмотрю на датасет и выявлю, за что же люди снижают или повышают балл фильму

Описание датасета: Датасет содержит более 120 тысяч фильмов с 1911 по 2024 год, присутствующих на сайте IMDB.com.

Данные были собраны с использованием библиотек web-scraping Python Selenium и BeautifulSoup.

Я обрабатывала данные так: сначала подключила библиотеки, потом посмотрела как выглядит датасет.

big
Original size 2452x1124

Теперь проверяем на наличие пропусков и дубликатов, чтобы почистить данные.

big
Original size 1166x1280

Сейчас я буду кодировать данные, чтобы интересно с ними работать, начну с выявления категориального.

Original size 502x422

Все становится куда лучше, сейчас я еще почищу данные, например, я выяснила, что ссылки на источник фильмов мне вообще неважен, поэтому уберу его, чтобы посмотреть на корреляцию и визуализировать ее.

Original size 1204x1240

И вот первая визуализация инфографики, стилизируя, я использовала уже готовые паттерны в сиборне для построения хитмэпа.

Это матрица корреляции, где прослеживается как коррелируется один признак от другого, можно сделать вывод, что рейтинг зависит от длины фильма (продолжительности), пойдем дальше анализировать.

пс зависимость продолжительности от продолжительности и прочее нам неинтеренсы, так как понятное дело полностью коррелирруются увеличу количество признаков)

Original size 1330x1364

Теперь мы пойдем дальше, чтобы строить графики еще и посмотрим на зависимость рейтинга от продолжительности фильмов.

Original size 1702x1192

Слайд теперь попробую визуализировать с помощью hexbin графика зависимость года релиза и рейтинга.

Original size 1340x964

Чтобы точно убедиться в выводах, построю 3д график. Удобство и красота 3д графика в том, что он визуализирует как год выпуска, так и оценки IMDB и количество оценок, чтобы позволить анализировать их вместе и понять возможные взаимосвязи между этими переменными.

Original size 1184x1516

Теперь сгруппирую признаки и буду смотреть топ 5 режиссеров, и в каких жанрах они круты.

Original size 1488x632
Original size 2560x738

Еще можно посмотреть количество фильмов оцененных на определенную оценку.

Original size 1470x942

Я попроосила ИИ преобразовать визуализацию моего кода, чтобы он нарисовал его в неоновых цветах. Он сделал почти так, но значения по осям синим цветом, которого не было видно, поэтому я поменяла на белый.

Промт был таким: перепиши код, чтобы визуализация была в неоновых оттенках на черном фоне.

Использовала ChatGPT4 https://t.me/ChatGPT_MultiBot

А уже тут, поработав над новым датафреймом, мы видим статистику лучших режиссеров (основываясь средней оценке их фильмов), график которой убывает.

Original size 1814x666
Original size 1668x1452
Анализ данных IMDb
20
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more