Netflix Data: Exploratory analysis
Exploramos aqui o dataset que pode ser encontrado em:
https://www.kaggle.com/atharvaj9/netflix-eda-shows-vs-movies/data
A análise exploratória de dados (EDA) é utilizada por cientistas de dados para analisar e investigar conjuntos de dados e resumir suas principais características, como por exemplo descobrir padrões, detectar anomalias, testar hipóteses e verificar suposições com a ajuda de estatísticas resumidas e representações gráficas.
Ele é usado para entender os dados primeiro e tentar coletar o máximo de insights deles e, em seguida, iniciar a análise sobre o tema.
Aqui iremos analisar os dados disponibilizados pelo Kagle, de acordo com o link acim, utilizaremos o python para essa análise e algumas de suas bibliotecas.
Vamos fazer a importação das bibliotecas:
No caso vamos usar o Numpy, o pandas, a biblioteca plotly, seaborn e matplotlib:
import numpy as np
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.figure_factory as ff
import seaborn as sns
import matplotlib.pyplot as plt#vamos armazenar o dataset obtido no kagle na variável netflix
#Storing netflix data in netflix variablenetflix = pd.read_csv('../input/netflix-shows/netflix_titles.csv')
#netflix
Para visualizarmos a a quantidade de linhas e colunas do DataFrame, utilizaremos a função shape:
#shape of data
netflix.shape
A propriedade shape retorna uma tupla representando a dimensionalidade do DataFrame. O formato da forma será (linhas, colunas).
Vamos aplicar aqui para ver o resultado:
#shape of data
netflix.shape
O resultado será:
(8807, 12)
Em seguida vamos ver aqui o nome das colunas que existem em nosso dataframe, para isso usaremos a função columns:
netflix.columns
E como resultado teremos:
Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added','release_year', 'rating', 'duration', 'listed_in', 'description'],dtype='object')
Agora vamos obter as informações relativas a cada uma das colunas de nosso dataset, para isso utilizaremos a função info
#data information
netflix.info()
o resultado será:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 show_id 8807 non-null object
1 type 8807 non-null object
2 title 8807 non-null object
3 director 6173 non-null object
4 cast 7982 non-null object
5 country 7976 non-null object
6 date_added 8797 non-null object
7 release_year 8807 non-null int64
8 rating 8803 non-null object
9 duration 8804 non-null object
10 listed_in 8807 non-null object
11 description 8807 non-null object
dtypes: int64(1), object(11)
memory usage: 825.8+ KB
Vamos agora procurar em quais colunas temos valores nulos:
A função isnull() detecta valores ausentes ou nulos para um objeto escalar ou do tipo array, retornando True (caso tenha valou ausente) ou False( caso não encontre valor nulo)
#data information
netflix.isnull()
temos valores nulos em director, cast, country, date_added, rating e duration.
A função sum() faz a soma da quantidade de valores nulos para cada coluna onde esses valores são encontrados:
netflix.isnull().sum()
Como resultado temos:
show_id 0
type 0
title 0
director 2634
cast 825
country 831
date_added 10
release_year 0
rating 4
duration 3
listed_in 0
description 0
dtype: int64
Para termos uma ideias dos valores que estão armazenados no dataset, vamos usar aqui a função head().
netflix.head()
Como resultado teremos:
Agora vamos fazer a correção dos valores ausentes (NaN)
- Primeiro passo: como podemos ver todos os dados que temos para director e cast são dados categóricos, então substituiremos “Desconhecido” nos valores NaN no conjunto de dados.
- Segundo passo: Podemos encontrar o país para um filme específico e onde ele é exibido, mas não temos certeza caso na coluna apareça o valor Nan, para esses casos iremos substituí-lo pelo valor “Ausente ou desconhecido”.
- Terceiro passo: Mesmo passo para todos os atributos ausentes.
netflix['director'].fillna('Unknown',inplace=True)
netflix['cast'].fillna('Unknown',inplace=True)
netflix['country'].fillna('Unknown',inplace=True)
netflix['rating'].fillna('Missing',inplace=True)
netflix['duration'].fillna(0,inplace=True)
Vamos ver agora se ainda temos algum valor nulo nas colunas:
netflix.isnull().sum()
Como vemos abaixo, apenas em date_added que têm-se valores nulos.
show_id 0
type 0
title 0
director 0
cast 0
country 0
date_added 10
release_year 0
rating 0
duration 0
listed_in 0
description 0
dtype: int64
Vamos proceder com a correção:
iremos usar aqui a função dropna()
dropna() remove os valores nulos (valores ausentes) do DataFrame , deixando cair as linhas ou colunas que contêm os valores nulos. Os valores nulos são NaN ( Not a Number ) e NaT ( Not a Time ). O DataFrame. dropna() detecta esses valores e filtra o DataFrame de acordo.
#droping NA values for date values
netflix = netflix.dropna()
netflix.isnull().sum()
Como resultado temos:
show_id 0
type 0
title 0
director 0
cast 0
country 0
date_added 0
release_year 0
rating 0
duration 0
listed_in 0
description 0
dtype: int64
Vamos agora fazer a conversão do formato de data, separando a data do mês e o ano do restantes:
netflix["date_added"] = pd.to_datetime(netflix["date_added"])
netflix["month_added"] = netflix["date_added"].dt.month
netflix["month_name_added"] = netflix["date_added"].dt.month_name()
netflix["year_added"] = netflix["date_added"].dt.year
Na coluna country, temos algumas linhas nas quais os países são separados por vírgula:
Iremos criar um vetor chamado countries que irá conter todos os países existentes na coluna country, porém sem nenhuma reptição, daí vamos acrescentar todos esses países como colunas em nosso dataframe, essas colunas serão adicionadas após a coluna description.
#criei aqui um vetor chamado countries totalmente vazio
countries = []#len(netflix.index) -> quantidade de linhas do dataframe
#vou percorrer toda a coluna country, indicada aqui no comando iloc[x,5] pois country é a 6a colunafor i in range(len(netflix.index)):
x = netflix.iloc[i, 5].split(',') #separo o valor encontrado em cada linha em função da vírgula e armazeno no vetor x
#percorro o vetor x
#verifico se o país existe no vetor x está no vetor countries
#senão estiver eu acrescento o país em countries for j in range(len(x)):
if x[j].strip() not in countries:
countries.append(x[j].strip())
else:
continue
countries.remove('')#countries
Após o código acima eu posso chamar o seguinte comando
print(countries)
O resultado será um vetor com todos os países existentes em meu dataframe sem repetição.
['United States', 'South Africa', 'Unknown', 'India', 'Ghana', 'Burkina Faso', 'United Kingdom', 'Germany', 'Ethiopia', 'Czech Republic', 'Mexico', 'Turkey', 'Australia', 'France', 'Finland', 'China', 'Canada', 'Japan', 'Nigeria', 'Spain', 'Belgium', 'South Korea', 'Singapore', 'Italy', 'Romania', 'Argentina', 'Venezuela', 'Hong Kong', 'Russia', '', 'Ireland', 'Nepal', 'New Zealand', 'Brazil', 'Greece', 'Jordan', 'Colombia', 'Switzerland', 'Israel', 'Taiwan', 'Bulgaria', 'Algeria', 'Poland', 'Saudi Arabia', 'Thailand', 'Indonesia', 'Egypt', 'Denmark', 'Kuwait', 'Netherlands', 'Malaysia', 'Vietnam', 'Hungary', 'Sweden', 'Lebanon', 'Syria', 'Philippines', 'Iceland', 'United Arab Emirates', 'Norway', 'Qatar', 'Mauritius', 'Austria', 'Cameroon', 'Palestine', 'Uruguay', 'Kenya', 'Chile', 'Luxembourg', 'Cambodia', 'Bangladesh', 'Portugal', 'Cayman Islands', 'Senegal', 'Serbia', 'Malta', 'Namibia', 'Angola', 'Peru', 'Mozambique', 'Belarus', 'Zimbabwe', 'Puerto Rico', 'Pakistan', 'Cyprus', 'Guatemala', 'Iraq', 'Malawi', 'Paraguay', 'Croatia', 'Iran', 'West Germany', 'Albania', 'Georgia', 'Soviet Union', 'Morocco', 'Slovakia', 'Ukraine', 'Bermuda', 'Ecuador', 'Armenia', 'Mongolia', 'Bahamas', 'Sri Lanka', 'Latvia', 'Liechtenstein', 'Cuba', 'Nicaragua', 'Slovenia', 'Dominican Republic', 'Samoa', 'Azerbaijan', 'Botswana', 'Vatican City', 'Jamaica', 'Kazakhstan', 'Lithuania', 'Afghanistan', 'Somalia', 'Sudan', 'Panama', 'Uganda', 'East Germany', 'Montenegro']
O código abaixo acrescrenta todos os países do vetor countries, que estão listados logo acima, como colunas em nosso dataframe netflix.
se chamarmos len(countries), o retorno será 123.
#len(countries) -fornece a quantidade de países sem repetição
for i in range(len(countries)):#considero a quantidade de países
#adiciono cada país como uma coluna em netflix e atribuo 0 em
#todas as linhas
netflix[countries[i]] = 0 #percorro todas as linhas do dataframe (uso o índice j)
#verifico se o i-ésimo país está na coluna country, se tiver atribuo
#o valor 1 na coluna referente aquele país, lembre que adicionei #todos os possíveis países como colunas for j in range(len(netflix.index)):
if countries[i] in netflix.iloc[j, 5]:
netflix[countries[i]][j] = 1
Claro que agora nosso dataframe está com uma quantidade enorme de colunas, para checar, pode chamar novamente a função
netflix.shape
o resultado será: (8807, 138)
Ou seja, antes nós tinhamos 15 colunas, como temos 123 países, agora temos 138 colunas no dataframe.
Vamos fazer o mesmo procedimento com a coluna listed_in, que são os gêneros de cada filme, vale ressaltar que nessa coluna podemos ter mais de uma categoria para um mesmo filme.
Só pra termos uma ideia do que tem na coluna listed_in:
chamaremos o comando netflix.listed_in
0 Documentaries
1 International TV Shows, TV Dramas, TV Mysteries
2 Crime TV Shows, International TV Shows, TV Act...
3 Docuseries, Reality TV
4 International TV Shows, Romantic TV Shows, TV ...
...
8802 Cult Movies, Dramas, Thrillers
8803 Kids' TV, Korean TV Shows, TV Comedies
8804 Comedies, Horror Movies
8805 Children & Family Movies, Comedies
8806 Dramas, International Movies, Music & Musicals
Name: listed_in, Length: 8807, dtype: object
temos aqui várias linhas onde temos mais de um gênero para um mesmo filme.
Ou seja iremos criar uma coluna chamada genres com todos os possíveis gêneros sem repetição.
Usaremos agora o mesmo código que usamos anteriormente para países.
genres = []for i in range(len(netflix.index)):
x = netflix.iloc[i, 10].split(‘,’)
for j in range(len(x)):
if x[j].strip() not in genres:
genres.append(x[j].strip())
else:
continue
se verificarmos o que tem no vetor genres, por meio do comando print(genres)
Obteremos:
['Documentaries',
'International TV Shows',
'TV Dramas',
'TV Mysteries',
'Crime TV Shows',
'TV Action & Adventure',
'Docuseries',
'Reality TV',
'Romantic TV Shows',
'TV Comedies',
'TV Horror',
'Children & Family Movies',
'Dramas',
'Independent Movies',
'International Movies',
'British TV Shows',
'Comedies',
'Spanish-Language TV Shows',
'Thrillers',
'Romantic Movies',
'Music & Musicals',
'Horror Movies',
'Sci-Fi & Fantasy',
'TV Thrillers',
"Kids' TV",
'Action & Adventure',
'TV Sci-Fi & Fantasy',
'Classic Movies',
'Anime Features',
'Sports Movies',
'Anime Series',
'Korean TV Shows',
'Science & Nature TV',
'Teen TV Shows',
'Cult Movies',
'TV Shows',
'Faith & Spirituality',
'LGBTQ Movies',
'Stand-Up Comedy',
'Movies',
'Stand-Up Comedy & Talk Shows',
'Classic & Cult TV']
Agora vamos acrescentar cada um desses gêneros como colunas em nosso data frame.
#len(genres)->fornece a quantidade de gêneros sem repetiçãofor i in range(len(genres)):#considero a quantidade de gêneros
#adiciono cada gênero como uma coluna em netflix e atribuo 0
#em cada uma das linhas
netflix[genres[i]] = 0#percorro todas as linhas do dataframe (uso o índice j)
#verifico se o i-ésimo gênero está na coluna listed_in, se tiver
# atribuo o valor 1 na coluna referente aquele gênero, lembre que #adicionei todos os possíveis gêneros como colunasfor j in range(len(netflix.index)):
if genres[i] in netflix.iloc[j, 10]:
netflix[genres[i]][j] = 1
observação: iloc[j,10] se refere a listed_in
Agora vamos remover as colunas que não serão utilizadas em nossa análise:
netflix = netflix.drop([‘listed_in’, ‘date_added’, ‘show_id’, ‘country’, ‘Unknown’], axis = 1)
netflix
Nosso data frame fica assim
Vamos agora alterar a duração, removendo min e temporadas da duração e mantendo os dados no formato int.
netflix['duration'] = netflix['duration'].astype('str').map(lambda x: x.split(' ')[0])netflix['duration'] =netflix['duration'].astype('int')
Vamos agora fazer algumas análises por meio de gráficos.
# Iniciaremos verificando o conteúdo adicionado na Netflix ao longo dos anos, para ter uma ideia de qual ano estava dominando.
Antes vamos entender algumas funções:
reset_index em pandas é usado para redefinir o índice do objeto dataframe para a indexação padrão (0 para o número de linhas menos 1) ou para redefinir o índice de vários níveis.
agg() é usado para passar uma função ou lista de funções a serem aplicadas em uma série ou mesmo cada elemento da série separadamente.
content_by_year = netflix
.query('year_added != "No" & year_added != ""')
.groupby('year_added')
.agg({'type': 'count'})
.reset_index()
.rename(columns = {'type': 'content'})
.sort_values('content')fig1 = px.bar(content_by_year['year_added'],x = content_by_year['year_added'], y = content_by_year['content'])fig1.update_traces(marker_color='blue')
fig1.show()
Como podemos ver a maior parte do conteúdo foi adicionado no período de 2018 e 2021. E sabemos que a Netflix continua adicionando conteúdo ao longo de meses também. Agora também veremos qual mês tem mais uploads de conteúdo.
content_by_month = netflix
.query(‘month_name_added != “No” & month_name_added != “”’)
.groupby(‘month_name_added’)
.agg({‘type’: ‘count’})
.reset_index()
.rename(columns = {‘type’: ‘content’})
.sort_values(‘content’)fig2 = px.pie( names= content_by_month['month_name_added'], values= content_by_month['content'])fig2.show()
Podemos observar que a maior parte do conteúdo adicionado no catálogo da Netflix ocorre nos meses de dezembro e julho. Podemos fazer suposições de que dezembro é o mês principal por causa do Natal e julho é o período de verão. Assim, podemos ter certeza de que a maior parte do conteúdo adicionado ao longo dos meses ocorre no período de férias para que as pessoas possam assistir a programas e filmes com a família.
Análise da Proporção de filmes e programas de TV
Podemos confirmar que os filmes são mais do que programas de TV.
show_type = netflix.groupby(['type'])['type'].count()
total = len(netflix)
ratio = ((show_type/total)).round(2)
print(ratio)
# Using plotly we will plot how many types of Movies and TV shows are present
fig = px.pie(netflix['type'].value_counts().reset_index(), values = 'type', names = 'index', width = 600, height = 600)
fig.update_traces(textposition = 'inside',
textinfo = 'percent + label',
hole = 0.5,
marker = dict(colors = ['#b20710','#221f1f'], line = dict(color = 'white', width = 2)))
fig.update_layout(annotations = [dict(text = 'TV Shows <br> VS <br> Movies',
x = 0.5, y = 0.5, font_size = 28, showarrow = False,
font_family = 'Calibri Black',
font_color = 'black')],
showlegend = False)
fig.show()
Obtemos o seguinte gráfico:
Um outro gráfico pode ser feito com ajuda da biblioteca seaborn:
sns.set(style="darkgrid")
ax = sns.countplot(x="type", data=netflix_overall, palette="Set2")
Podemos confirmar que os filmes estão em maior quantidade do que os programas de TV.
Análise de classificações de filmes
plt.figure(figsize=(12,10))
sns.set(style="darkgrid")
ax = sns.countplot(x="rating", data=netflix, palette="Set2", order=netflix['rating'].value_counts().index[0:15])
A maior contagem de filmes é feita com a classificação ‘TV-MA’. “TV-MA” é uma classificação atribuída pelas Diretrizes dos Pais de TV a um programa de televisão projetado apenas para o público adulto.
O segundo maior é o ‘TV-14’, que significa conteúdo que pode ser inadequado para crianças menores de 14 anos.
A terceira maior é a muito popular classificação ‘R’. Um filme com classificação R é um filme que foi avaliado como tendo material que pode ser inadequado para crianças menores de 17 anos pela Motion Picture Association of America; a MPAA escreve “Abaixo de 17 anos requer acompanhamento dos pais ou responsável adulto”.
Análise da duração dos filmes
sns.set(style="darkgrid")
sns.kdeplot(data=netflix['duration'], shade=True)
Assim, uma boa quantidade de filmes na Netflix está entre 75–120 minutos. É aceitável, considerando o fato de que uma boa parte do público não pode assistir a um filme de 3 horas de uma só vez.
Anos de lançamento dos filmes
plt.figure(figsize=(12,10))
sns.set(style=”darkgrid”)
ax = sns.countplot(y=”release_year”, data=netflix, palette=”Set2", order=netflix[‘release_year’].value_counts().index[0:15])
Então, 2017 foi o ano em que a maioria dos filmes foi lançada.
Top10 gêneros nos filmes
plt.figure(figsize=(15,5))sns.barplot(
x = netflix[“listed_in”].value_counts().head(10).index,
y = netflix[“listed_in”].value_counts().head(10).values,
palette=”pink”)plt.xticks(rotation=60)
plt.title(“Top10 gêneros nos filmes”,fontweight=”bold”)
plt.show()