Python é uma linguagem de alto nível. É interpretada, de script, imperativa, orientada a objetos, funcional, de forte tipagem e dinâmica.
Não poderia deixar de ser uma excelente opção para quem quer trabalhar com análise de dados, pois suas fortes características e suas grandes opções de bibliotecas disponíveis fazem dela uma ótima escolha para manipular dados.
Para melhor instruir quem está querendo começar a jornada de análise de dados e pretende utilizar essa linguagem como ferramenta, vou mostrar algumas das bibliotecas que utilizamos para dados com Python.
Uma análise é feita utilizando vários métodos. Primeiro é necessário extrair e organizar os dados, que podem vir de diversas fontes: arquivos de texto, csv, excel, xml, banco de dados, mineração de dados, enfim, são diversas as fontes onde podemos obter informações.
Contudo, imaginando que você que está lendo esse artigo já tenha noção de programação, é necessário em primeiro lugar escolher qual fonte de dados utilizar.
As bibliotecas mais utilizadas para análise de dados com Python são:
Iremos abordar uma visão geral de cada uma delas, começando pela NumPy.
É utilizada principalmente para realizar cálculos em Arrays, sejam eles comuns ou multidimensionais.
Ela fornece várias funções e operações que nos ajudam a executar esses cálculos numéricos com facilidade. Por exemplo: multiplicação de Arrays, transposição, adição, manipulação de matrizes, entre outros. Tudo isso com códigos fáceis e rápidos.
NumPy também oferece funções para manipulação de imagem, como por exemplo espelhamento e rotação de imagens, já que elas são representadas como Arrays Multidimensionais.
Como NumPy executa cálculos com facilidade, é fortemente utilizado para operações de matemática, estatística, álgebra linear, geração de números aleatórios, entre outras manipulações.
Para se ter noção do poder dessa biblioteca: ela, em conjunto com SciPy e Matplot, pode substituir com tranquilidade o famoso MATLAB quando se trata de tarefas matemáticas.
No meu ponto de vista uma das mais utilizadas, pois fornece ferramentas para análise e estrutura de dados de alta performance que são, ao mesmo tempo, fáceis de codificar.
Basicamente o Pandas explora a manipulação, leitura e visualização de dados. Ele trabalha com dois tipos principais de estruturas de dados: Series e DataFrames.
Uma Series é igual a um Array unidimensional, ou uma lista.
Ela possui um índice que dá rótulos a cada elemento da lista, como por exemplo:
Produtos = pd.Series([‘cabo usb’, ‘pendrive’, ‘ssd’, ’hd’])
Quando mando mostrar na tela esse código, Pandas me retorna o Array serializado com um índice:
1 | Cabo usb |
2 | pendrive |
3 | ssd |
4 | hd |
Um outro exemplo utilizando series:
notas = pd.Series([2,7,5,10,6], index=["Alfredo", "Aline", "Enzo", "Sarah", "João"])
Alfredo | 2 |
Aline | 7 |
Enzo | 5 |
Sarah | 10 |
João | 6 |
Nas series é possível, também, pesquisar utilizando um índice como chave. Se eu chamar notas [“Sarah”], terei como saída 10.
Além de acessar por índice, também podemos aplicar funções estatísticas sobre os valores, como: média, desvio padrão, moda, além de ser flexível o suficiente para aplicar diversas funções matemáticas do NumPy.
Agora vamos aos DataFrames do Pandas, definidos como uma estrutura bidimensional de dados, tal qual uma planilha do Excel.
Os DataFrames são fantásticos, pois neles conseguimos fazer diversas manipulações que fazemos no banco de dados sem precisar ter todo o trabalho de mexer com banco de dados diretamente.
Um exemplo seria: preciso filtrar alguns dados de um arquivo CSV.
Com o Pandas DataFrames você lê o arquivo e ele, sem adicionar a nenhum banco de dados, já te mostra todo CSV tabulado. Com isso você decide utilizar os dados ou descartá-los.
Resumindo, te poupa o trabalho de importar o CSV para um banco de dados para então visualizar os dados de forma organizada e tabulada.
Além da exibição feita acima, ainda podemos utilizar diversos recursos de estatística e manipulação dos dados diretamente no Python.
De forma geral, é possível fazer toda parte de extração, tratamento e visualização de dados apenas com essa biblioteca.
Sem contar com uma característica especial muito facilitadora, que é o Pandas exibir vários tipos de gráficos sem precisar de auxilio de outra biblioteca.
Eu poderia ficar horas e horas falando sobre o Pandas, pois sua facilidade e rapidez são impressionantes, vale a pena pesquisar mais e se aprofundar nessa biblioteca.
E por fim, agora é a vez do MatplotLib, que é uma biblioteca de visualização de dados do Python.
Não há muito o que falar sobre MatplotLib, é a biblioteca mais famosa para esse fim, ela gera gráficos de duas dimensões, na de baixo fica o eixo X, à esquerda o eixo Y e entre esses planos ficam expostos nossos dados.
Posso trabalhar estilos de gráficos, cores, exibição, e diversas outras aplicações. Matplotlib está por trás dos gráficos gerados pela biblioteca Pandas.
Essa foi uma visão bem simplificada, porém necessária para dar os primeiros passos na análise de dados com Python.
A partir do momento em que você conseguir dominar essas três bibliotecas, conseguirá avançar mais na sua forma de análise, utilizando banco de dados estruturados ou não estruturados juntamente com as bibliotecas citadas, utilizando Python como intermediário para cálculos, tratamentos e exibições de dados.
Fonte: Blog Geek Hunter
Já conhece nossos cursos ao vivo? Não?
Então deixe seu contato para saber mais ou acesse nosso site.
A CIATEC está a disposição para lhe ajudar.
Preencha os dados e receba conteúdo completo.
LGPD: Politica de Privacidade
© 2018 Ciatec Cursos. Todos os direitos reservados.
Este site usa cookies para melhorar sua experiência enquanto você navega pelo site. Destes, os cookies categorizados conforme necessário são armazenados no seu navegador, pois são essenciais para o funcionamento das funcionalidades básicas do site. Também usamos cookies de terceiros que nos ajudam a analisar e entender como você usa este site. Esses cookies serão armazenados no seu navegador apenas com o seu consentimento. Você também tem a opção de desativar esses cookies. Mas a desativação de alguns desses cookies pode afetar sua experiência de navegação.
Cookie | Duração | Descrição |
---|---|---|
cookielawinfo-checkbox-analytics | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics". |
cookielawinfo-checkbox-functional | 11 months | The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional". |
cookielawinfo-checkbox-necessary | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary". |
cookielawinfo-checkbox-others | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other. |
cookielawinfo-checkbox-performance | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance". |
viewed_cookie_policy | 11 months | The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data. |