Data_engineering Aws ETL com Apache Airflow, Web Scraping, AWS S3, Apache Spark e Redshift | Parte 1 Nesse post irei apresentar como utilizar o Apache Airflow, uma das mais conhecidas ferramenta para gerenciamente de fluxos, para automatizar um fluxo de Extração, Transformação e Carregamento do inglês Extract, Transform, Load (ETL).
Data_engineering Data_science Spark Conhecendo o ecossistema Spark Spark é uma ferramenta para processamento distribuído e o maior projeto open source voltado para o processamento de dados do momento. Ele faz parte do ecossitema Hadoop, ou seja, pode ser utilizado rodando
Python Data_science Text_mining Analisando tweets sobre Black is King Eu sou uma grande fã do trabalho da Beyoncé e recentemente ela lançou seu álbum visual Black Is King. Infelizmente a plataforma de streaming onde o álbum foi lançado não está disponível no
Python Data_science Text_mining Coletando dados do Twitter usando Python Eu iniciei um projeto para realizar a coleta de alguns tweets utilizando a biblioteca Tweepy, tratamento de dados utilizando Python e análise de polaridade dos textos escritos nos tweets. Irei relatar um pouco