Formatação

Este módulo possui funções auxiliares de formatação dos dados das várias fontes.

scrape_dataframe

 scrape_dataframe (id_list:Iterable[str])

Recebe uma lista de ids do Mosaico e retorna um dataframe com os dados raspados da página do MOSAICO

Type Details
id_list Iterable Lista de ids do Mosaico
Returns DataFrame Dataframe com os dados raspados da página do Mosaico

input_coordenates

 input_coordenates (df:pandas.core.frame.DataFrame,
                    pasta:Union[str,pathlib.Path])

Imputa os registros com coordenadas ausentes (NA’s) com as coordenadas do município

Type Details
df DataFrame DataFrame a imputar coordenadas inválidas
pasta Union
Returns DataFrame

parse_bw

 parse_bw (bw:str)

Parse the bandwidth string

Type Details
bw str Largura de Banda codificada como string
Returns float Largura de Banda codificada como float

Otimização dos Tipos de dados

A serem criados dataframes, normalmente a tipo de data é aquele com maior resolução possível, nem sempre isso é necessário, os arquivos de espectro mesmo possuem somente uma casa decimal, portanto um float16 já é suficiente para armazená-los. As funções a seguir fazem essa otimização

Code below borrowed from https://medium.com/bigdatarepublic/advanced-pandas-optimize-speed-and-memory-a654b53be6c2


optimize_floats

 optimize_floats (df:pandas.core.frame.DataFrame,
                  exclude:Iterable[str]=None)

Otimiza os floats do dataframe para reduzir o uso de memória

Type Default Details
df DataFrame DataFrame a ser otimizado
exclude Iterable None Colunas a serem excluidas da otimização
Returns DataFrame DataFrame com as colunas do tipo float otimizadas

optimize_ints

 optimize_ints (df:pandas.core.frame.DataFrame,
                exclude:Iterable[str]=None)

Otimiza os ints do dataframe para reduzir o uso de memória

Type Default Details
df DataFrame Dataframe a ser otimizado
exclude Iterable None Colunas a serem excluidas da otimização
Returns DataFrame DataFrame com as colunas do tipo int otimizadas

optimize_objects

 optimize_objects (df:pandas.core.frame.DataFrame,
                   datetime_features:Iterable[str]=None,
                   exclude:Iterable[str]=None)

Otimiza as colunas do tipo object no DataFrame para category ou string para reduzir a memória e tamanho de arquivo

Type Default Details
df DataFrame DataFrame a ser otimizado
datetime_features Iterable None Colunas que serão convertidas para datetime
exclude Iterable None Colunas que não serão convertidas
Returns DataFrame DataFrame com as colunas do tipo object otimizadas

df_optimize

 df_optimize (df:pandas.core.frame.DataFrame,
              datetime_features:Iterable[str]=None,
              exclude:Iterable[str]=None)

Função que encapsula as anteriores para otimizar os tipos de dados e reduzir o tamanho do arquivo e uso de memória

Type Default Details
df DataFrame DataFrame a ser otimizado
datetime_features Iterable None Colunas que serão convertidas para datetime
exclude Iterable None Colunas que não serão convertidas
Returns DataFrame DataFrame com as colunas com tipos de dados otimizados

format_types

 format_types (df:pandas.core.frame.DataFrame, stem:str=None)

Convert the columns of a dataframe to optimized types

Type Default Details
df DataFrame DataFrame a ser formatado
stem str None Identificador do arquivo para otimização específica
Returns DataFrame DataFrame formatado