Formatação
scrape_dataframe
scrape_dataframe (id_list:Iterable[str])
Recebe uma lista de ids do Mosaico e retorna um dataframe com os dados raspados da página do MOSAICO
Type | Details | |
---|---|---|
id_list | Iterable | Lista de ids do Mosaico |
Returns | DataFrame | Dataframe com os dados raspados da página do Mosaico |
input_coordenates
input_coordenates (df:pandas.core.frame.DataFrame, pasta:Union[str,pathlib.Path])
Imputa os registros com coordenadas ausentes (NA’s) com as coordenadas do município
Type | Details | |
---|---|---|
df | DataFrame | DataFrame a imputar coordenadas inválidas |
pasta | Union | |
Returns | DataFrame |
parse_bw
parse_bw (bw:str)
Parse the bandwidth string
Type | Details | |
---|---|---|
bw | str | Largura de Banda codificada como string |
Returns | float | Largura de Banda codificada como float |
Otimização dos Tipos de dados
A serem criados dataframes, normalmente a tipo de data é aquele com maior resolução possível, nem sempre isso é necessário, os arquivos de espectro mesmo possuem somente uma casa decimal, portanto um float16
já é suficiente para armazená-los. As funções a seguir fazem essa otimização
Code below borrowed from https://medium.com/bigdatarepublic/advanced-pandas-optimize-speed-and-memory-a654b53be6c2
optimize_floats
optimize_floats (df:pandas.core.frame.DataFrame, exclude:Iterable[str]=None)
Otimiza os floats do dataframe para reduzir o uso de memória
Type | Default | Details | |
---|---|---|---|
df | DataFrame | DataFrame a ser otimizado | |
exclude | Iterable | None | Colunas a serem excluidas da otimização |
Returns | DataFrame | DataFrame com as colunas do tipo float otimizadas |
optimize_ints
optimize_ints (df:pandas.core.frame.DataFrame, exclude:Iterable[str]=None)
Otimiza os ints do dataframe para reduzir o uso de memória
Type | Default | Details | |
---|---|---|---|
df | DataFrame | Dataframe a ser otimizado | |
exclude | Iterable | None | Colunas a serem excluidas da otimização |
Returns | DataFrame | DataFrame com as colunas do tipo int otimizadas |
optimize_objects
optimize_objects (df:pandas.core.frame.DataFrame, datetime_features:Iterable[str]=None, exclude:Iterable[str]=None)
Otimiza as colunas do tipo object
no DataFrame para category
ou string
para reduzir a memória e tamanho de arquivo
Type | Default | Details | |
---|---|---|---|
df | DataFrame | DataFrame a ser otimizado | |
datetime_features | Iterable | None | Colunas que serão convertidas para datetime |
exclude | Iterable | None | Colunas que não serão convertidas |
Returns | DataFrame | DataFrame com as colunas do tipo object otimizadas |
df_optimize
df_optimize (df:pandas.core.frame.DataFrame, datetime_features:Iterable[str]=None, exclude:Iterable[str]=None)
Função que encapsula as anteriores para otimizar os tipos de dados e reduzir o tamanho do arquivo e uso de memória
Type | Default | Details | |
---|---|---|---|
df | DataFrame | DataFrame a ser otimizado | |
datetime_features | Iterable | None | Colunas que serão convertidas para datetime |
exclude | Iterable | None | Colunas que não serão convertidas |
Returns | DataFrame | DataFrame com as colunas com tipos de dados otimizados |
format_types
format_types (df:pandas.core.frame.DataFrame, stem:str=None)
Convert the columns of a dataframe to optimized types
Type | Default | Details | |
---|---|---|---|
df | DataFrame | DataFrame a ser formatado | |
stem | str | None | Identificador do arquivo para otimização específica |
Returns | DataFrame | DataFrame formatado |