Dataframe não é exibido corretamente [Curso Databricks com Spark da Xperiun- Aula 2, Módulo 5]

Julia Azevedo Valim De Lira · Julho 9

Olá, bom dia!

Estou enfrentando problemas para exibir o dataframe partidas_df na lição 2 do módulo 5 do curso.

O código mostrado na aula é o abaixo, porém, quando vou exibir o dataframe, aparece desconfigurado como se estivesse com o encoding errado.

nome_arquivo = 'partidas'
caminho = f'{camada_silver}/{nome_arquivo}'
partidas_df = spark.read.parquet(caminho)

Acredito que isso ocorre por conta de os arquivos, em uma etapa anterior, terem sido divididos por ano do torneio, então, seria necessário mais alguma informação para que o spark lesse os arquivos.

partidas_df_data.write.mode("overwrite").partitionBy('ano_torneio').parquet(f"{camada_silver}/partidas/")

Alguém, por gentileza, poderia me auxiliar? Como coloco no código para ele ler de forma dinâmica o conteúdo de cada pasta dentro da pasta "partidas"?

Rafael Pereira · Setembro 3

Em 09/07/2024 em 09:10, Julia Azevedo Valim De Lira disse:
Olá, bom dia!

Estou enfrentando problemas para exibir o dataframe partidas_df na lição 2 do módulo 5 do curso.

O código mostrado na aula é o abaixo, porém, quando vou exibir o dataframe, aparece desconfigurado como se estivesse com o encoding errado.
nome_arquivo = 'partidas'
caminho = f'{camada_silver}/{nome_arquivo}'
partidas_df = spark.read.parquet(caminho)
Acredito que isso ocorre por conta de os arquivos, em uma etapa anterior, terem sido divididos por ano do torneio, então, seria necessário mais alguma informação para que o spark lesse os arquivos.
partidas_df_data.write.mode("overwrite").partitionBy('ano_torneio').parquet(f"{camada_silver}/partidas/")
Alguém, por gentileza, poderia me auxiliar? Como coloco no código para ele ler de forma dinâmica o conteúdo de cada pasta dentro da pasta "partidas"?

Olá @Julia Azevedo Valim De Lira, tudo bem?

Aqui está uma sugestão do que você pode fazer:

* Defina o Caminho Base:
Antes de ler os arquivos particionados, defina o caminho base onde estão localizadas todas as pastas de ano do torneio. Isso será usado como base para a leitura dos arquivos.

* Leitura dos Arquivos Particionados:
Use a função spark.read.option("basePath", caminho_base).parquet(caminho) para ler os arquivos particionados.
Certifique-se de que o caminho caminho inclua o nome da pasta “partidas” e os placeholders para os anos do torneio (por exemplo, {ano_torneio}).

Aqui está um exemplo de como adaptar seu código:

# Defina o caminho base onde estão as pastas de ano do torneio
caminho_base = f'{camada_silver}/partidas'

# Leia os arquivos particionados
partidas_df = spark.read.option("basePath", caminho_base).parquet(caminho)

Espero ter ajudado!

Abraço.

Entrar

Dataframe não é exibido corretamente [Curso Databricks com Spark da Xperiun- Aula 2, Módulo 5]

Pergunta

Julia Azevedo Valim De Lira

Link para o comentário

Compartilhar em outros sites

1 resposta a esta questão

Posts Recomendados

Rafael Pereira

Link para o comentário

Compartilhar em outros sites

Faça login para comentar