Ir para conteúdo
  • 0

Dataframe não é exibido corretamente [Curso Databricks com Spark da Xperiun- Aula 2, Módulo 5]


Julia Azevedo Valim De Lira

Pergunta

  • Alunos

Olá, bom dia!

 

Estou enfrentando problemas para exibir o dataframe partidas_df na lição 2 do módulo 5 do curso.

O código mostrado na aula é o abaixo, porém, quando vou exibir o dataframe, aparece desconfigurado como se estivesse com o encoding errado.

 

nome_arquivo = 'partidas'
caminho = f'{camada_silver}/{nome_arquivo}'
partidas_df = spark.read.parquet(caminho)

 

Acredito que isso ocorre por conta de os arquivos, em uma etapa anterior, terem sido divididos por ano do torneio, então, seria necessário mais alguma informação para que o spark lesse os arquivos.

partidas_df_data.write.mode("overwrite").partitionBy('ano_torneio').parquet(f"{camada_silver}/partidas/")

Alguém, por gentileza, poderia me auxiliar? Como coloco no código para ele ler de forma dinâmica o conteúdo de cada pasta dentro da pasta "partidas"?

 

image.png.c09845e49276d6f291bdc13262305b40.pngimage.png.5a8319514a9d813f335b0ec5e90f1128.png

Link para o comentário
Compartilhar em outros sites

1 resposta a esta questão

Posts Recomendados

  • 0
  • Alunos
Em 09/07/2024 em 09:10, Julia Azevedo Valim De Lira disse:

Olá, bom dia!

 

Estou enfrentando problemas para exibir o dataframe partidas_df na lição 2 do módulo 5 do curso.

O código mostrado na aula é o abaixo, porém, quando vou exibir o dataframe, aparece desconfigurado como se estivesse com o encoding errado.

 

nome_arquivo = 'partidas'
caminho = f'{camada_silver}/{nome_arquivo}'
partidas_df = spark.read.parquet(caminho)

 

Acredito que isso ocorre por conta de os arquivos, em uma etapa anterior, terem sido divididos por ano do torneio, então, seria necessário mais alguma informação para que o spark lesse os arquivos.

partidas_df_data.write.mode("overwrite").partitionBy('ano_torneio').parquet(f"{camada_silver}/partidas/")

Alguém, por gentileza, poderia me auxiliar? Como coloco no código para ele ler de forma dinâmica o conteúdo de cada pasta dentro da pasta "partidas"?

 

image.png.c09845e49276d6f291bdc13262305b40.pngimage.png.5a8319514a9d813f335b0ec5e90f1128.png

Olá @Julia Azevedo Valim De Lira, tudo bem?

Aqui está uma sugestão do que você pode fazer:

* Defina o Caminho Base:
Antes de ler os arquivos particionados, defina o caminho base onde estão localizadas todas as pastas de ano do torneio. Isso será usado como base para a leitura dos arquivos.

* Leitura dos Arquivos Particionados:
Use a função spark.read.option("basePath", caminho_base).parquet(caminho) para ler os arquivos particionados.
Certifique-se de que o caminho caminho inclua o nome da pasta “partidas” e os placeholders para os anos do torneio (por exemplo, {ano_torneio}).

Aqui está um exemplo de como adaptar seu código:

# Defina o caminho base onde estão as pastas de ano do torneio
caminho_base = f'{camada_silver}/partidas'

# Leia os arquivos particionados
partidas_df = spark.read.option("basePath", caminho_base).parquet(caminho)

Espero ter ajudado!

Abraço.

Link para o comentário
Compartilhar em outros sites

Faça login para comentar

Você vai ser capaz de deixar um comentário após fazer o login



Entrar Agora
×
×
  • Criar Novo...