Alunos Julia Azevedo Valim De Lira Postado Julho 9 Alunos Compartilhar Postado Julho 9 Olá, bom dia! Estou enfrentando problemas para exibir o dataframe partidas_df na lição 2 do módulo 5 do curso. O código mostrado na aula é o abaixo, porém, quando vou exibir o dataframe, aparece desconfigurado como se estivesse com o encoding errado. nome_arquivo = 'partidas' caminho = f'{camada_silver}/{nome_arquivo}' partidas_df = spark.read.parquet(caminho) Acredito que isso ocorre por conta de os arquivos, em uma etapa anterior, terem sido divididos por ano do torneio, então, seria necessário mais alguma informação para que o spark lesse os arquivos. partidas_df_data.write.mode("overwrite").partitionBy('ano_torneio').parquet(f"{camada_silver}/partidas/") Alguém, por gentileza, poderia me auxiliar? Como coloco no código para ele ler de forma dinâmica o conteúdo de cada pasta dentro da pasta "partidas"? Link para o comentário Compartilhar em outros sites More sharing options...
0 Alunos Rafael Pereira Postado Setembro 3 Alunos Compartilhar Postado Setembro 3 Em 09/07/2024 em 09:10, Julia Azevedo Valim De Lira disse: Olá, bom dia! Estou enfrentando problemas para exibir o dataframe partidas_df na lição 2 do módulo 5 do curso. O código mostrado na aula é o abaixo, porém, quando vou exibir o dataframe, aparece desconfigurado como se estivesse com o encoding errado. nome_arquivo = 'partidas' caminho = f'{camada_silver}/{nome_arquivo}' partidas_df = spark.read.parquet(caminho) Acredito que isso ocorre por conta de os arquivos, em uma etapa anterior, terem sido divididos por ano do torneio, então, seria necessário mais alguma informação para que o spark lesse os arquivos. partidas_df_data.write.mode("overwrite").partitionBy('ano_torneio').parquet(f"{camada_silver}/partidas/") Alguém, por gentileza, poderia me auxiliar? Como coloco no código para ele ler de forma dinâmica o conteúdo de cada pasta dentro da pasta "partidas"? Olá @Julia Azevedo Valim De Lira, tudo bem? Aqui está uma sugestão do que você pode fazer: * Defina o Caminho Base: Antes de ler os arquivos particionados, defina o caminho base onde estão localizadas todas as pastas de ano do torneio. Isso será usado como base para a leitura dos arquivos. * Leitura dos Arquivos Particionados: Use a função spark.read.option("basePath", caminho_base).parquet(caminho) para ler os arquivos particionados. Certifique-se de que o caminho caminho inclua o nome da pasta “partidas” e os placeholders para os anos do torneio (por exemplo, {ano_torneio}). Aqui está um exemplo de como adaptar seu código: # Defina o caminho base onde estão as pastas de ano do torneio caminho_base = f'{camada_silver}/partidas' # Leia os arquivos particionados partidas_df = spark.read.option("basePath", caminho_base).parquet(caminho) Espero ter ajudado! Abraço. Link para o comentário Compartilhar em outros sites More sharing options...
Pergunta
Julia Azevedo Valim De Lira
Olá, bom dia!
Estou enfrentando problemas para exibir o dataframe partidas_df na lição 2 do módulo 5 do curso.
O código mostrado na aula é o abaixo, porém, quando vou exibir o dataframe, aparece desconfigurado como se estivesse com o encoding errado.
Acredito que isso ocorre por conta de os arquivos, em uma etapa anterior, terem sido divididos por ano do torneio, então, seria necessário mais alguma informação para que o spark lesse os arquivos.
Alguém, por gentileza, poderia me auxiliar? Como coloco no código para ele ler de forma dinâmica o conteúdo de cada pasta dentro da pasta "partidas"?
Link para o comentário
Compartilhar em outros sites
1 resposta a esta questão
Posts Recomendados
Faça login para comentar
Você vai ser capaz de deixar um comentário após fazer o login
Entrar Agora