Alunos Ezequiel Pedreira Postado Janeiro 28 Alunos Compartilhar Postado Janeiro 28 Fala meus amigos! Seguinte, tenho um arquivo PDF, com perguntas e respostas, porém quando faço o import dos dados, ele vem fora da estrutura e algumas respostas vem mescladas na linha, gostaria de deixar com três colunas: Coluna 1: Número da questão Coluna 2: Pergunta Coluna 3: Resposta Segue arquivo de teste em anexo. Teste.pdf Link para o comentário Compartilhar em outros sites More sharing options...
0 Alunos Solução Joao Raulino Postado Janeiro 28 Alunos Solução Compartilhar Postado Janeiro 28 Suave @Ezequiel Pedreira? O Power Query não é muito otimizado para ler PDFs já que ele tenta sempre buscar por tabelas e qualquer quebra de linha pode gerar confusão nesse processo: https://learn.microsoft.com/en-us/powerquery-m/pdf-tables https://learn.microsoft.com/en-us/power-query/connectors/pdf?source=recommendations A melhor solução seria primeiro fazer o tratamento do PDF para texto usando alguma ferramenta ou script externo (e.g.: Python, VBA, conversor online) e logo depois importar o resultado já em texto no Power Query. Uma vez importado no Power Query, bastaria manipular os dados conforme necessário para ter a informação no formato que você quer (i.e.: 3 colunas). Fiz um teste aqui usando um conversor online PDF>TXT (https://www.pdf2go.com/pdf-to-text) e algumas manipulações no Power Query e já deu uma boa base: Citar let Source = File.Contents(output.txt) #"Filtered Nulls #Input" = Table.SelectRows(Source, each ([Input] <> "" and [Input] <> "#(000C)")), #"Trimmed Text #Input" = Table.TransformColumns(#"Filtered Nulls #Input",{{"Input", Text.Trim, type text}}), #"Added #Numero" = Table.AddColumn(#"Trimmed Text #Input", "Numero", each try Number.From(Text.BeforeDelimiter([Input], ".")) otherwise null, type number), #"Added #Pergunta" = Table.AddColumn(#"Added #Numero", "Pergunta", each if [Numero] <> null then Text.AfterDelimiter([Input], ". ") else null, type text), #"Added #Resposta" = Table.AddColumn(#"Added #Pergunta", "Resposta", each if [Numero] is null then Text.Trim([Input]) else null, type text), #"Filled Down" = Table.FillDown(#"Added #Resposta",{"Numero", "Pergunta"}), #"Filtered Nulls #Resposta" = Table.SelectRows(#"Filled Down", each ([Resposta] <> null)) in #"Filtered Nulls #Resposta" Note que algumas resposta ficaram divididas em duas linhas. Essas quebras são facilmente identificáveis através do segundo caráter (= ".") então você pode criar alguma regra para tratar essas linhas de acordo com o que você quer como resultado (e.g.: mesclar com a linha de cima, remover da tabela...). Espero que esses insights te ajudem a avançar no problema 😉 Abs! 1 Link para o comentário Compartilhar em outros sites More sharing options...
0 Alunos Ezequiel Pedreira Postado Janeiro 29 Autor Alunos Compartilhar Postado Janeiro 29 Em 28/01/2024 em 08:37, Joao Raulino disse: Suave @Ezequiel Pedreira? O Power Query não é muito otimizado para ler PDFs já que ele tenta sempre buscar por tabelas e qualquer quebra de linha pode gerar confusão nesse processo: https://learn.microsoft.com/en-us/powerquery-m/pdf-tables https://learn.microsoft.com/en-us/power-query/connectors/pdf?source=recommendations A melhor solução seria primeiro fazer o tratamento do PDF para texto usando alguma ferramenta ou script externo (e.g.: Python, VBA, conversor online) e logo depois importar o resultado já em texto no Power Query. Uma vez importado no Power Query, bastaria manipular os dados conforme necessário para ter a informação no formato que você quer (i.e.: 3 colunas). Fiz um teste aqui usando um conversor online PDF>TXT (https://www.pdf2go.com/pdf-to-text) e algumas manipulações no Power Query e já deu uma boa base: Note que algumas resposta ficaram divididas em duas linhas. Essas quebras são facilmente identificáveis através do segundo caráter (= ".") então você pode criar alguma regra para tratar essas linhas de acordo com o que você quer como resultado (e.g.: mesclar com a linha de cima, remover da tabela...). Espero que esses insights te ajudem a avançar no problema 😉 Abs! Opa, vou tentar nessa linha, em breve volto pra dizer se deu certo! 1 Link para o comentário Compartilhar em outros sites More sharing options...
0 Alunos Ezequiel Pedreira Postado Fevereiro 1 Autor Alunos Compartilhar Postado Fevereiro 1 Em 28/01/2024 em 08:37, Joao Raulino disse: Suave @Ezequiel Pedreira? O Power Query não é muito otimizado para ler PDFs já que ele tenta sempre buscar por tabelas e qualquer quebra de linha pode gerar confusão nesse processo: https://learn.microsoft.com/en-us/powerquery-m/pdf-tables https://learn.microsoft.com/en-us/power-query/connectors/pdf?source=recommendations A melhor solução seria primeiro fazer o tratamento do PDF para texto usando alguma ferramenta ou script externo (e.g.: Python, VBA, conversor online) e logo depois importar o resultado já em texto no Power Query. Uma vez importado no Power Query, bastaria manipular os dados conforme necessário para ter a informação no formato que você quer (i.e.: 3 colunas). Fiz um teste aqui usando um conversor online PDF>TXT (https://www.pdf2go.com/pdf-to-text) e algumas manipulações no Power Query e já deu uma boa base: Note que algumas resposta ficaram divididas em duas linhas. Essas quebras são facilmente identificáveis através do segundo caráter (= ".") então você pode criar alguma regra para tratar essas linhas de acordo com o que você quer como resultado (e.g.: mesclar com a linha de cima, remover da tabela...). Espero que esses insights te ajudem a avançar no problema 😉 Abs! Fala mano @Joao Raulino, realmente o power query para leituras de arquivos PDF não é tão bom, gostei da idéia de conversão em texto, fiz as conversões nos meus modelos e está dando muito certo, valeu pela contribuição irmão! Tmj 👊👊 1 Link para o comentário Compartilhar em outros sites More sharing options...
0 Alunos Joao Raulino Postado Fevereiro 1 Alunos Compartilhar Postado Fevereiro 1 Boa @Ezequiel Pedreira! Batendo as 100 soluções com chave de ouro 💪🙂 1 Link para o comentário Compartilhar em outros sites More sharing options...
0 Alunos Ezequiel Pedreira Postado Fevereiro 1 Autor Alunos Compartilhar Postado Fevereiro 1 12 minutos atrás, Joao Raulino disse: Boa @Ezequiel Pedreira! Batendo as 100 soluções com chave de ouro 💪🙂 Fora da curva! Bora em busca das 200⌛🚀 Link para o comentário Compartilhar em outros sites More sharing options...
Pergunta
Ezequiel Pedreira
Fala meus amigos!
Seguinte, tenho um arquivo PDF, com perguntas e respostas, porém quando faço o import dos dados, ele vem fora da estrutura e algumas respostas vem mescladas na linha, gostaria de deixar com três colunas:
Segue arquivo de teste em anexo.
Teste.pdf
Link para o comentário
Compartilhar em outros sites
5 respostass a esta questão
Posts Recomendados
Faça login para comentar
Você vai ser capaz de deixar um comentário após fazer o login
Entrar Agora