Como transformar um PDF em um documento do Word formatado de forma limpa usando habilidades simples
Tenho muitas vezes observado que, embora muitos tradutores e gerentes de projeto podem ser usuários qualificados de uma série de ferramentas de software sofisticadas, a eles às vezes faltam algumas habilidades realmente simples no Word. Como por exemplo saber como localizar e substituir guias ou parágrafos e linha de marcadores...
"Mas por que nós precisariamos fazer isso?", eles poderiam perguntar.
Neste post vamos olhar como essas habilidades simples podem ser usadas para resolver alguns problemas difíceis. Com ilustrações, vamos olhar para a forma de soltar um arquivo PDF para o Word (e de lá em uma ferramenta de TM (Ferramentos de Memórias de Tradução), se necessário).
Então - Qual é o problema com arquivos PDF?
Muitos tradutores estão consternados quando descobrem que o texto de origem está no formato PDF - e por boas razões. Obtendo-o em um formato editável ou obtendo-o em uma ferramenta de TM nem sempre é simples. Uma rápida pesquisa no Google irá transformar-se em uma variedade de diferentes "conversores de PDF". Algumas ferramentas de software TM também irá converter PDFs em um formato editável. No entanto, na minha experiência, é muito raro que o texto convertido é sem alguns problemas sujar. Muitos tradutores simplesmente desistem de tentar extrair o texto de PDFs.
Isto é o que você pode fazer:
Se você é capaz de selecionar o texto de um PDF com o mouse, em seguida, você será capaz de copiá-lo e colá-lo diretamente no Word (se não, você deve rapidamente abandonar toda a esperança!). Copiando e colando o texto não irá transferir as propriedades do documento (por exemplo, margens, colunas, etc), mas você vai ter o texto com a maioria de suas propriedades de formatação (fontes, tamanho do texto, negrito e itálico, etc.):
Agora você tem texto editável ... Mas uau! Na ilustração acima, você pode ver que há um marcador de parágrafo no final de cada linha! O texto não quebra corretamente no documento do Word.
Sem esperança?
De modo nenhum! É fácil o suficiente para se livrar dos marcadores de parágrafo (como veremos) usando simples Localizar e substituir . Mas isso faria de todo o documento um enorme parágrafo. Nós precisamos reter uma parte crítica da informação - onde os estão os reais pontos de início e fim!
Nós precisamos nos livrar dos marcadores de parágrafo excedente (mostrados nos círculos vermelhos abaixo) - mas precisamos manter os marcados em azul. Estes marcam o fim dos reais parágrafos.
Existem algumas etapas envolvidas para fazer isso - mas todos elas são muito simples - as únicas habilidades requeridas são saber como Copiar, Colar e utilizar o Localizar e Substituir! Aqui está como fazê-lo:
1. Obter o texto do PDF para o Word
Selecione o texto no PDF. Copie-o e cole-o no Word.
(Alguns cuidados devem ser tomados ao selecionar o texto em um PDF. Você pode achar que o PDF não vai permitir que você selecione números na ordem correta. Pode ser necessário copiar e colar várias secções individuais, um de cada vez, para garantir que você obtenha o texto fluindo na seqüência correta.)
2. Certifique-se de que você tem o botão "Mostrar/Ocultar" do Word mudado para "Mostrar".
Alternando neste botão para "mostrar" exibe marcas do documento formatação (guias, marcas de parágrafo, âncoras de imagem etc.) [1]. Eu tenho notado que muitos tradutores jovens (e alguns mais velhos também) tentam trabalhar no Word com este botão mudado para "Oculto". A desculpa usual é que, vendo as marcas de formatação é esteticamente desagradável ou causa distração. Minha resposta usual é "Deixe isso para lá!" (Eu não costumo ter uma boa reação a esse conselho!) Mas minha opinião é que trabalhando em um documento com as marcas de formatação desligado é como tateando em um quarto escuro - você sem querer vai chocar-se, tropeçar e quebrar as coisas. Já aconteceu de sua formatação inesperadamente dar errado? Talvez você também gosta de manter este botão no modo "Oculto"? No entanto, ser capaz de ver todas as marcas de formatação ajuda a compreender a estrutura do documento e permite que você veja se o autor original não cometeu nenhum erro de formatação tolo. Andar cego para os problemas do cliente pode estragar o seu dia! Tente... Realmente não faz mal!
3. Identificar onde os números reais acabam
Agora, isso requer alguns minutos de trabalho manual - requer bater a tecla [Enter] algumas vezes em cada página do documento para marcar o fim de cada parágrafo. Se você realmente quiser texto editável - vale a pena o pequeno esforço necessário.
Procure o local onde cada parágrafo extremidades, coloque o cursor e depois tecle [Enter] para criar uma linha vazia. Em muitos casos, é evidente a olho onde cada parágrafo deve terminar - mas nem sempre! Portanto, manter um olho sobre o texto original. Leva apenas alguns minutos para fazer isso por um documento de tamanho médio.
Agora você tem marcas de parágrafo duplas (aka "uma linha em branco"), que indicam onde os números são supostamente para acabar:
4. Preserve essas quebras de parágrafo
A tarefa agora é substituir todas as ocorrências de dois marcadores de parágrafo consecutivos com o espaço reservado temporário. Word usa os caracteres ^p para representar um marcador de parágrafo (ou ^p^p para dois deles), então:
Esta é a forma como o documento deve mudar quando as linhas em branco foram substituídas:
Você documento agora deve ver uma bagunça completa e algo parecido com isto (quebras de parágrafo em destaque):
6. Agora restabelecer as quebras de parágrafo
Este é onde a mágica realmente acontece e a bagunça instantaneamente se torna um documento bem formatado. Precisamos agora de se livrar dos "[Pará]" espaços reservados temporários e substituí-los com quebras de parágrafo real.
Se tudo tiver corrido como planejado, então você deve ter um bom documento, limpo, claramente formatado que você pode editar ou importar para sua ferramenta favorita de TM!
pós-escrito
[1] Você pode controlar quais marcas de formatação que você gostaria de ter apresentado quando liga o botão "Mostrar" em Opções do Word | Exibir. Porque os tradutores geralmente trabalham em documentos que outras pessoas tenham criado e formatado, eu recomendo que eles selecione "Mostrar todas as marcas de formatação" para que eles sempre possam ver (e resolver) erros de formatação feitos por outros.
[2] Se você deseja controlar espaçamento de parágrafo com uma linha em branco, então você vai querer usar dois marcadores de parágrafo (ou seja, "^p^p").
"Mas por que nós precisariamos fazer isso?", eles poderiam perguntar.
Neste post vamos olhar como essas habilidades simples podem ser usadas para resolver alguns problemas difíceis. Com ilustrações, vamos olhar para a forma de soltar um arquivo PDF para o Word (e de lá em uma ferramenta de TM (Ferramentos de Memórias de Tradução), se necessário).
Então - Qual é o problema com arquivos PDF?
Muitos tradutores estão consternados quando descobrem que o texto de origem está no formato PDF - e por boas razões. Obtendo-o em um formato editável ou obtendo-o em uma ferramenta de TM nem sempre é simples. Uma rápida pesquisa no Google irá transformar-se em uma variedade de diferentes "conversores de PDF". Algumas ferramentas de software TM também irá converter PDFs em um formato editável. No entanto, na minha experiência, é muito raro que o texto convertido é sem alguns problemas sujar. Muitos tradutores simplesmente desistem de tentar extrair o texto de PDFs.
Se você é capaz de selecionar o texto de um PDF com o mouse, em seguida, você será capaz de copiá-lo e colá-lo diretamente no Word (se não, você deve rapidamente abandonar toda a esperança!). Copiando e colando o texto não irá transferir as propriedades do documento (por exemplo, margens, colunas, etc), mas você vai ter o texto com a maioria de suas propriedades de formatação (fontes, tamanho do texto, negrito e itálico, etc.):
Agora você tem texto editável ... Mas uau! Na ilustração acima, você pode ver que há um marcador de parágrafo no final de cada linha! O texto não quebra corretamente no documento do Word.
Sem esperança?
De modo nenhum! É fácil o suficiente para se livrar dos marcadores de parágrafo (como veremos) usando simples Localizar e substituir . Mas isso faria de todo o documento um enorme parágrafo. Nós precisamos reter uma parte crítica da informação - onde os estão os reais pontos de início e fim!
Nós precisamos nos livrar dos marcadores de parágrafo excedente (mostrados nos círculos vermelhos abaixo) - mas precisamos manter os marcados em azul. Estes marcam o fim dos reais parágrafos.
1. Obter o texto do PDF para o Word
Selecione o texto no PDF. Copie-o e cole-o no Word.
(Alguns cuidados devem ser tomados ao selecionar o texto em um PDF. Você pode achar que o PDF não vai permitir que você selecione números na ordem correta. Pode ser necessário copiar e colar várias secções individuais, um de cada vez, para garantir que você obtenha o texto fluindo na seqüência correta.)
2. Certifique-se de que você tem o botão "Mostrar/Ocultar" do Word mudado para "Mostrar".
Alternando neste botão para "mostrar" exibe marcas do documento formatação (guias, marcas de parágrafo, âncoras de imagem etc.) [1]. Eu tenho notado que muitos tradutores jovens (e alguns mais velhos também) tentam trabalhar no Word com este botão mudado para "Oculto". A desculpa usual é que, vendo as marcas de formatação é esteticamente desagradável ou causa distração. Minha resposta usual é "Deixe isso para lá!" (Eu não costumo ter uma boa reação a esse conselho!) Mas minha opinião é que trabalhando em um documento com as marcas de formatação desligado é como tateando em um quarto escuro - você sem querer vai chocar-se, tropeçar e quebrar as coisas. Já aconteceu de sua formatação inesperadamente dar errado? Talvez você também gosta de manter este botão no modo "Oculto"? No entanto, ser capaz de ver todas as marcas de formatação ajuda a compreender a estrutura do documento e permite que você veja se o autor original não cometeu nenhum erro de formatação tolo. Andar cego para os problemas do cliente pode estragar o seu dia! Tente... Realmente não faz mal!
3. Identificar onde os números reais acabam
Agora, isso requer alguns minutos de trabalho manual - requer bater a tecla [Enter] algumas vezes em cada página do documento para marcar o fim de cada parágrafo. Se você realmente quiser texto editável - vale a pena o pequeno esforço necessário.
Procure o local onde cada parágrafo extremidades, coloque o cursor e depois tecle [Enter] para criar uma linha vazia. Em muitos casos, é evidente a olho onde cada parágrafo deve terminar - mas nem sempre! Portanto, manter um olho sobre o texto original. Leva apenas alguns minutos para fazer isso por um documento de tamanho médio.
Agora você tem marcas de parágrafo duplas (aka "uma linha em branco"), que indicam onde os números são supostamente para acabar:
Nossa tarefa final é para se livrar de todas as marcas de parágrafo excedente no final das linhas. Isto é fácil de fazer - apenas substituí-los com espaços usando Localizar e substituir a função do Word.
Mas!
Se substituirmos todas as marcas de parágrafo com espaços, vamos perder as quebras de parágrafo que acabamos marcados com uma linha em branco! Eles só vai se transformar em dois espaços consecutivos (pode haver muitos outros espaços duplos escondidos no documento também!). Então, precisamos temporariamente marcar as quebras de parágrafo com outra coisa antes de nós pode se livrar dos marcadores desnecessários no final de cada linha. Você pode usar praticamente qualquer sequência de caracteres que você gosta - você só precisa ter certeza de que tudo o que você usa é improvável que ocorra no texto. Você pode gostar de fazer-se algo como "@ # $%" ou algo assim. Eu sempre uso "[para]" como um espaço reservado.
Mas!
Se substituirmos todas as marcas de parágrafo com espaços, vamos perder as quebras de parágrafo que acabamos marcados com uma linha em branco! Eles só vai se transformar em dois espaços consecutivos (pode haver muitos outros espaços duplos escondidos no documento também!). Então, precisamos temporariamente marcar as quebras de parágrafo com outra coisa antes de nós pode se livrar dos marcadores desnecessários no final de cada linha. Você pode usar praticamente qualquer sequência de caracteres que você gosta - você só precisa ter certeza de que tudo o que você usa é improvável que ocorra no texto. Você pode gostar de fazer-se algo como "@ # $%" ou algo assim. Eu sempre uso "[para]" como um espaço reservado.
A tarefa agora é substituir todas as ocorrências de dois marcadores de parágrafo consecutivos com o espaço reservado temporário. Word usa os caracteres ^p para representar um marcador de parágrafo (ou ^p^p para dois deles), então:
- Digite "^p^p" na caixa Localizar; e
- Tipo "[para]" para a caixa Substituir por; então
- Clique em Substituir Tudo:
5. Agora, se livrar de todas as marcas de parágrafo redundantes
Estamos indo agora procurar todos os marcadores de parágrafo extras e substituí-los por espaços. (Olhe para os marcadores de parágrafo - se já existe um espaço na frente deles, então você precisa substituí-los por "nada" - ou seja, você deixar a caixa de Substituir por em branco.)
- Digite ^p na caixa Localizar;
- Coloque o cursor na caixa Substituir por e clique na barra de espaço. (Se você não precisa de espaços, utilize o mouse para selecionar e excluir quaisquer espaços invisíveis que possam estar ocultos lá); então
- Clique em Substituir Tudo:
6. Agora restabelecer as quebras de parágrafo
Este é onde a mágica realmente acontece e a bagunça instantaneamente se torna um documento bem formatado. Precisamos agora de se livrar dos "[Pará]" espaços reservados temporários e substituí-los com quebras de parágrafo real.
- Digite "[para]" para na caixa Localizar;
- Digite "^p" na caixa Substituir por [2];
- Clique em "Substituir Tudo":
pós-escrito
- Não tente fazer isso com tablets (o assunto de um post futuro talvez).
- Se você usar um conversor de PDF-to-Word, em seguida, essas mesmas Localizar e substituir técnicas muitas vezes pode ser usado para corrigir o texto mal convertido.
- Ao invés de passar por todas essas etapas cada tempo, eles podem ser automatizados através da gravação de uma Macro e colocar um botão para fazer o trabalho na barra de ferramentas. Um clique e o trabalho é feito! (Novamente, isto poderia ser o assunto de outro post!)
- Qabiria.com tem um artigo excelente, detalhadas sobre como usar conversores de PDF-to-Word aqui: http://bit.ly/9TqbGH
- Os exemplos neste post foram ilustradas usando o Microsoft Word 2007 e Adobe Reader X.
[1] Você pode controlar quais marcas de formatação que você gostaria de ter apresentado quando liga o botão "Mostrar" em Opções do Word | Exibir. Porque os tradutores geralmente trabalham em documentos que outras pessoas tenham criado e formatado, eu recomendo que eles selecione "Mostrar todas as marcas de formatação" para que eles sempre possam ver (e resolver) erros de formatação feitos por outros.
[2] Se você deseja controlar espaçamento de parágrafo com uma linha em branco, então você vai querer usar dois marcadores de parágrafo (ou seja, "^p^p").
Poste um comentário