31 de agosto de 200931 de maio de 2012 por Val Ivonica

E quando o texto não chega como texto?

Em um mundo ideal todos os tradutores receberiam para traduzir apenas textos corridos em Word, sem muitas imagens nem formatações complicadas.

Infelizmente, a rotina da maioria de nós é bem diferente: os arquivos chegam nos formatos mais variados, isso quando chegam digitalizados. Muitos projetos ainda chegam às nossas mãos em papel.

E o que fazer nesses casos?

Quando o projeto chega em pdf, existem algumas alternativas para a extração do texto:

– Se o pdf for “editável”, ou seja, o pdf foi gerado diretamente do programa que criou/editou o arquivo (Word, InDesign, PageMaker ou qualquer outro), o texto pode ser extraído com programas de OCR ou outros específicos, como o Solid Converter.

– Se for pdf de imagem (cliente escaneou um texto impresso e gerou o pdf, por exemplo), a única alternativa são os programas de OCR.

Eu, pessoalmente, não gosto de programas como o Solid Converter. Eles costumam extrair bem o texto em formato do Word, mantendo até mesmo a formatação original. Mas a diagramação é feita com caixas de texto, que não são nem um pouco amigáveis com as CAT Tools. Wordfast e Trados não trabalham bem com elas. MemoQ e Déjà Vu às vezes importam, às vezes não.

Tanto para os pdfs editáveis como para os de imagem eu prefiro usar os programas de OCR, normalmente Abby Fine Reader ou ReadIris, e exporto o texto como texto simples, sem formatação. Acho mais fácil redefinir uma formatação simples que ficar brigando com caixas e mais caixas de texto do Word.

Se o texto chegar em papel ou em arquivo de imagem (jpg, bmp, tif ou png, por exemplo), o destino é o mesmo: OCR. No caso do papel, scanner seguido de OCR; no caso das imagens apenas o OCR, lendo diretamente os arquivos.

Depois disso é só usar a CAT de sua preferência.

Às vezes, o cliente pede que o texto traduzido seja entregue também em pdf. Se a formatação for simples, é só imprimir ou salvar em pdf. Já falei sobre isso aqui. No caso de uma formatação complexa, a diagramação pode demorar mais que a tradução – e deve ser cobrada, obviamente.

É preciso atentar para esses detalhes quando combinar o preço total, para não ter prejuízo. Em nosso ramo, tempo é dinheiro.

5 respostas para “E quando o texto não chega como texto?”

Pingback: PDFZilla gratuito, por tempo limitado | Tradução via Val
Pingback: Programas indicados na Confência do Proz | Tradução via Val
Bete disse:

13 de setembro de 2009 às 16:50 hrs.

Val, pior é quando você recebe um projeto que tem de tudo: PDF editável, de imagem e ainda páginas e mais páginas de tabelas em papel. E o cliente quer o resultado dos PDFs em qualidade para impressão. Já prevendo dor de cabeça pela frente, achei que seria melhor passar essa parte para alguém que entende mais do assunto do que eu e cobrar do cliente uma taxa adicional pelo serviço de DTP. Fiz a proposta e ele topou.

Como o Fábio aí já disse, esse cliente obviamente ganhou uma velinha no meu altar da Santa Clientela 🙂

Responda
William Cassemiro disse:

08 de setembro de 2009 às 01:16 hrs.

Oi Val;
Realmente PDFs são mais trabalhosos, principalmente os que são imagens, se tiver manuscrito no meio então, Deus nos livre. Agora, quanto aos PDFs protegidos por senha, que normalmente meu cliente não possui, sei lá eu qual o motivo do criador do arquivo não ter fornecido a ele… acabei por descobrir uma forma muito simples de resolver o problema: se você tem instalado um driver pdf, e normalmente nós temos, já que é uma boa forma de gerar o arquivo pdf para clientes que pedem a entrega neste formato, basta que você mande imprimir o arquivo protegido e selecione a impressora "PDF". o arquivo gerado será idêntico em formatação ao protegido, porém sem a proteção da senha. Muito melhor e mais rápido que alguns programas para eliminar as senhas. Espero ter contribuído para diminuir nosso martírio "pê-dê-éfico". Abraços.

Responda
Fabio disse:

01 de setembro de 2009 às 07:38 hrs.

Val, PDF quase sempre dá para resolver, mas às vezes aparecem casos mais cabeludos.

Outro dia me chegou um projeto com vários arquivos Word e um PDF protegido. PDF protegido, como se sabe, não dá para ser reconhecido por um programa de OCR. A solução foi dar uma de hacker baixando na internet um software que derruba certas barreiras de proteção (mas não todas!) de arquivos PDF. Programa que, aliás, por ser gratuito, tem suas limitações, exigindo malabarismos para driblar essas limitações. Depois, tendo um arquivo não-protegido, é só passar um OCR. Depois do OCR, claro, tem a etapa de editar o arquivo Word resultante. Uso o Abbyy Fine Reader, que apesar de ótimo, não é perfeito. Devo ter passado uns 15 minutos nisso tudo (o arquivo tinha apenas 2 páginas), inclusive o tempo para deixar o arquivo Word com visual igual ao do PDF original.

Mas o melhor dessa história é que o próprio cliente se ofereceu para pagar mais pelo serviço extra, antes do início do projeto, sugerindo que eu deveria ser pago pela quantidade de texto da tradução, não do original. Achei justo e aceitei. Cliente assim a gente tem de respeitar e incluir em nossas orações diárias ao pé da cama :-))

Responda

Deixe um comentário Cancelar resposta

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.