PDFZilla gratuito, por tempo limitado

Já comentei sobre projetos que chegam em PDF. Apesar de não ser muito fã dos “despedefadores” e continuar preferindo o OCR, é sempre bom ter uma opção na manga, para algum caso específico.

O PDFZilla está com uma promoção por tempo limitado: normalmente o preço é de US$ 30,00, mas pode ser instalado gratuitamente até dia 5 de fevereiro próximo.

Basta baixar, instalar e registrar usando o código da promoção: 8061822TWDV6YUK

E quando o texto não chega como texto?

Em um mundo ideal todos os tradutores receberiam para traduzir apenas textos corridos em Word, sem muitas imagens nem formatações complicadas.

Infelizmente, a rotina da maioria de nós é bem diferente: os arquivos chegam nos formatos mais variados, isso quando chegam digitalizados. Muitos projetos ainda chegam às nossas mãos em papel.

E o que fazer nesses casos?

Quando o projeto chega em pdf, existem algumas alternativas para a extração do texto:

– Se o pdf for “editável”, ou seja, o pdf foi gerado diretamente do programa que criou/editou o arquivo (Word, InDesign, PageMaker ou qualquer outro), o texto pode ser extraído com programas de OCR ou outros específicos, como o Solid Converter.

– Se for pdf de imagem (cliente escaneou um texto impresso e gerou o pdf, por exemplo), a única alternativa são os programas de OCR.

Eu, pessoalmente, não gosto de programas como o Solid Converter. Eles costumam extrair bem o texto em formato do Word, mantendo até mesmo a formatação original. Mas a diagramação é feita com caixas de texto, que não são nem um pouco amigáveis com as CAT Tools. Wordfast e Trados não trabalham bem com elas. MemoQ e Déjà Vu às vezes importam, às vezes não.

Tanto para os pdfs editáveis como para os de imagem eu prefiro usar os programas de OCR, normalmente Abby Fine Reader ou ReadIris, e exporto o texto como texto simples, sem formatação. Acho mais fácil redefinir uma formatação simples que ficar brigando com caixas e mais caixas de texto do Word.

Se o texto chegar em papel ou em arquivo de imagem (jpg, bmp, tif ou png, por exemplo), o destino é o mesmo: OCR. No caso do papel, scanner seguido de OCR; no caso das imagens apenas o OCR, lendo diretamente os arquivos.

Depois disso é só usar a CAT de sua preferência.

Às vezes, o cliente pede que o texto traduzido seja entregue também em pdf. Se a formatação for simples, é só imprimir ou salvar em pdf. Já falei sobre isso aqui. No caso de uma formatação complexa, a diagramação pode demorar mais que a tradução – e deve ser cobrada, obviamente.

É preciso atentar para esses detalhes quando combinar o preço total, para não ter prejuízo. Em nosso ramo, tempo é dinheiro.

Mais PDF

Já tinha comentado aqui sobre uma opção para gravar sites como pdf.

A dica de hoje é um add-in para o Office 2007, da própria Microsoft, que inclui uma opção “PDF ou XPS” ao menu “Salvar como” dos aplicativos do pacote. Testei no Word, no Excel e no Power Point, que são os que tenho instalados, e funcionaram muito bem.

Procurei no site da Microsoft, mas infelizmente não achei equivalente para as outras versões do Word.

Conversão em pdf

Os sites da internet costumam ser muito dinâmicos e, muitas vezes, um bom glossário ou texto de referência sai do ar ou muda de endereço depois de algum tempo. Por isso costumo salvar glossários e artigos interessantes quando cruzo com um. Ter o texto no computador facilita até a consulta futura.

Uma boa opção para conversão de páginas da internet em PDF é o HTML-PDF-converter. É só colocar o URL da página que quer converter no campo “Input URL” e clicar em “Make PDF”. Logo surge uma caixa de diálogo para salvar o PDF. Simples, rápido e indolor.

Você pode também clicar em “Our Service Tools” e depois arrastar o link “Save as PDF” para sua barra de favoritos. Assim, quando quiser transformar uma página em pdf só precisa clicar no link da barra de favoritos e a conversão começa.