Arquivos OCR - Tradução via Val

Nem sempre precisamos (ou temos à mão) um scanner e um programa de OCR para digitalizar um texto impresso. Tenho usado bastante o OneDrive para essas conversões e olha… estou gostando muito. Obviamente não vai funcionar perfeitamente em todo tipo de texto (nenhum programa de OCR funciona, aliás), mas em geral o resultado é mais do que satisfatório, especialmente em texto corrido.

Tenho usado o Office Lens para escanear o texto impresso. Se você tem OneDrive (vem na assinatura do Office 365 e também pode ser assinado separadamente), é só instalar o aplicativo no celular.

Depois de aberto, clique no ícone de diafragma no canto inferior direito para abrir o Lens (conforme imagem acima).

Vou usar como exemplo o livro Explorando Teorias da Tradução, do Anthony Pym, traduzido por Rodrigo Borges de Faveri, Claudia Borges de Faveri e Juliana Steil.

Centralize o texto na tela, de forma a incluir tudo que deseja “escanear”. Quando estiver tudo nos conformes, clique no disparador (o círculo branco na parte inferior da tela).

O programa vai mostrar como ficou a imagem escaneada (acima). Se não gostar, clique no “x” no canto superior esquerdo. Se a imagem estiver a contento, clique no tique azul (se quiser escanear uma página só) ou no “+” (se pretender escanear várias páginas).

A partir da segunda página, clique na lixeira do alto da tela se não estiver contente com uma imagem.

Quando clicar no tique azul, depois de terminar de escanear tudo, vai aparecer a tela acima para definir o nome do arquivo e para que pasta ele vai ser mandado no OneDrive. Toque nos campos para fazer as alterações necessárias ao nome do arquivo ou à pasta de destino.

A partir daqui, o processo vai continuar no computador (não consegui fazer funcionar pelo celular). Obviamente é preciso uma conexão à internet (4G ou Wi-Fi) para que os arquivos sejam enviados para o OneDrive.

Localize a pasta e o arquivo enviados do celular. Clique no arquivo que deseja abrir.

Observação importante: o OneDrive NÃO faz uma cópia do arquivo. Se quiser manter o PDF, faça uma cópia dele antes do OCR.

Clique em “Abrir”, no canto superior esquerdo.

Clique no botão azul “Editar no Word”.

Vai aparecer a mensagem acima. Clique em “Converter”. Lembrando de novo: apesar de a mensagem dizer que vai fazer uma cópia, NÃO VAI.

A conversão pode levar um pouco mais ou um pouco menos de tempo, dependendo do tamanho do arquivo, mas não costuma demorar. Quando terminar, aparecerá a mensagem acima. Para ver o texto convertido no Word, clique em “Editar”.

O texto aparecerá num documento do Word online, pronto para ser “manuseado” (editado, importado na sua CAT tool de preferência, etc). Provavelmente não ficará 100% perfeito (quase nenhum OCR fica), mas a qualidade, na maioria dos casos, é bem boa. No caso desse teste, logo acima da quebra de seção há um trecho com alguns errinhos, mas nada sério.

Como eu disse lá no começo, este método funciona melhor com texto corrido. Sempre que há muita formatação envolvida o OCR fica mais complicado. Mas para livros, handouts de cursos e materiais parecidos, é uma mão na roda.
E uma observação final: mesmo antes do OCR, os PDFs gerados pelo Office Lens são pesquisáveis. Ou seja, você também pode usar o aplicativo para escanear textos de referência que não precisam ser convertidos para o Word, mas quer deixar guardados para consulta posterior. Quando quiser, é só abrir no visualizador de PDF e fazer a busca por palavra como em qualquer outro arquivo (usando Ctrl + F no Windows, Cmd + F no Mac).

Tag: OCR

OCR online com Office Lens e OneDrive