OCR são aqueles de reconhecimento óptico de caracteres ou também conhecidos em espanhol como reconhecimento óptico de caracteres. OCR é um software que permite o reconhecimento de texto, produzindo uma imagem dele para transformá-lo em uma sucessão de caracteres e depois salvá-los em um determinado formato que pode ser usado nesses programas de edição de texto. Ou seja, graças a esta nova tecnologia, qualquer tipo de texto ou documento, incluindo ficheiros PDF, papéis digitalizados ou mesmo imagens tiradas de câmaras digitais, podem ser convertidos em dados para poderem ser editados.
Este software funciona da seguinte forma, primeiro analisa cada parte da imagem do documento em questão; distribuir a página em pedaços como tabelas, imagens, blocos de texto entre outros; então, as linhas são distribuídas em palavras para depois se tornarem caracteres; e como os personagens já foram indicados, o software faz a comparação com um grupo de imagens do padrão. Isso avança de acordo com a série de hipóteses sobre o que é cada personagem; e com base nessas hipóteses, analisa as diferentes variantes de quebra de linhas em palavras e palavras em caracteres. E é após um grande número de análises e processamento das hipóteses, que o programa finalmente apresenta o texto já reconhecido e transformado em um novo formato..
É importante destacar que hoje existe uma série de programas que o mercado de informática oferece baseados em OCR como o OmniPage, Abbyy Fine Reader ou READiris. YY que tenham a capacidade, não só de analisar e reconhecer um texto como tal, mas também de reconhecer o formato e estilo, mas com certas limitações, exigindo que o texto, depois de analisado, seja editado para fazer os ajustes que são exigem.