Transcrição digital/Exemplo-01

Abaixo exemplo de processo partindo de OCR com conversão para HTML (preserva itálicos e bolds) ou TXT (texto bruto).

A seguir o documento original de ok.org.br/estatuto foi submetido a OCR e depois corrigido em ambiente Mediawiki.

Etapa 1 - Correções ortográficas do OCR e formatação estrutural

editar

O texto bruto (TXT) obtido de OCR tem apenas estrutura de parágrafo, de modo que a primeira correção é mesclar ou separar linhs de um mesmo parágrafo. Em alguns casos uma linha pode não ser um parágrafo, mas o título dado a um conjunto de parágrafos, tal como seção ou subseção.

Ao mesmo os erros de reconhecimento de caractere — acentos errados ou falta deles, caracteres não-textuais reconhecidos como textuais (ex. bulltes), etc. — ....

 
Exemplo-1.1

No Exemplo-1.1 um título de seção obtido da mesclagem de partes que estavam distribuidas por mais de uma linha. Repare que uma convenção de titulo de seção (toda na mesma linha) foi paralelamente adotado, basta que a marcação seja consistência com esse padrão.

 
Exemplo 1.1b

No Exemplo-1.1b percebem-se mais falhas típicas de OCR.

 
Exemplo 1.2

Novamente, mais falhas típicas de OCR.

 
Exemplo 1.3

Repare que alguns erros são corrigidos com corretor ortográfico, mas há que se manter fiel à grafia original, que pode não corresponder à vigente.

Etapa 2 - Inclusão da subestrutura

editar

Inclusão dos recuos e outras formas de formatação.

 
Exemplo 2.1
editar

Pode-se tirar proveito da participação humana, incluindo um breve processo de marcação semântica. Entidades nomeadas podem ser destacadas. Links externos e interlink do próprio documento também pode ser incluso.

 
Exemplo 3.1. Marcação dos intralinks.
 
Exemplo 3.2. Marcação semântica e links externos.

Em geral esse processo pode ser automatizado ou semi-automatizado, pedindo-se ao assistente humano apenas para homologar casos ambíguos.

Visualização do texto marcado

editar

... exemplos de resultado ...

 
7
 
8