Reconnaissance optique de caractères (OCR) se réfère à une technologie logicielle et les processus qui impliquent la traduction du texte imprimé en texte consultable d'ordinateur.
Fait correctement, OCR permet aux utilisateurs de rechercher et d'extraire des mots contenus dans un fichier ou une page. En outre, lorsqu'un ensemble de fichiers est indexé, les utilisateurs sont capables de rechercher des mots clés dans une bibliothèque de document tout entier et extraire chaque page avec une exacte précision. OCR permet aux utilisateurs d'effectuer des recherches en quelques secondes, des recherches qui une fois peuvent prendre plusieurs heures ou jours.
Cependant, cette technologie n'a pas travaillé sur des documents anciens ou de mauvaise qualité qui contient des polices mixtes ou combinaisons de textes et de graphiques. Jusqu'à maintenant!!
En raison de plusieurs avancées récentes de la technologie, il est maintenant possible d'obtenir une précision de six-sigma niveau caractère de ces types de collections de documents.
Bien qu'il est important de garder à l'esprit que la qualité et l'état des documents papier sont toujours déterminants dans la succès de conversion ROC, on trouvera considérablement améliorer les résultats en améliorant la qualité de l'image numérisée avant traitement.
Suppression du bruit des frontières, des mouchetures et des inclinaisons sont maintenant communs sur les scanners de documents plus avancés.
En outre, filtre couleur avancé technologies peuvent servir à réduire toute couleurs de fond de page, en conjonction avec les technologies de capture image multi-light pour supprimer toute ombre par plis page qui pourraient influer sur la précision de qualité ou de la reconnaissance des images.
Une fois la numérisation et de traitement est complet, un calque de texte OCR peut réellement être ajouté et caché derrière chaque image. Un filtre supplémentaire d'orientation peut servir à s'assurer que la meilleure image est présentée pour les moteurs de l'OCR.
Pour atteindre la précision de conversion plus élevée possible, que les caractères de l'image peuvent être traitées à l'aide de multimoteur OCR vote technologies ce grade chaque caractère afin de déterminer la meilleure reconnaissance de texte correspond. Puis une fois qu'un mot est généré, elle est filtré à travers un lexique exclusif pour assurer des résultats de qualité plus élevés.
Enfin, ce texte peut être traité pour des technologies de conservation mise en page sophistiquée pour représenter la mise en page du texte image, de fournir la meilleure représentation possible pour la récupération et la recherche précise. Après tout, pas que pourquoi ils l'appellent la reconnaissance optique de caractère ?
No comments:
Post a Comment