Sigueme en Facebook Sigueme en Twitter Sigueme en Instagram Sigueme en Youtube
JC Mouse Bolivia
Index / Desarrollo Web / Extraer texto de imágenes

Extraer texto de imágenes

Autor jc mouse jueves, agosto 8, 2019

imgclip es una pequeña herramienta de línea de comandos el cual se ejecuta desde la terminal para Mac, Windows y Linux. Imgclip usa la biblioteca Tesseract.js (esta biblioteca admite más de 100 idiomas, orientación automática de texto y detección de guiones, una interfaz simple para leer cuadros delimitadores de párrafos, palabras y caracteres) para automatizar el procesamiento de imágenes y extraer texto a través de OCR (Reconocimiento Óptico de Caracteres). Tesseract es una de las bibliotecas de OCR más potentes hasta la fecha, y es de código abierto como imgclip.

INSTALACIÓN

Se puede instalar desde npm de la siguiente forma:

npm install -g imgclip

Importante: Solo es compatible con Node v6.8.0 +

USO

Usage: imgclip PATH [options]

Options:

-h, --help             output usage information
-V, --version          output the version number
-l, --lang [language]  language of the text in the image.
-c, --clean-up         removes the generated language data file (.traineddata) after the image recognition job has finished
-p, --print            prints out the text in the image.

Simplemente toma un argumento para el archivo de imagen junto con el idioma (opcional), luego devuelve el texto copiado en el portapapeles.

Por ejemplo, utilizamos una imagen en formato JPG con un texto sencillo, «JC MOUSE», utilizamos imgclip desde linea de comandos junto al parámetro «-p» para imprimir en pantalla el resultado. Obtenemos:

imagen a texto javascript

El texto extraído es el correcto, ademas notemos que se crea un archivo «eng»con extensión *.traineddata el cual corresponde al lenguaje utilizado para el reconocimiento de caracteres, por defecto el ingles. Puedes ver la lista completa de idiomas en Tesseract Languages.

Otro ejemplo:

Compliquemos algo más las cosas y utilicemos una imagen con mucho más texto y una imagen de fondo, es decir:

reconocimiento de texto

Utilizamos ahora el comando «-l spa» para utilizar el lenguaje español, también los comandos «-pc» para imprimir el resultado en pantalla y eliminar el archivo *.traineddata una vez termine el proceso.

Tenemos más de un 90% de efectividad lo que es algo bueno tomando en cuenta el tamaño y simplicidad de esta herramienta.

enjoy!

Tags

Si te ha gustado podrías compartirlo o dejar un comentario. ¡Muchas gracias!
Autor: JC Mouse

Yo soy yo :) JC Mouse, Soy orgullosamente boliviano soy fundador y CEO de la web jc-Mouse.net uno de las pocas web en emprendimiento y tecnología en Bolivia.

Toda la información que encuentres en este sitio es y sera completamente gratis siempre, puedes copiar, descargar y re-publicar si así lo deseas en otros blogs o sitios web, solo te pido a cambio que dejes una referencia a esta web. Esto nos ayuda a crecer y seguir aportando. Bye

Enjoy! :)

También Te Podría Interesar

Google+ se cierra ¿Que no habían cerrado ya ese antro?

Google+ se cierra ¿Que no habían cerrado ya ese antro?

Google+ o Google plus como también se le conoce a la red social del gigante de la informática Google cerrará para siempr...

Mapas con HTML5 – Funciones de pintado – Parte 5

Mapas con HTML5 – Funciones de pintado – Parte 5

En esta penúltima parte, declaramos las funciones que nos permitirán pintar los shapes en el canvas, vamos al grano que...

Elimina el fondo de tus fotografías en 5 segundos

Elimina el fondo de tus fotografías en 5 segundos

Si te gusta realizar tus propios memes o foto montajes pero tienes poca o nula experiencia en editores gráficos como Pho...

¿Quieres llorar? conoce que es y como protegerse de WannaCry

¿Quieres llorar? conoce que es y como protegerse de WannaCry

Este 12 de Mayo de 2017 se produjo un ataque masivo mundial del ransomware WannaCry  el  que afecto a más de 200000 comp...

NASA y REST API para programadores

NASA y REST API para programadores

La NASA (Administración Nacional de la Aeronáutica y del Espacio) pone en linea Image and Video Library un nuevo Catalog...

Crea un TextBox estilo Metro para java

Crea un TextBox estilo Metro para java

En este tutorial personalizaremos un JTextField java para darle la apariencia de un TextBox de Windows Metro. El TextBox...

Comparte lo que sabes

Categorias

Últimas entradas

Zoom es un software de videollamadas y reuniones virtuales, accesible desde computadoras de escritorio, computadoras por...

Messenger Rooms es la nueva opción de videoconferencias de Facebook que permite realizar videollamadas con hasta 50 pers...

En este post te enseñamos a utilizar SCRCPY, esta es un aplicación de duplicación de pantalla gratuita y de código abier...

El confinamiento causado por el covid-19, son una gran oportunidad para realizar varias actividades en casa y desde casa...

Herramientas

Generador de Enlaces a Whatsapp