reCAPTCHA – palabras inentendibles?

Comment

Informática

Quién no tuvo que resolver un captcha completando algún formulario. Es el método más seguro para mantener a los bot lejos de los formularios, y poder recoger con éstos información cargada por humanos. Son letras y números que están distorsionados o aparecen borroneados, y que hay que interpretar completando la casilla correspondiente.

reCaptchaHe leído muchas quejas sobre éste método, más que nada, por el hecho de que algunos son bastante inentendibles. Pero eso depende básicamente del método con el que se realice el captcha. Hay algunos más vistosos que otros, otros más legibles… en fin, la cantidad y calidad de éstos elementos es variada.

Pero el motivo de este post, es el hecho de que alguien (Luis von Ahn, a pesar de que su apellido –de origen alemán, él nació en Guatemala.) también le encontró un uso secundario muy útil a estos objetos. Y me parece una idea estupenda: el reCAPTCHA.

El Recaptcha trata de solucionar un problema de partida: cuando se digitaliza un documento impreso se toman fotografías del mismo y esas fotografías se convierten a texto empleando sistemas OCR, reconocedor óptico de caracteres.

¿Cómo? Empleando 2 palabras en lugar de 1, como en el captcha tradicional.

Pero suele ocurrir, que hay palabras que presentan dificultades para ser reconocidas automáticamente: aquellas que contienen letras deformes, manchas producto de defectos en la impresión del papel, palabras borroneadas, entre otras.

Estas palabras pueden ser identificadas por personas de manera mucho más confiable que por un sistema OCR computarizado. Recaptcha emplea esta facilidad del ser humano, para lograr un método de reconocimiento de texto mucho más confiable.

¿Cómo? Empleando 2 palabras en lugar de 1, como en el captcha tradicional. Una de las palabras es la que sirve para descartar a los bots, la otra palabra es producto de un papel escaneado, en el cual el sistema OCR no pudo convertir. De esta manera, la interpretación de la palabra que la automatización no pudo resolver, lo hace una persona.

Al leer esta descripción, habrán pensado, pero que pasa si la persona se equivoca con dicha palabra. Bueno, de hecho, el programa envía esa segunda palabra diez veces de manera que diez personas diferentes hagan el trabajo de “desentrañar” lo que quiere decir. Cuando las diez dijeron lo mismo, la palabra queda descifrada y el digitalizador da por aceptado ese texto.

Para finalizar, en la actualidad sepan que Google adquirió ésta tecnología, debido a su nuevo servicio Google Books. Cuya idea es el de digitalizar todos los libros que se escribieron desde que los humanos dejamos registros escritos.

Fuente: reCAPTCHA – Wikipedia, la enciclopedia libre.

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.