18 diciembre 2009

Guía de Seguridad para la generación de CAPTCHAs


Jonathan Wilkins (twt), consultor independiente, ha publicado una guía para la generación de CAPTCHAs seguros en la que se detalla y profundiza las principales debilidades y fortalezas de este sistema.

El documento, pese a que su contenido es un buen resumen, parece que es una excusa para presentar un análisis al sistema utilizado en reCAPTCHA, adquirido este mismo año por Google.

 reCAPTCHA tiene por objetivo utilizarnos como OCR  humano (al puro estilo Matrix), mediante la generación de CAPTCHAs obtenidos de origines como son libros o revistas que están siendo digitalizados y de los que algunas palabras no han podido ser detectadas completamente.

De esta forma, la imagen generada muestra dos palabras que han de ser introducidas para superar el test. Una de ellas es el CAPTCHA real que es creado en base a una palabra conocida. La restante, es generada en base a una palabra que no fué reconocida por el  proceso de OCR y que se presenta con la intención de que sea el usuario quien reconozca los carácteres. Por lo tanto, solo es necesario escribir correctamente la real, siendo ignorada en la validación la otra.

El estudio de Jonathan Wilkins, al que ha acompañado una herramienta como prueba de concepto, evidencia que el uso de palabras de diccionario (en este caso en inglés) facilita la tarea de reconocimiento por parte de procesos automáticos, consiguiendo una tasa de acierto aproximada del 17.5%.


Google ha respondido a este documento insistiendo en que las pruebas se han llevado a cabo con imágenes del año 2008 que no incluyen nuevas características incluidas posteriormente, por lo que la efectividad para resolverlos automáticamente no está demostrada.