El CAPTCHA y tu contribución (anónima) en el entrenamiento sistemas de machine learning

11 febrero 2021

¿Te has dado cuenta que cuando vas a rellenar un formulario en la web te piden que confirmes que no eres un robot? ¿Te han pedido alguna vez que identifiques señales de tráfico o vehículos en una fotografía?

Esto nos debería llamar la atención[1], pues precisamente te están pidiendo que resuelvas un problema (identificar una señal de tráfico de una imagen) que deberá solventar en el futuro un “robot”, por ejemplo, los programas de conducción autónoma. Es decir, se aprovecharára tu respuesta al identificar ese semaforo o vehículo para entrenar a los sistemas de conducción autónoma y que, en un futuro, sean capaces de detectarlo por si solos.

En la actualidad, el valor de los datos (en su concepción más amplia) reside en su aplicación para el machine learning, que consiste en analizar (mediante el uso de algoritmos), grandes cantidades de datos para extraer correlaciones que lleven a producir, como resultado final, predicciones de hechos futuros.

La cuestión es que, dentro del proceso de desarrollo de esos sistemas la parte más costosa es la recopilación de los denominados“datasets”, es decir, la información o experiencia que el algoritmo analizará para hallar correlaciones y resolver el problema planteado.

Por ese motivo, las grandes empresas tecnológicas recolectan y aprovechan la información y los datos que generamos al usar sus servicios, con la intención o pretexto de poder mejorarlos. Por ejemplo, si se observan con detenimiento los términos y condiciones de Google[2], reconocen que “Utilizamos la información que recogemos de los servicios actuales para desarrollar otros nuevos”.

El problema es que los usuarios, en muchas ocasiones, no son conscientes de que al utilizar estos servicios están dando una información de alto valor económico para esas compañías, y un buen ejemplo ha sido la evolución del servicio Captcha, que adquirió Google en 2009, denonimado “reCaptcha” con el que iniciábamos este artículo. El término CAPTCHA proviene de las siglas Completely Automated Public Turing test to tell Computers and Humans Apart, y ha sido una herramienta para evitar los bots y el spam, garantizando que la persona que accedía a la web no era un robot.

Inicialmente el Captcha solicitaba al usuario que introdujera correctamente un conjunto de caracteres en una imagen distorsionada, que no podía ser “leída” correctamente por programas bot de reconocimiento de texto. No obstante, Google se dio cuenta de que en realidad el Captcha también podía funcionar a la inversa, es decir, una vez que se había comprobado que el usuario era un humano, se le solicitaba resolver un segundo problema cuya respuesta podría utilizarse posteriormente como para entrenar a un sistema de machine learning supervisado, como el que se utilizó para mejor el servicio de Street View, según reconoció[3] un representante de Google en el año 2012.

En definitiva, cada vez que has resuelto un Captcha has colaborado para generar un dataset para entrenar a los programas de conducción autónoma de Google. Esto es reconocido abiertamente por la compañía[4]en la propia web de reCAPTCHA

La pregunta que nos podemos hacer es, ¿Esto es legal? ¿Puede Google utilizar ese esfuerzo humano, tu esfuerzo, para obtener un dataset y entrenar a sus sistemas de inteligencia artificial?

En sus términos y condiciones se refleja claramente esta posibilidad, no obstante, la clave está en que el objetivo del Captcha es evitar el spam y los bots, y cuando obtienen tu respuesta, es precisamente porque han comprobado previamente que eres un humano, incluso con las últimas versiones del reCaptcha pueden confirmarlo por la forma en que mueves el cursor con el ratón, y la configuración de tu navegador.

Ahora bien, según afirman los términos y condiciones de reCaptcha[5], “Las comunidades de investigación se benefician de estos esfuerzos que ayudan a construir la próxima generación de soluciones innovadoras de Inteligencia Artificial.”

Por lo tanto, aunque pueda ser lícita la forma en la que se está obteniendo esa información, al estar expresamente recogido en los términos y condiciones que aceptas al utilizar ese servicio, la realidad es que solo podremos entender que esta práctica es honesta, si efectivamente las comunidades de investigación se pueden beneficiar efctivamente de estos datasets.

En este sentido, vemos especialmente acertado el propósito de incluir en la reciente Carta de Derechos Digitales la mención específica en el artículo 19 al libre acceso a los datos para promover la investigación, la innovación y el desarrollo.Dicho artículo va además en línea con las propuestas recogidas en el Word Data Forum[6] organizado por Naciones Unidas, en el que se apostaba claramente por el uso de los datos y la inteligencia artificial para dar cumplimiento a los objetivos de desarrollo sostenible.

En conclusión, entendemos que la ciudadanía debe tomar consciencia del valor de sus datos en el entorno digital y de la información que se genera por el mero uso e interacción con los servicios digitales, y que las grandes compañías tecnológicas deberán continuar comprometiéndose a compartir con la comunidad científica estos avances, que han sido posibles gracias al esfuerzo colectivo de los usuarios de sus servicios.

[1] Como se la llamó a Carlos Santana Vega, del canal @dotscsv.

[2]https://policies.google.com/privacy?hl=es

[3]https://techcrunch.com/2012/03/29/google-now-using-recaptcha-to-decode-street-view-addresses/?guccounter=1

[4]https://www.google.com/recaptcha/intro/android.html?type=98 “Las personas resuelven millones de CAPTCHA todos los días. reCAPTCHA hace un uso positivo de este esfuerzo humano al canalizar el tiempo dedicado a resolver CAPTCHA en digitalizar texto, anotar imágenes y construir datasets para el machine learning. Esto, a su vez, ayuda a preservar libros, mejorar mapas y resolver problemas difíciles de IA.”

[5]https://www.google.com/recaptcha/intro/android.html?type=98

[6]https://unstats.un.org/unsd/undataforum/dubai-2018/

Por y para profesionales del Derecho

Portal jurídico de Aranzadi LA LEY, por y para profesionales del Derecho

Por y para profesionales del Derecho

El CAPTCHA y tu contribución (anónima) en el entrenamiento sistemas de machine learning

RECOMENDAMOS