Machin Learning

 Machin Learning

de los primeros en desarrollar una aplicación del aprendizaje reforzado creó un ratón artificial llamado tc-us que a través de prueba y error logra aprender atravesar un laberinto recordando la ruta más exitosa con la guía de imanes ubicados en el piso con el paso del tiempo se lograron otros avances pero más que todo en la teoría pero en el año 2013 se inició una verdadera Revolución los investigadores de tin Marín crearon un sistema capaz de aprender a jugar prácticamente cualquier juego de atari desde cero y capaz también de superar a los humanos usando solo cómo entrar a los píxeles de cada escena sin tener ningún conocimiento previo de las reglas mismas de estos juegos y esta fue la primera de una serie de logros cada vez más impresionantes que continuaron en mayo de 2017 con alfa con un agente inteligente que fue capaz de vencer al campeón mundial de Goku juego de mesa extremadamente complejo inventado en China hace más de 2000 años pero cómo lograron desarrollar este sistema pues la idea fue bastante simple combinaron el poder de las redes neuronales qué es un área específica del machín learning con las técnicas básicas de aprendizaje reforzado que se venían desarrollando desde los años 50 y con esto precisamente nació el aprendizaje reforzado profundo qué es una de las áreas del machine learning que tiene aplicaciones potenciales en uno solo en el tema de videojuegos sino también en la robótica en la automatización industrial e incluso en áreas como el desarrollo de nuevos medicamentos para tratar diferentes enfermedades pero un momento para entender lo que es el aprendizaje reforzado profundo primero tenemos que entender lo básico es decir qué es esto del aprendizaje reforzado cómo es que una máquina inteligente puede aprender y empezar a ejecutar tareas similares a las que hace el ser humano para entender este concepto básico del aprendizaje reforzado vamos a partir de un ejemplo intuitivo de los videojuegos supongamos que vamos a enseñar a un humano a jugar el clásico juego de atari sí le mostramos por primera vez el juego una persona le podríamos dar una instrucción cómo está con el teclado puede controlar una paleta que se mueve hacia arriba o hacia abajo tu tarea es golpear la bola hasta que su oponente no logré alcanzar la cada vez que haga esto obtendrá un punto y gana el jugador que logre obtener más puntos al final de la partida lentamente el nuevo jugador humano aprender a controlar a golpear a través de un proceso de prueba y eventualmente logrará vencer al oponente cómo lograríamos esto con un computador pues en primer lugar deberíamos crear un programa quién adelantamos a la gente que logre hacer varias cosas en primer lugar de entender los elementos del juego que hay por ejemplo de los oponentes después de entender lo que está sucediendo.

 

 

 

En un robot que la gente será el programa que controla su movimiento el entorno hacer el mundo real y los Estados son los posibles obstáculos que vaya encontrando en el camino las acción seguimientos que ejecuten robot y la recompensa puede ser positiva o negativa positiva si llega a la meta final al destino y negativa si se pierde en el camino o si de pronto cae con un obstáculo bien con todo esto ya tenemos una idea general de lo que es el aprendizaje reforzado pero nos queda una pregunta fundamental cómo lograr que esta gente logré aprender a través de su interacción con el entorno y qué tiene que ver en todo esto que el machine learning en esencia hay dos maneras de hacerlo dependiendo si el agente conocen detalle el entorno o solo una parte de él cuando se conocen detalle el entorno y todas sus reglas de juego lo que tenemos es el aprendizaje reforzado basado en modelos un ejemplo clásico de este tipo de aprendizaje reforzado es por ejemplo y huevo coco con antelación en este juego el agente puede conocer las reglas los movimientos que puede realizar y el tamaño del tablero con este modelo con estos detalles que la gente puede planear con antelación su siguiente movida y puede analizar las implicaciones de este miento o elegir otras alternativas alfacero desarrollado precisamente por pigma en en 2017 es un ejemplo de un algoritmo de aprendizaje reforzado pasado en modelos y el problema de este tipo de alcohol en contadas ocasiones se tiene acceso completo a la información detallada del entorno para poder construir este modelo en la mayoría de las aplicaciones reales solo se tiene acceso parcial y en este caso hablamos de aprendizaje reforzado y libre de modelos al que pertenecen la mayoría de los algoritmos que se usan en la actualidad y en este caso el agente tiene que aprender a tomar decisiones por prueba y error porque realmente no conoce todos los detalles del entorno y realidad tiene acceso solo a los elementos los estados de este entorno y la recompensa que obtiene por sus acciones un ejemplo de esto es precisamente la inteligencia artificial que en 2013 desarrollo de imagen y que fue capaz de vencer al ser humano en varios juegos de atari pero para entender cómo funcionan los diferentes algoritmos de aprendizaje reforzado y libres de modelos necesitamos hablar de política pero no no no no es la política tradicional y aburrida de nuestros países en este caso se refiere al cerebro de nuestro agente es decir al programa de computadora que le permite decidir qué acciones tomar dependiendo del estado observado por ejemplo si tenemos un juego hipotético en el cual es la gente debe recolectar un diamante y obtener al final el puntaje más alto posible en este caso la política le permitirá determinar la ruta más adecuada para evitar la mayor cantidad de penalizaciones y así lograr al final la recompensa positiva más alta así que en el aprendizaje reforzado libre de modelos La idea es poder contar con un método o un algoritmo que permita calcular esta política y que esto suele permita a la gente desplazarse desenvolverse de la forma más óptima posible en este entorno y para esto existen esencialmente dos algoritmos qué son los pilares fundamentales del aprendizaje reforzado moderno las políticas de gradientes y el kion en este caso en particular el algoritmo sea capaz de predecir la acción a realizar maximizando de esta forma la recompensa total vamos a nuestro juego hipotético en este caso que la gente puede ejecutar cuatro posibles acciones supongamos que cada uno indicando la probabilidad de que la gente se desplace.

 

Y dice caso el algoritmo que no generará directamente una predicción de la acción a realizar en su lugar el método permite calcular para cada parte está 12 acciones en la máxima recompensa que se obtendrán para entender esto vamos al caso de nuestro pequeño juego supongamos que nuestra gente se encuentra en el estado inicial y que a partir de tres posibles acciones en el máximo puntaje posible al final del juego si tuviéramos una función.





No hay comentarios.:

Publicar un comentario