Machin Learning
de los primeros en desarrollar una aplicación del
aprendizaje reforzado creó un ratón artificial llamado tc-us que a través de
prueba y error logra aprender atravesar un laberinto recordando la ruta más
exitosa con la guía de imanes ubicados en el piso con el paso del tiempo se
lograron otros avances pero más que todo en la teoría pero en el año 2013 se
inició una verdadera Revolución los investigadores de tin Marín crearon un
sistema capaz de aprender a jugar prácticamente cualquier juego de atari desde
cero y capaz también de superar a los humanos usando solo cómo entrar a los
píxeles de cada escena sin tener ningún conocimiento previo de las reglas
mismas de estos juegos y esta fue la primera de una serie de logros cada vez
más impresionantes que continuaron en mayo de 2017 con alfa con un agente
inteligente que fue capaz de vencer al campeón mundial de Goku juego de mesa
extremadamente complejo inventado en China hace más de 2000 años pero cómo
lograron desarrollar este sistema pues la idea fue bastante simple combinaron
el poder de las redes neuronales qué es un área específica del machín learning
con las técnicas básicas de aprendizaje reforzado que se venían desarrollando
desde los años 50 y con esto precisamente nació el aprendizaje reforzado profundo
qué es una de las áreas del machine learning que tiene aplicaciones potenciales
en uno solo en el tema de videojuegos sino también en la robótica en la
automatización industrial e incluso en áreas como el desarrollo de nuevos
medicamentos para tratar diferentes enfermedades pero un momento para entender
lo que es el aprendizaje reforzado profundo primero tenemos que entender lo
básico es decir qué es esto del aprendizaje reforzado cómo es que una máquina
inteligente puede aprender y empezar a ejecutar tareas similares a las que hace
el ser humano para entender este concepto básico del aprendizaje reforzado
vamos a partir de un ejemplo intuitivo de los videojuegos supongamos que vamos
a enseñar a un humano a jugar el clásico juego de atari sí le mostramos por
primera vez el juego una persona le podríamos dar una instrucción cómo está con
el teclado puede controlar una paleta que se mueve hacia arriba o hacia abajo
tu tarea es golpear la bola hasta que su oponente no logré alcanzar la cada vez
que haga esto obtendrá un punto y gana el jugador que logre obtener más puntos
al final de la partida lentamente el nuevo jugador humano aprender a controlar
a golpear a través de un proceso de prueba y eventualmente logrará vencer al
oponente cómo lograríamos esto con un computador pues en primer lugar
deberíamos crear un programa quién adelantamos a la gente que logre hacer
varias cosas en primer lugar de entender los elementos del juego que hay por
ejemplo de los oponentes después de entender lo que está sucediendo.
En un robot que la gente será el programa que controla su
movimiento el entorno hacer el mundo real y los Estados son los posibles
obstáculos que vaya encontrando en el camino las acción seguimientos que
ejecuten robot y la recompensa puede ser positiva o negativa positiva si llega
a la meta final al destino y negativa si se pierde en el camino o si de pronto
cae con un obstáculo bien con todo esto ya tenemos una idea general de lo que
es el aprendizaje reforzado pero nos queda una pregunta fundamental cómo lograr
que esta gente logré aprender a través de su interacción con el entorno y qué
tiene que ver en todo esto que el machine learning en esencia hay dos maneras
de hacerlo dependiendo si el agente conocen detalle el entorno o solo una parte
de él cuando se conocen detalle el entorno y todas sus reglas de juego lo que
tenemos es el aprendizaje reforzado basado en modelos un ejemplo clásico de
este tipo de aprendizaje reforzado es por ejemplo y huevo coco con antelación
en este juego el agente puede conocer las reglas los movimientos que puede
realizar y el tamaño del tablero con este modelo con estos detalles que la
gente puede planear con antelación su siguiente movida y puede analizar las
implicaciones de este miento o elegir otras alternativas alfacero desarrollado
precisamente por pigma en en 2017 es un ejemplo de un algoritmo de aprendizaje
reforzado pasado en modelos y el problema de este tipo de alcohol en contadas
ocasiones se tiene acceso completo a la información detallada del entorno para
poder construir este modelo en la mayoría de las aplicaciones reales solo se
tiene acceso parcial y en este caso hablamos de aprendizaje reforzado y libre
de modelos al que pertenecen la mayoría de los algoritmos que se usan en la
actualidad y en este caso el agente tiene que aprender a tomar decisiones por
prueba y error porque realmente no conoce todos los detalles del entorno y
realidad tiene acceso solo a los elementos los estados de este entorno y la
recompensa que obtiene por sus acciones un ejemplo de esto es precisamente la
inteligencia artificial que en 2013 desarrollo de imagen y que fue capaz de
vencer al ser humano en varios juegos de atari pero para entender cómo
funcionan los diferentes algoritmos de aprendizaje reforzado y libres de
modelos necesitamos hablar de política pero no no no no es la política
tradicional y aburrida de nuestros países en este caso se refiere al cerebro de
nuestro agente es decir al programa de computadora que le permite decidir qué
acciones tomar dependiendo del estado observado por ejemplo si tenemos un juego
hipotético en el cual es la gente debe recolectar un diamante y obtener al
final el puntaje más alto posible en este caso la política le permitirá
determinar la ruta más adecuada para evitar la mayor cantidad de penalizaciones
y así lograr al final la recompensa positiva más alta así que en el aprendizaje
reforzado libre de modelos La idea es poder contar con un método o un algoritmo
que permita calcular esta política y que esto suele permita a la gente
desplazarse desenvolverse de la forma más óptima posible en este entorno y para
esto existen esencialmente dos algoritmos qué son los pilares fundamentales del
aprendizaje reforzado moderno las políticas de gradientes y el kion en este
caso en particular el algoritmo sea capaz de predecir la acción a realizar
maximizando de esta forma la recompensa total vamos a nuestro juego hipotético
en este caso que la gente puede ejecutar cuatro posibles acciones supongamos
que cada uno indicando la probabilidad de que la gente se desplace.
Y dice caso el algoritmo que no generará directamente una
predicción de la acción a realizar en su lugar el método permite calcular para
cada parte está 12 acciones en la máxima recompensa que se obtendrán para
entender esto vamos al caso de nuestro pequeño juego supongamos que nuestra
gente se encuentra en el estado inicial y que a partir de tres posibles
acciones en el máximo puntaje posible al final del juego si tuviéramos una
función.
No hay comentarios.:
Publicar un comentario