¿Qué son las redes neuronales? | IBM

2025.09.25 10:58


¿Qué son las redes neuronales?

Artificial Intelligence 6 octubre 2021 Enlace copiado

¿Qué son las redes neuronales?

Una red neuronal es un programa o modelo de  machine learning  que toma decisiones de manera similar al cerebro humano, mediante el uso de procesos que imitan la forma en que las neuronas biológicas trabajan juntas para identificar fenómenos, sopesar opciones y llegar a conclusiones.

Cada red neuronal consta de capas de nodos o neuronas artificiales:

Una capa de entrada Una o más capas ocultas Una capa de salida. 

Cada nodo se conecta a otros y tiene su propia ponderación y umbral asociados. Si la salida de cualquier nodo individual está por encima del valor del umbral especificado, ese nodo se activa y envía datos a la siguiente capa de la red. De lo contrario, no se pasa ningún dato a la siguiente capa de la red.

Las redes neuronales se basan en datos de entrenamiento para aprender y mejorar su precisión con el tiempo. Una vez que se ajustan para obtener precisión, son herramientas poderosas en las ciencias informáticas y la  inteligencia artificial , lo que nos permite clasificar y agrupar datos a alta velocidad.

Las tareas de reconocimiento de voz o de imágenes pueden tardar minutos en lugar de horas en comparación con la identificación manual por parte de expertos humanos. Uno de los ejemplos más conocidos de una red neuronal es el algoritmo de búsqueda de Google.

Las redes neuronales a veces se denominan redes neuronales artificiales (ANN) o redes neuronales simuladas (SNN). Son un subconjunto del machine learning y están en el corazón de los modelos de deep learning .

Boletín de la industria

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí . Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Cómo funcionan las redes neuronales?

Piense en cada nodo individual como su propio modelo de regresión lineal , compuesto por datos de entrada, ponderaciones, un sesgo (o umbral) y una salida. La fórmula se vería así:

∑wixi + sesgo = w1x1 + w2x2 + w3x3 + sesgo

salida = f(x) = 1 if ∑w1x1 + b = 0; 0 if ∑w1x1 + b 0

Una vez determinada la capa de entrada, se asignan las ponderaciones. Estas ponderaciones ayudan a determinar la importancia de cualquier variable, ya que las más grandes contribuyen de forma más significativa a la producción en comparación con otros insumos.

A continuación, todas las entradas se multiplican por sus ponderaciones respectivas y luego se suman. Después, la salida pasa por una función de activación, que determina la salida. Si esa salida excede un umbral determinado, "dispara" (o activa) el nodo, pasa los datos a la siguiente capa de la red. El resultado es que la salida de un nodo se convierte en la entrada del siguiente. Este proceso de paso de datos de una capa a la siguiente define esta red neuronal como una red de retroalimentación.

Analicemos cómo se vería un solo nodo usando valores binarios. Podemos aplicar este concepto a un ejemplo más tangible, como si debes ir a surfear (Sí: 1, No: 0). La decisión de ir o no ir es nuestro resultado previsto, o lo que sea. Supongamos que hay tres factores que influyen en su toma de decisiones:

¿Son buenas las olas? (Sí: 1, No: 0) ¿El lugar está vacío? (Sí: 1, No: 0) ¿Ha habido recientemente un ataque de tiburón? (Sí: 0, No: 1)

Entonces, supongamos lo siguiente, dándonos las siguientes entradas:

X1 = 1, ya que las olas son ideales X2 = 0, ya que no hay mucha gente X3 = 1, ya que no ha habido un ataque de tiburón reciente

Ahora, necesitamos asignar algunas ponderaciones para determinar la importancia. Las ponderaciones más grandes significan que las variables particulares son de mayor importancia para la decisión o el resultado.

W1 = 5, ya que las grandes olas no se presentan con frecuencia W2 = 2, ya que es común que haya mucha gente W3 = 4, ya que le tiene miedo a los tiburones

Finalmente, también asumiremos un valor de umbral de 3, lo que se traduciría en un valor de sesgo de -3. Con todas las diversas entradas, podemos comenzar a introducir valores en la fórmula para obtener el resultado deseado.

Y-hat = (1*5) + (0*2) + (1*4) – 3 = 6

Si usamos la función de activación del principio de esta sección, podemos determinar que la salida de este nodo sería 1, ya que 6 es mayor que 0. En este caso, iría a surfear; pero si ajustamos las ponderaciones o el umbral, podemos lograr diferentes resultados del modelo. Cuando observamos una decisión, como en el ejemplo anterior, podemos ver cómo una red neuronal podría tomar decisiones cada vez más complejas dependiendo del resultado de decisiones o capas anteriores.

En el ejemplo anterior, utilizamos perceptrones para ilustrar algunas de las matemáticas en juego aquí, pero las redes neuronales aprovechan las neuronas sigmoides, que se distinguen por tener valores entre 0 y 1. Dado que las redes neuronales se comportan de manera similar a los árboles de decisión, la cascada de datos de un nodo a otro, tener valores x entre 0 y 1 reducirá el impacto de cualquier cambio dado de una sola variable en la salida de cualquier nodo dado, y posteriormente, la salida de la red neuronal.

A medida que empecemos a pensar en casos de uso más prácticos para las redes neuronales, como el reconocimiento o la clasificación de imágenes, aprovecharemos el aprendizaje supervisado o conjuntos de datos etiquetados para entrenar el algoritmo. A medida que entrenamos el modelo, querremos evaluar su precisión utilizando una función de costo (o pérdida). Esto también se conoce comúnmente como error cuadrático medio (MSE). En la siguiente ecuación,

i representa el índice de la muestra, y-hat es el resultado previsto, y es el valor real, y m es el número de muestras.

Función de costo = 𝑀𝑆𝐸=1/2𝑚 ∑129_(𝑖=1)^𝑚▒(𝑦 ̂^((𝑖) )−𝑦^(() ^2)

En última instancia, el objetivo es minimizar nuestra función de costo para garantizar la corrección del ajuste para cualquier observación dada. A medida que el modelo ajusta sus ponderaciones y sesgos, utiliza la función de costo y el aprendizaje por refuerzo para alcanzar el punto de convergencia, o el mínimo local.

El proceso en el que el algoritmo ajusta sus ponderaciones es a través del descenso de gradiente, lo que permite que el modelo determine la dirección a seguir para reducir errores (o minimizar la función de costo). Con cada ejemplo de entrenamiento, los parámetros del modelo se ajustan para converger gradualmente al mínimo.

Consulte este artículo de IBM Developer para obtener una explicación más profunda de los conceptos cuantitativos involucrados en las redes neuronales .

La mayoría de las redes neuronales profundas son de retroalimentación, lo que significa que fluyen en una sola dirección, desde la entrada hasta la salida. Sin embargo, también puede entrenar el modelo a través de la retropropagación; es decir, moverse en la dirección opuesta de la salida a la entrada. La retropropagación nos permite calcular y atribuir el error asociado a cada neurona, lo que nos permite ajustar y adaptar los parámetros del modelo o modelos de forma adecuada.

Tipos de redes neuronales

Las redes neuronales se pueden clasificar en diferentes tipos, que se utilizan para diferentes propósitos. Si bien esta no es una lista completa de tipos, la siguiente sería representativa de los tipos más comunes de redes neuronales que encontrará para sus casos de uso comunes:

Redes neuronales de retroalimentación

 

Las redes neuronales de retroalimentación, o perceptrones multicapa (MLP), son en lo que nos hemos centrado principalmente en este artículo. Se componen de una capa de entrada, una capa o capas ocultas y una capa de salida.

Si bien estas redes neuronales también se conocen comúnmente como MLP, es importante tener en cuenta que en realidad están compuestas por neuronas sigmoides, no por perceptrones, ya que la mayoría de los problemas del mundo real no son lineales. Por lo general, los datos se introducen en estos modelos para entrenarlos, y son la base de la visión artificial, el procesamiento del lenguaje natural y otras redes neuronales.

Redes neuronales convolucionales

 

Las redes neuronales convolucionales (CNN) son similares a las redes de retroalimentación, pero generalmente se utilizan para el reconocimiento de imágenes, el reconocimiento de patrones o la visión artificial. Estas redes aprovechan los principios del álgebra lineal, en particular la multiplicación de matrices, para identificar patrones dentro de una imagen.

Redes neuronales recurrentes

 

Las redes neuronales recurrentes (RNN) se identifican por sus ciclos de retroalimentación. Estos algoritmos de aprendizaje se aprovechan principalmente cuando se utilizan datos de series de tiempo para hacer predicciones sobre resultados futuros, como predicciones del mercado de valores o pronósticos de ventas.

Diferencia entre redes neuronales y deep learning

El deep learning y las redes neuronales tienden a usarse indistintamente en la conversación, lo que puede resultar confuso. Como resultado, vale la pena señalar que lo "profundo" en el deep learning simplemente se refiere a la profundidad de las capas en una red neuronal.

Una red neuronal que consta de más de tres capas (que incluirían las entradas y la salida) puede considerarse un algoritmo de deep learning. Una red neuronal que solo tiene dos o tres capas es solo una red neuronal básica.

Cedat 85 aceleró el entrenamiento de modelos de redes neuronales, reduciendo el tiempo de comercialización de sus soluciones

Historia de las redes neuronales

La historia de las redes neuronales es más larga de lo que la mayoría de la gente piensa. Si bien la idea de “una máquina que piensa” se remonta a los antiguos griegos, nos centraremos en los eventos clave que llevaron a la evolución del pensamiento en torno a las redes neuronales, cuya popularidad ha tenido altibajos a lo largo de los años:

1943: Warren S. McCulloch y Walter Pitts publicaron “ A logical calculus of the ideas immanent in nervous activity ”. Esta investigación buscó comprender cómo el cerebro humano podría producir patrones complejos a través de células cerebrales conectadas, o neuronas. Una de las principales ideas que surgieron de este trabajo fue la comparación de las neuronas con un umbral binario con la lógica booleana (es decir, 0/1 o declaraciones de verdadero/falso).

1958: A Frank Rosenblatt se le atribuye el desarrollo del perceptrón, documentado en su investigación, “ The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain ” [El Perceptrón: Un modelo probabilístico de almacenamiento y organización de la información en el cerebro]. Lleva el trabajo de McCulloch y Pitt un paso más allá al introducir ponderaciones en la ecuación. Aprovechando un IBM 704, Rosenblatt pudo hacer que una computadora aprendiera a distinguir las tarjetas marcadas a la izquierda frente a las tarjetas marcadas a la derecha.

1974: Si bien numerosos investigadores contribuyeron a la idea de la retropropagación, Paul Werbos fue la primera persona en Estados Unidos en señalar su aplicación dentro de las redes neuronales dentro de su tesis doctoral .

1989: Yann LeCun publicó un artículo  en el que ilustra cómo el uso de restricciones en la retropropagación y su integración en la arquitectura de redes neuronales se puede utilizar para entrenar algoritmos. Esta investigación aprovechó con éxito una red neuronal para reconocer los dígitos del código postal escritos a mano proporcionados por el Servicio Postal de EE. UU.

Mixture of Experts | 28 de agosto, episodio 70

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Vea los últimos episodios de podcasts Libro electrónico Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Lea el libro electrónico

Recursos

Explicaciones Redes neuronales desde cero

Conozca en profundidad las redes neuronales, sus funciones básicas y los fundamentos para construir una.

Lea el artículo Modelos de IA Explorar IBM Granite

IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.

Conozca Granite Informar IA en acción 2024

Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.

Lea el informe. Libro electrónico Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Lea el libro electrónico Libro electrónico Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Lea el libro electrónico Guía La guía del CEO para la IA generativa

Descubra cómo los directores ejecutivos (CEO) pueden equilibrar el valor que la IA generativa puede crear con la inversión que exige y los riesgos que representa.

Lea la guía Guía Ponga la IA a trabajar: Impulso del retorno de la inversión (ROI) con IA generativa

¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.

Lea la guía Soluciones relacionadas IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo

Menu

Last Photo