¿Qué es la clasificación de información no supervisada en la recuperación y extracción de información?
La clasificación con aprendizaje no supervisado (unsupervised classification) es el aprendizaje que no necesita de un profesor, supervisor o validador externo para realizar su aprendizaje. Son capaces de modificar sus parámetros internamente, adaptándose únicamente apoyándose en el conjunto de entrenamiento que requieren.
Su principal fundamento se basa en la redundancia que hay en el lenguaje natural y de esta forma poder sacar relaciones semánticas, distinguir expresiones superfluas, descubrir clases, etc.
Por otro lado, su principal ventaja frente al aprendizaje supervisado es, como se ha dicho anteriormente, que no necesitan un método de clasificación manual que haría del sistema de recuperación o extracción de información demasiado caro y costoso. Sin embargo, se necesitan grandes cantidades de información para poder sacar las relaciones y redundancias de información anteriormente mencionadas pero este hecho no es preocupante debido a la facilidad de recuperar, extraer y/o obtener información en la actualidad.
¿Cuáles son las principales características?
Familiaridad de conceptos y agrupamiento . A partir de un conjunto de entrada se desea conocer si hay un cierto orden o jerarquía en la información recuperada o extraída.
Extracción y relación de características . Realizar un mapa topológico de los datos de entrada, a través del diseño de la red (Internet, una red local de una empresa orientada a la recuperación y extracción de información), de tal forma que patrones de entrada parecidos, produzcan respuestas similares.
Análisis de las componentes principales . Detectar qué componentes de los datos de entrada tienen más valor para la recuperación.
Prototipado . Obtener prototipos o ejemplares del conjunto de información que se pretende buscar o encontrar.
Herramientas para la clasificación no supervisada
Las herramientas que ofrece el aprendizaje no supervisado para la extracción y recuperación de información se pueden clasificar en los siguientes grupos:
- Clustering
- Entrenamiento y Aprendizaje
- Mapas autoorganizactivos, donde destaca principalmente los mapas de Kohonen (Kohonen's Feauture Map)
OTRAS HERRAMIENTAS PARA LA EXTRACCIÓN Y RECUPERACIÓN DE LA INFORMACIÓN
Se puede distinguir las siguientes herramientas:
- Extracción de información: Destacan tipos de tareas, tipos de documentos, herramientas y aplicaciones.
- Extracción de información según patrones léxicos, sintácticos, semánticos y en discurso.
- Extracción de información mediante clasificación supervisada: modelos ocultos de Markov, árboles de decisión y aprendizaje relacional.

![Validate my RSS feed [Valid RSS]](valid-rss.png)
![Validate my Atom 1.0 feed [Valid Atom 1.0]](valid-atom.png)
