Extracción de la información
La Extracción de la información (IE) es un tipo de Recuperación de la información cuyo objetivo es extraer automáticamente información estructurada o semiestructurada desde documentos legibles por la máquina.
Una aplicación típica de IE es el escaneado de una serie de documentos escritos en una lengua natural y rellenar una base de datos con la información extraída. Tendencias actuales en relación con la (IE) utilizan técnicas de Procesamiento de lenguaje natural que se centran en áreas muy restringidas. Por ejemplo, la Message Understanding Conference (MUC), o Conferencia para la Comprensión de Mensajes es una competición que se ha centrado en los siguientes aspectos durante los últimos años:
MUC-1 (1987), MUC-2 (1989) Mensajes para operaciones navales. MUC-3 (1991) Terrorismo en países latinoamericanos. MUC-5 (1993) Microelectrónica. MUC-6 (1995) Nuevos artículos a cerca de los cambios en la gerencia. MUC-7 (1998) Informes de lanzamiento de satélites.
Otras táreas típicas de la IE son:
Reconocimiento de nombres de personas, organizaciones, lugares, expresiones temporales y ciertas expresiones numéricas.
Coreferencialidad: identificar distintos sintagmas nominales que se refieren al mismo objeto. La anáfora es un tipo de conreferencialidad.
Véase también:
Lingüística computacional
Procesamiento de lenguaje natural
EXTRACCIÓN DE LA INFORMACIÓN
Esta información ha sido extraída de:
-http://webs.ono.com/usr019/D.FERNANDEZ.JUTZ/la%20recuperacion%20de%20informacion.htm
-http://www.dlsi.ua.es/~antonio/RecuperacionInformacion.htm
-http://www.dia.fi.upm.es/~agarcia/descripI/
En la sociedad actual el uso de internet cada día es mayor, uno de los motivos es que la cantidad de información existente en este medio es enorme y que esta al alcance de cualquier usuario. Sin embargo la localización de toda la información realmente importante sobre un tema concreto sigue siendo una labor lenta y complicada. Los buscadores (sistemas que nos ayudan a localizar documentos que son de nuestro interés en un momento dado)aunque hasta hoy los resultados no son totalmente satisfactorios y facilitan en pocos aspectos la búsqueda de la información.
La falta de una estructura unificadora que permita clasificar los documentos de acuerdo con criterios consensuados, hace que se perfile una única solución que consiste en que los métodos de búsqueda automática sean más complejos, de forma que el propio sistema de búsqueda extraiga del documento la información necesaria para su identificación a partir de una petición hecha con un lenguaje cercano al natural y de esta forma, hacer una selección con mayor precisión. Es por ello que se pretende construir un sistema de recuperación de información de sedes Web. Como recuperación de la información se entiende la capacidad de seleccionar de entre una gran cantidad de documentos aquellos cuyo contenido hace referencia a un tema indicado.
Según Antonio Fernández Rodríguez los objetivos de la recuperación de la información son:
•Conocer el funcionamiento de los buscadores de información.
Mejorar su funcionamiento: precisión y calidad de los resultados devueltos.
•Permitir búsquedas sobre preguntas concretas escritas en el lenguaje natural, y no únicamente limitarnos a búsquedas por palabra clave.
•Ir un paso más allá de lo que realizan los buscadores tradicionales, para ello, contestar a las preguntas del usuario. Es decir, en lugar de devolver el documento completo, devolver la zona del texto donde se encuentra la información requerida. Este proceso se denomina Question Answering o Búsqueda de Respuestas dentro del campo de estudio de la Lingüística Computacional.
• Introducir las técnicas que permiten añadir una capacidad de trabajo multilíngüe a los buscadores.
Para poder realizar una recuperación de la información es necesario realizar previamente una búsqueda adecuada o una extracción de la información adecuada. Según Julián Gómez Ayora y Daniel Fernández Jutz debemos plantearnos una serie de preguntas. La primera cuestión es:
¿Qué busco y para qué lo busco?
“Una búsqueda es difícilmente fructuosa si no se sabe con claridad lo que se busca, y menos en internet que, a parte de alojar una enorme cantidad de información, carece de cualquier tipo de estructura que pueda facilitar la búsqueda. También hay que tener en cuenta que la cantidad de información ofrecida no implica que esta sea de calidad o que esté adecuada a las necesidades del usuario. Unas preguntas que es aconsejable plantearse antes de iniciar la búsqueda son:
Qué tipo de información necesitamos ? (Libros, Artículos, Informes, Direcciones ...)
¿Cuales son los idiomas de preferencia ?
¿Necesitamos información muy especializada?
¿Cuanto tiempo estamos dispuestos a invertir?”
La segunda cuestión que formulan es: ¿Donde puedo encontrarlo?
“Cada necesidad de información tiene asociada los tipos de fuentes de información más adecuadas. El tipo de información que busquemos nos indicara que fuentes son las más idóneas para contestar nuestras preguntas. No es lo mismo buscar artículos técnicos, un número de teléfono, que información académica de una universidad. En el primer caso la fuente idónea podría ser una base de datos bibliográfica o un índice, en el segundo simplemente la guía telefónica, en el tercero puede ser útil el sitio corporativo de esa universidad.
Esto que es tan evidente en nuestra vida cotidiana "real", deja de serlo, de forma absurda en Internet, donde independientemente del tipo de información que buscamos, nos solemos limitar a utilizar el altavista, el google o el yahoo. Si a eso le sumamos la diferencia artificial que se ha creado entre lo real y lo virtual, la situación es aun más absurda. Cuando se habla de fuentes de información, no nos referimos exclusivamente a las que puedan encontrarse en Internet. Si absurdo es limitar la consulta a los buscadores "de turno", aún lo es más el perder el tiempo en la red, cuando obtendríamos fácilmente lo que queremos preguntando consultando la guía telefónica.
Conocer las fuentes de información adecuadas para cada necesidad requiere de cierto tiempo, pero conociendo las más básicas y mediante un correcto aprendizaje tenemos más que suficiente para iniciarnos y resolver casi cualquier consulta.
Durante los últimos años el número de fuentes ha crecido exponencialmente. Cada página web es una fuente de información potencial. De hecho Internet es una "fuente de fuentes". No es necesario conocerlas todas. Ante cada necesidad debemos encontrar o conocer la más adecuada. Con el paso de tiempo dispondremos de una selección de la que nos son útiles (las que resuelven nuestros problemas) y que no acostumbran a ser más de 10 o 15 diferentes. Un número razonable para empezar a trabajar.”
La tercera cuestión es: ¿Como debo buscarlo?
“La estrategia marca, para cada fuente de información, cuestiones como, de que manera se recupera la información (navegando o interrogando a una base de datos), que palabras o conceptos se utilizan, en que idioma se formulan, etc. Se debe adecuar la estrategia a la fuente de información que se utiliza, ya que cada una de ellas tiene sus particularidades que obligan a personalizarla. No obstante, existen normas básicas que son aplicables a la inmensa mayoría de fuentes de información y que permiten obtener resultados, sin necesidad de ser uno experto. Dedicaremos especial atención a las estrategias para optimizar las consultas en las herramientas de búsqueda más comunes, como son los directorios y buscadores.”
La cuarta es: Ejecución de la estrategia
“La ejecución de la consulta no es un proceso banal. No consiste en poner una secuencia de palabras en un buscador, clicar sobre el botón y esperar obtener exactamente lo que buscamos. La falta de un sistema o estrategia a la hora de buscar dificulta la búsqueda.”
Y la última cuestión: ¿He encontrado lo que buscaba? ¿La información que aporta es útil?
“La valoración de resultados es totalmente subjetiva y es cada usuario el que debe decidir si la información obtenida es la que va a ayudarle a resolver el problema planteado. Aun así, existen criterios, orientados normalmente a valorar la fuente de información y que son muy útiles para hacer una estimación de los resultados de una manera más objetiva.
•La Fiabilidad de la institución o persona responsable de su publicación. • La Objetividad de la información. El fin con el que ha sido creada la información. No es lo mismo información claramente técnica que información publicada con fines comerciales.
•El Contenido real de información: Un fenómeno habitual en Internet es la presencia de paginas que tan solo aportan enlaces a otras páginas y en las que el contenido real de información es muy limitado.
•La Originalidad de la información. La información recuperada pertenece en exclusiva a la entidad que hemos consultado o puede ser obtenida en otras fuentes.
•La Integridad de los contenidos. Son parciales o están completos. Un ejemplo típico de contenidos parciales son la mayoría de bases de datos bibliográficas en las que los resultados no son documentos completos, sino la referencia a artículos publicados en la prensa.
•La Actualización y Vigencia de la información.”
De Wikipedia, la enciclopedia libre.
[ Volver Atrás ]Enciclopedia Informática |