| :: Algoritmo genético puede redimir a Internet del 'spam' |
Los correos basura utilizan secuencias similares a la del AND que pueden ser aisladas. Un algoritmo de base genética que aísla hasta el 96,5% del spam ha sido desarrollado por IBM, después de descubrir que los correos basura utilizan secuencias de letras y símbolos similares a las de los aminoácidos y fragmentos del ADN. El algoritmo ha adoptado el nombre de un talismán del feng-shui encargado de combatir los malos espíritus y se espera que termine con la peste de Internet. Los correos basura que inundan cada día los buzones de millones de internautas a lo largo y ancho del mundo utilizan una secuencia muy similar a la del ADN, lo que ha permitido a bioinformáticos de IBM desarrollar un algoritmo de base genética capaz de identificar y aislar casi el 100% de los mensajes no deseados que inundan Internet.
El primer paso consistió en crear un algoritmo genético llamado Teiresias con la misión de recorrer las secuencias de aminoácidos y fragmentos de ADN. Teiresias descubrió así patrones y pudo aislar el funcionamiento de ciertas estructuras genéticas.
La técnica se modificó a continuación en un nuevo algoritmo llamado Chung-Kwei, tomado del nombre de un talismán feng-shui encargado de combatir los malos espíritus. La misión de este algoritmo no es perseguir secuencias orgánicas, sino identificar cadenas de caracteres que se repiten en los correos basura y proceder a su destrucción.
Durante el desarrollo de la investigación, cuyos resultados se publican en los Proceedings de la First Conference on Email and Anti-Spam, celebrada en julio pasado, Chung-Kwei analizó 66.000 correos basura previamente identificados y detectó 6 millones de patrones.
Un 96,5% de aciertos
Al comparar estos seis millones de secuencias dañinas con los patrones existentes en correos normales, los investigadores pudieron separar las características de los dos tipos de correos. El algoritmo copiado de la biología detectó hasta el 96,5% de los correos basura.
El margen de error, que es alto en las actuales técnicas contra los correos basura, baja en este algoritmo a razón de 1 por 6.000. Su principal virtud es la capacidad de detectar incluso las argucias de los fabricantes de los correos pirata, ya que todas estas argucias han sido analizadas e identificadas por el algoritmo genético aplicado a la informática.
El algoritmo funciona considerando los correos como un conjunto de palabras y combinaciones de letras y símbolos. De esta forma, aprende de forma automática pautas propias del vocabulario de los correos basura.
Al analizar dos colecciones de correos electrónicos, una basura y otra de correo bueno, crea bases de datos con las combinaciones más frecuentes en cada uno.
De esta forma, es capaz de comparar cada mensaje con estas bases de datos, estableciendo un umbral a partir del cual los que lo superen son considerados basura y señalizados así.
Fuente: Tendencias Científicas
|
|
|
|
| |
Agregar a favoritos
Versión Imprimible Enviar a un Amigo
Compartir:

Más editoriales - Conceptos básicos acerca de la metodología de la enseñanza - ¿Qué es la artritis reumatoide? - Aplicaciones e-health como oportunidades en mercados competitivos - El reciclaje del papel - Que debería hacer Bill Gates para destruirlos a todos
|