Aprenent del spam - Área de Sistemas de Información y Comunicaciones

Últimament em té descol·locat el filtro Anti-Spam de la UPV. Prenguem com exemple 3 missatges que he rebut darrerament:

De	Para	Asunto
Aisha Brand	ocultado@spam.no	Every woman will fall in love with you when she sees your size.
Frederick Parra	ocultado@spam.no	More orgasms
RealNetworks	ocultado@spam.no	[SPAM *] Optimice el rendimiento de su PC en minutos

Encara que els dos primers són clarament ‘spam’ (correu brossa) i el tercer és ‘comercial que pot ser interessant’, per al filtre del servidor de correu és, justament, el contrari.

Com funciona el meu filtre ‘natural’ anti-spam?

Els dos primers missatges van dirigits a comptes (o llistes de correu) que no tenen res a veure amb mi
L’assumpte parla de sexe ¡fent promeses!
No conec de res als remitents

=> SPAM

El tercer missatge va dirigit al meu compte de correu
El remitent és una empresa coneguda, dedicada al món de la informàtica i té les meues dades perquè jo els hi he donat
L’assumpte té a veure, més o menys, amb el meu treball
El missatge utilitza DKIM per a garantir que l’adreça del remitent pertany al servidor de correu emissor (el nostre servidor no usa aquesta tecnologia i no ens indica gens referent a això)

=> COMERCIAL

El fet que estiguen redactats en anglès o en castellà no és significatiu, ja que habitualment es reben correus en ambdós idiomes. Ara bé, en el meu compte de correu personal sí que hauria influït en la meua decisió que l’idioma no fóra castellà/valencià.
Com funciona el filtre anti-spam del servidor de correu?

A partir de les capçaleres dels missatges i del contingut del mateix, es va puntuant el correu seguint unes regles predefinides.

Al primer missatge se li apliquen les regles: PENISENLARGE + HTML_40_50. Poca cosa: 1.6 punts (el mínim per a considerar-lo spam és 5.0)
En el segon missatge es troba un únic problema: HTMLTITLEEMPTY (0.5 punts)
El tercer missatge fa que salten les següents alarmes (5.7 punts):

pts	rule name	description
2.8	X_MAIL_ID_PRESENT	Message has X-MailingID header
1.0	HTML_IMAGE_ONLY_12	BODY: HTML: images with 1000-1200 bytes of words
0.0	HTML_MESSAGE	BODY: HTML included in message
0.1	HTML_FONT_BIG	BODY: HTML has a big font
0.1	HTML_TAG_EXISTS_TBODY	BODY: HTML has “tbody” tag
0.1	HTML_70_80	BODY: Message is 70% to 80% HTML
0.1	MIME_HTML_ONLY	BODY: Message only has text/html MIME parts
0.5	HTML_TITLE_EMPTY	BODY: HTML title contains no text
0.8	REMOVE_PAGE	URI: URL of page called “remove”
0.2	HTTP_WITH_EMAIL_IN_URL	URI: ‘remove’ URL contains an email address

Què podem aprendre d’aquesta anàlisi?

Si mirem aquest problema en sentit invers, la pregunta és: seran catalogats com spam els correus que envie?.

Tenint en compte els filtres típics de les eines anti-spam, podem seguir unes pautes per a evitar ser tractats com spammers:

Si redactes el correu amb format HTML, ofereix també el contingut del mateix amb format TEXT
En HTML és obligatori especificar el títol del document amb l’etiqueta TITLE => utilitza’l en els teus missatges
Les imatges alegren els missatges, però no oferisques contingut dins de les imatges
Ni se’t ocórrega emprar la paraula ‘remove’ dins d’enllaços (el més normal d’aquest món)
No generes URL amb adreces de correu embegudes
I, sobretot, realment necessites utilitzar el format HTML per a aqueix correu?

Evitar que ens arribe spam és pràcticament impossible. Podem establir filtres a diferents nivells (en el servidor, en el nostre client de correu, amb el Anti-Virus, …), però sempre haurà falsos positius i falsos negatius. Si mirem aquest problema en sentit invers, la pregunta és: seran catalogats com spam els correus que envie?. Tenint en compte els filtres típics de les eines anti-spam, podem seguir unes pautes per a evitar ser tractats com spammers: