Aprenent del spam

SpamÚltimament em té descol·locat el filtro Anti-Spam de la UPV. Prenguem com exemple 3 missatges que he rebut darrerament:

De Para Asunto
Aisha Brand ocultado@spam.no Every woman will fall in love with you when she sees your size.
Frederick Parra ocultado@spam.no More orgasms
RealNetworks ocultado@spam.no [SPAM *****] Optimice el rendimiento de su PC en minutos

Encara que els dos primers són clarament ‘spam’ (correu brossa) i el tercer és ‘comercial que pot ser interessant’, per al filtre del servidor de correu és, justament, el contrari.

Com funciona el meu filtre ‘natural’ anti-spam?

  • Els dos primers missatges van dirigits a comptes (o llistes de correu) que no tenen res a veure amb mi
  • L’assumpte parla de sexe ¡fent promeses!
  • No conec de res als remitents

=> SPAM

  • El tercer missatge va dirigit al meu compte de correu
  • El remitent és una empresa coneguda, dedicada al món de la informàtica i té les meues dades perquè jo els hi he donat
  • L’assumpte té a veure, més o menys, amb el meu treball
  • El missatge utilitza DKIM per a garantir que l’adreça del remitent pertany al servidor de correu emissor (el nostre servidor no usa aquesta tecnologia i no ens indica gens referent a això)

=> COMERCIAL

El fet que estiguen redactats en anglès o en castellà no és significatiu, ja que habitualment es reben correus en ambdós idiomes. Ara bé, en el meu compte de correu personal sí que hauria influït en la meua decisió que l’idioma no fóra castellà/valencià.
Com funciona el filtre anti-spam del servidor de correu?

A partir de les capçaleres dels missatges i del contingut del mateix, es va puntuant el correu seguint unes regles predefinides.

  • Al primer missatge se li apliquen les regles: PENISENLARGE + HTML_40_50. Poca cosa: 1.6 punts (el mínim per a considerar-lo spam és 5.0)
  • En el segon missatge es troba un únic problema: HTMLTITLEEMPTY (0.5 punts)
  • El tercer missatge fa que salten les següents alarmes (5.7 punts):
pts rule name description
2.8 X_MAIL_ID_PRESENT Message has X-MailingID header
1.0 HTML_IMAGE_ONLY_12 BODY: HTML: images with 1000-1200 bytes of words
0.0 HTML_MESSAGE BODY: HTML included in message
0.1 HTML_FONT_BIG BODY: HTML has a big font
0.1 HTML_TAG_EXISTS_TBODY BODY: HTML has “tbody” tag
0.1 HTML_70_80 BODY: Message is 70% to 80% HTML
0.1 MIME_HTML_ONLY BODY: Message only has text/html MIME parts
0.5 HTML_TITLE_EMPTY BODY: HTML title contains no text
0.8 REMOVE_PAGE URI: URL of page called “remove”
0.2 HTTP_WITH_EMAIL_IN_URL URI: ‘remove’ URL contains an email address

Què podem aprendre d’aquesta anàlisi?aprender

Evitar que ens arribe spam és pràcticament impossible. Podem establir filtres a diferents nivells (en el servidor, en el nostre client de correu, amb el Anti-Virus, …), però sempre haurà falsos positius i falsos negatius.

Si mirem aquest problema en sentit invers, la pregunta és: seran catalogats com spam els correus que envie?.

Tenint en compte els filtres típics de les eines anti-spam, podem seguir unes pautes per a evitar ser tractats com spammers:

  • Si redactes el correu amb format HTML, ofereix també el contingut del mateix amb format TEXT
  • En HTML és obligatori especificar el títol del document amb l’etiqueta TITLE => utilitza’l en els teus missatges
  • Les imatges alegren els missatges, però no oferisques contingut dins de les imatges
  • Ni se’t ocórrega emprar la paraula ‘remove’ dins d’enllaços (el més normal d’aquest món)
  • No generes URL amb adreces de correu embegudes
  • I, sobretot, realment necessites utilitzar el format HTML per a aqueix correu?
Evitar que ens arribe spam és pràcticament impossible. Podem establir filtres a diferents nivells (en el servidor, en el nostre client de correu, amb el Anti-Virus, …), però sempre haurà falsos positius i falsos negatius. Si mirem aquest problema en sentit invers, la pregunta és: seran catalogats com spam els correus que envie?. Tenint en compte els filtres típics de les eines anti-spam, podem seguir unes pautes per a evitar ser tractats com spammers: