mon master2 ISIFAR

ISIFAR
 
AccueilFAQRechercherS'enregistrerMembresGroupesConnexion

Partagez | 
 

 PROJET : antispam

Voir le sujet précédent Voir le sujet suivant Aller en bas 
AuteurMessage
Admin
Admin


Nombre de messages : 418
Date d'inscription : 27/09/2005

MessageSujet: PROJET : antispam   Mar 24 Jan à 18:48

http://www.cg.ensmp.fr/~hue/teaching/2005/isifar/projects/antispam/spambase.names

| SPAM E-MAIL DATABASE ATTRIBUTES (in .names format)
|
| 48 continuous real [0,100] attributs de type word_freq_WORD
| = pourcentage de mots dans le mail qui correspond à WORD,
| i.e. 100 * (nombre de fois que WORD apparaît dans le mail) / nombre total de mots dans le mail.
| Un "mot" dans ce cas est n'importe quelle chaîne de caractères alphanumeric entouré
| par des caractères non-alphanumeric ou des fins de chaînes.
|
| 6 continuous real [0,100] attributs de type char_freq_CHAR
| = pourcentage de caractères dans le mail qui correspond à CHAR,
| i.e. 100 * (nombre d'occurences de CHAR ) / total de caractères dans le mail
|
| 1 continuous real [1,...] attribut de type capital_run_length_average
| = longueur moyenne de sequences ininterromptues de lettres capitales
|
| 1 continuous integer [1,...] attribut de type capital_run_length_longest
| = longueur de la plus longue sequence ininterrompue de lettres capitales
|
| 1 continuous integer [1,...] attribut de type capital_run_length_total
| = somme de la longueur de sequences ininterrompues de lettres capitales
| = nombre total de lettres capitales dans le mail
|
| 1 nominal {0,1} class attribut de type spam
| = dénote si le mail a été considéré comme spam (1) ou non (0),
| i.e. mail commercial non désiré.
|
| Pour plus d'informations, regarder le fichier 'spambase.DOCUMENTATION' sur la
| UCI Machine Learning Repository: http://www.ics.uci.edu/~mlearn/MLRepository.html


1, 0. | spam, non-spam classes

Code:
word_freq_make:        continuous.
word_freq_address:      continuous.
word_freq_all:          continuous.
word_freq_3d:          continuous.
word_freq_our:          continuous.
word_freq_over:        continuous.
word_freq_remove:      continuous.
word_freq_internet:    continuous.
word_freq_order:        continuous.
word_freq_mail:        continuous.
word_freq_receive:      continuous.
word_freq_will:        continuous.
word_freq_people:      continuous.
word_freq_report:      continuous.
word_freq_addresses:    continuous.
word_freq_free:        continuous.
word_freq_business:    continuous.
word_freq_email:        continuous.
word_freq_you:          continuous.
word_freq_credit:      continuous.
word_freq_your:        continuous.
word_freq_font:        continuous.
word_freq_000:          continuous.
word_freq_money:        continuous.
word_freq_hp:          continuous.
word_freq_hpl:          continuous.
word_freq_george:      continuous.
word_freq_650:          continuous.
word_freq_lab:          continuous.
word_freq_labs:        continuous.
word_freq_telnet:      continuous.
word_freq_857:          continuous.
word_freq_data:        continuous.
word_freq_415:          continuous.
word_freq_85:          continuous.
word_freq_technology:  continuous.
word_freq_1999:        continuous.
word_freq_parts:        continuous.
word_freq_pm:          continuous.
word_freq_direct:      continuous.
word_freq_cs:          continuous.
word_freq_meeting:      continuous.
word_freq_original:    continuous.
word_freq_project:      continuous.
word_freq_re:          continuous.
word_freq_edu:          continuous.
word_freq_table:        continuous.
word_freq_conference:  continuous.
char_freq_;:            continuous.
char_freq_(:            continuous.
char_freq_[:            continuous.
char_freq_!:            continuous.
char_freq_$:            continuous.
char_freq_#:            continuous.
capital_run_length_average: continuous.
capital_run_length_longest: continuous.
capital_run_length_total:  continuous.


Dernière édition par le Mer 25 Jan à 0:22, édité 17 fois
Revenir en haut Aller en bas
Voir le profil de l'utilisateur http://mastertwo.jeun.fr
Admin
Admin


Nombre de messages : 418
Date d'inscription : 27/09/2005

MessageSujet: Re: PROJET : antispam   Mar 24 Jan à 20:33

1. Title: SPAM E-mail Database

2. Sources:
(a) Creators: Mark Hopkins, Erik Reeber, George Forman, Jaap Suermondt
Hewlett-Packard Labs, 1501 Page Mill Rd., Palo Alto, CA 94304
(b) Donor: George Forman (gforman at nospam hpl.hp.com) 650-857-7835
(c) Generated: June-July 1999

3. Past Usage:
(a) Hewlett-Packard Internal-only Technical Report. External forthcoming.
(b) Détermine si un mail donné est un spam ou non.
(c) ~7% d'erreur de mauvaise classification.
Faux positifs (mail marqué comme bon alors que spam) sont vraiment indésirable.
Si nous nous attardons sur les zero faux positifs dans l'ensemble entrainement/test,
20-25% des spams passent à travers le filtre.

4. Relevant Information:
Le concept de "spam" est divers : avertissements pour products/web sites, make money fast schemes,
chain letters, pornography
...
Notre collection de mails spam vient de notre postmaster et des particuliers qui ont rempli les spam.
Notre collection de mails non-spam vient de filed work et mails personnels, et par conséquent
le mot 'george 'et l'indicatif régional '650 ' sont des indicateurs de non-spam. Ceci sont utils
quand on construit un filtre de spam personalisé. On devrait supprimer de tels indicateurs non-Spam
ou obtenir une collection de non-Spam très large pour produire un filtre de Spam d'usage universel.

For background on spam:
Cranor, Lorrie F., LaMacchia, Brian A. Spam!
Communications of the ACM, 41(8 ):74-83, 1998.

5. Nombre d'Instances: 4601 (1813 Spam = 39.4%)

6.Nombre d'Attributs: 58 (57 continuous, 1 nominal class label)

7. Information sur l'attribut:
La dernière colonne de 'spambase.data' dénote si le mail a été considéré comme spam (1) ou non (0), i.e. mail commercial non désiré.
La plupart des attributs indique si un mot particulier ou un caractère apparaissent fréquemment dans un mail. Les attributs de longueur ( run-length attributes) (55-57) mesurent la longueur des séquences de lettres capitales consecutives. Pour les mesures statistiques de chaque attribut, voir la fin de ce fichier. Voilà les définitions des attributs:

48 continuous real [0,100] attributs de type word_freq_WORD
= pourcentage de mots dans le mail qui correspond à WORD,
i.e. 100 * (nombre de fois que WORD apparaît dans le mail) / nombre total de mots dans le mail.
Un "mot" dans ce cas est n'importe quelle chaîne de caractères alphanumeric entouré
par des caractères non-alphanumeric ou des fins de chaînes.

6 continuous real [0,100] attributs de type char_freq_CHAR
= pourcentage de caractères dans le mail qui correspond à CHAR,
i.e. 100 * (nombre d'occurences de CHAR ) / total de caractères dans le mail

1 continuous real [1,...] attribut de type capital_run_length_average
= longueur moyenne de sequences ininterromptues de lettres capitales

1 continuous integer [1,...] attribut de type capital_run_length_longest
= longueur de la plus longue sequence ininterrompue de lettres capitales

1 continuous integer [1,...] attribut de type capital_run_length_total
= somme de la longueur de sequences ininterrompues de lettres capitales
= nombre total de lettres capitales dans le mail

1 nominal {0,1} class attribut de type spam
= dénote si le mail a été considéré comme spam (1) ou non (0),
i.e. mail commercial non désiré.


8. Missing Attribute Values: None

9. Class Distribution:
Spam 1813 (39.4%)
Non-Spam 2788 (60.6%)


Attribute Statistics:
Code:
  Min: Max:  Average:  Std.Dev: Coeff.Var_%:
1  0    4.54  0.10455  0.30536  292         
2  0    14.28  0.21301  1.2906  606         
3  0    5.1    0.28066  0.50414  180         
4  0    42.81  0.065425  1.3952  2130       
5  0    10    0.31222  0.67251  215         
6  0    5.88  0.095901  0.27382  286         
7  0    7.27  0.11421  0.39144  343         
8  0    11.11  0.10529  0.40107  381         
9  0    5.26  0.090067  0.27862  309         
10 0    18.18  0.23941  0.64476  269         
11 0    2.61  0.059824  0.20154  337         
12 0    9.67  0.5417    0.8617  159         
13 0    5.55  0.09393  0.30104  320         
14 0    10    0.058626  0.33518  572         
15 0    4.41  0.049205  0.25884  526         
16 0    20    0.24885  0.82579  332         
17 0    7.14  0.14259  0.44406  311         
18 0    9.09  0.18474  0.53112  287         
19 0    18.75  1.6621    1.7755  107         
20 0    18.18  0.085577  0.50977  596         
21 0    11.11  0.80976  1.2008  148         
22 0    17.1  0.1212    1.0258  846         
23 0    5.45  0.10165  0.35029  345         
24 0    12.5  0.094269  0.44264  470         
25 0    20.83  0.5495    1.6713  304         
26 0    16.66  0.26538  0.88696  334         
27 0    33.33  0.7673    3.3673  439         
28 0    9.09  0.12484  0.53858  431         
29 0    14.28  0.098915  0.59333  600         
30 0    5.88  0.10285  0.45668  444         
31 0    12.5  0.064753  0.40339  623         
32 0    4.76  0.047048  0.32856  698         
33 0    18.18  0.097229  0.55591  572         
34 0    4.76  0.047835  0.32945  689         
35 0    20    0.10541  0.53226  505         
36 0    7.69  0.097477  0.40262  413         
37 0    6.89  0.13695  0.42345  309         
38 0    8.33  0.013201  0.22065  1670       
39 0    11.11  0.078629  0.43467  553         
40 0    4.76  0.064834  0.34992  540         
41 0    7.14  0.043667  0.3612  827         
42 0    14.28  0.13234  0.76682  579         
43 0    3.57  0.046099  0.22381  486         
44 0    20    0.079196  0.62198  785         
45 0    21.42  0.30122  1.0117  336         
46 0    22.05  0.17982  0.91112  507         
47 0    2.17  0.0054445 0.076274 1400       
48 0    10    0.031869  0.28573  897         
49 0    4.385  0.038575  0.24347  631         
50 0    9.752  0.13903  0.27036  194         
51 0    4.081  0.016976  0.10939  644         
52 0    32.478 0.26907  0.81567  303         
53 0    6.003  0.075811  0.24588  324         
54 0    19.829 0.044238  0.42934  971         
55 1    1102.5 5.1915    31.729  611         
56 1    9989  52.173    194.89  374         
57 1    15841  283.29    606.35  214         
58 0    1      0.39404  0.4887  124



This file: 'spambase.DOCUMENTATION' at the UCI Machine Learning Repository
http://www.ics.uci.edu/~mlearn/MLRepository.html


Dernière édition par le Mer 25 Jan à 0:21, édité 24 fois
Revenir en haut Aller en bas
Voir le profil de l'utilisateur http://mastertwo.jeun.fr
Admin
Admin


Nombre de messages : 418
Date d'inscription : 27/09/2005

MessageSujet: Re: PROJET : antispam   Mar 24 Jan à 21:14

http://www.altospam.com/fr/fonctionnement.html


http://www.csi.uvsq.fr/services/reseau/antispam/archi.html
http://greylisting.org/

http://www.cmi-visavoy.com/spamihilator.htm


http://www.pineapp.fr/products.php?antispam
http://www.pourriel.ca/archives/cat_faqadministrateurs.php



FAUX POSITIFS
http://www.altospam.com/fr/faq.html
http://www.spampal.fr/usermanual/using_spampal.htm


Dernière édition par le Lun 6 Fév à 17:32, édité 9 fois
Revenir en haut Aller en bas
Voir le profil de l'utilisateur http://mastertwo.jeun.fr
Admin
Admin


Nombre de messages : 418
Date d'inscription : 27/09/2005

MessageSujet: Re: PROJET : antispam   Mar 24 Jan à 22:12


__________________________________________________________
Revenir en haut Aller en bas
Voir le profil de l'utilisateur http://mastertwo.jeun.fr
Admin
Admin


Nombre de messages : 418
Date d'inscription : 27/09/2005

MessageSujet: Re: PROJET : antispam   Mer 25 Jan à 1:26

http://www.google.fr/search?hl=fr&q=taux+erreur+methodes+faux+positifs+spam&btnG=Rechercher&meta=

http://enterprisesecurity.symantec.fr/content.cfm?articleid=5843
Revenir en haut Aller en bas
Voir le profil de l'utilisateur http://mastertwo.jeun.fr
Contenu sponsorisé




MessageSujet: Re: PROJET : antispam   Aujourd'hui à 9:05

Revenir en haut Aller en bas
 
PROJET : antispam
Voir le sujet précédent Voir le sujet suivant Revenir en haut 
Page 1 sur 1
 Sujets similaires
-
» projet de fin d'etude economie
» projet en latin
» Projet armoire elec entreprise
» Projet interdisciplinaire autour de la Mine: Help aux chtis (et aux autres)!
» Le projet Magnet au Canada(1950-1954)

Permission de ce forum:Vous ne pouvez pas répondre aux sujets dans ce forum
mon master2 ISIFAR :: 1er semestre :: Data Mining : Classification-
Sauter vers: