]> git.cworth.org Git - notmuch-wiki/blob - corpus.mdwn
add a page describing the email corpus
[notmuch-wiki] / corpus.mdwn
1 ## Notmuch Email Corpus
2
3 A corpus of about 108k messages is available for performance testing of 
4 notmuch (or other uses).
5
6 The contents are as follows
7
8 Mail/notmuch-archive
9
10 archive of the notmuch mailing list
11 - last updated 2012-11-17
12 - converted from mbox with mb2md 3.20.
13
14 Mail/enron
15
16 selected data from the EDRM v2 enron data set
17 - CC Attribution: "ZL Technologies, Inc. (http://www.zlti.com)"
18 - Downloaded via bittorrent
19   http://www.searchdaimon.com/community/dataset/
20 - massaged with scripts/unpack-enron.sh
21
22 Because of the size of the archive, it is not currently available from
23 http://notmuchmail.org, but can be downloaded from:
24
25 - http://tesseract.cs.unb.ca/notmuch/notmuch-email-corpus-0.1.tar.gz
26
27 A signature from key "815B 6398 2A79 F8E7 C727  86C4 762B 57BB 7842 06AD"
28 can be found in 
29
30 - http://tesseract.cs.unb.ca/notmuch/notmuch-email-corpus-0.1.tar.gz.asc