]> git.cworth.org Git - notmuch-wiki/blob - corpus.mdwn
News for release 0.38.3
[notmuch-wiki] / corpus.mdwn
1 [[!img notmuch-logo.png alt="Notmuch logo" class="left"]]
2 # Notmuch Email Corpus
3
4 A corpus of about 209k messages is available for performance testing of
5 notmuch (or other uses).
6
7 The contents are as follows
8
9 - `Mail/notmuch-archive`: archive of the notmuch mailing list.
10
11    - last updated 2012-11-17
12
13    - converted from mbox with mb2md 3.20.
14
15 - `Mail/enron`: selected data from the EDRM v2 enron data set
16
17    - CC Attribution: "ZL Technologies, Inc. (http://www.zlti.com)"
18
19    - Downloaded via bittorrent
20
21       http://www.searchdaimon.com/community/dataset/
22
23    - massaged with scripts/unpack-enron.sh (in the corpus tarball)
24
25 - `Mail/lkml`: lkml messages 1000000 to 1100000 from the gmane archive
26
27 The corpus is gpg signed by David Bremner with  key fingerprint:
28
29      7A18 807F 100A 4570 C596  8420 7E4E 65C8 720B 706B
30
31 You can download the corpus from
32
33 - [notmuchmail.org](https://notmuchmail.org/releases/notmuch-email-corpus-0.5.tar.xz) [signature](https://notmuchmail.org/releases/notmuch-email-corpus-0.5.tar.xz.asc)