Пару дней назад сделал текстовый архив блога с прикольными названиями файлов. Мне лень было разбираться с форматом SQLite-базы Movable Type (кроме того, заметки я писал в HTML, Textile и Markdown в разные времена), поэтому я просто сделал

wget -m https://sellme.biz

и получил копию блога у себя на диске. Потом написал скриптик, который проходился по всем страничкам и выдергивал содержание заметок и комментариев. На выходе получался кусок HTML, который я пропускал через html2text.py и получал красивый простой текст с Markdown-разметкой (пример).

Но этого мне показалось мало: что за названия файлов такие reshil-uznat--russkie-slova.txt? Поэтому из каждой заметки я выдернул заголовок, пропустил его через Google Translate, убрал лишние пробелы, заменив остальные на «-», и получил красивые имена файлов типа i-decided-to-learn-russian-words.txt (а иногда и смешные: davydov-quot-modern-teaching-omarketinge-is-poluideologie.txt).

Скачать архив sellme-2010-01-09.zip (1.9 МБ)

Это только текст, картинки не включены. Распакованный архив весит 4.5 мегабайт; wc выдает, что я написал 380079 слов. Это уже почти три тома универсальной единицы словоизмерения:

$ wc -w war_and_peace*.txt 
139059 war_and_peace_vol_1.txt
127219 war_and_peace_vol_2.txt
134185 war_and_peace_vol_3.txt
112377 war_and_peace_vol_4.txt
512840 total