Представляю вашему вниманию интересную, на мой взгляд, программу для извлечения и анализа текста — Text Mining Tool.
Это бесплатная программа для извлечения текста из файлов следующих типов:
pdf, doc, rtf, chm, html без использования других программ (Word, Acrobat и т.п).
проблема (2)