Эта программа предназначена для тех, кто занимается преобразованием файлов Word в HTML. Как известно, при сохранении документа Word в формате HTML, в файле оказывается много «мусора». Избавиться от него, привести HTML к нужному вам формату — этим и занимается утилита.
Программа написана на языке Java, для её запуска на вашем компьютере должен быть установлен Java Run-time Environment (Java 2 RTE), версии не ниже 1.5.
В папке с программой должен лежать файл default.cleanrule — в нём хранится набор правил, по которым обрабатывается очищаемый документ. В каждой его строчке содержится одно правило: что искать и через табуляцию на что заменять найденное. В выражениях для поиска могут использоваться регулярные выражения, о них подробнее можно почитать здесь.
Внимание! Программа может некорректно работать с файлами в кодировке Unicode (UTF-8, UTF-16)!
Программа HTML Cleaner — совершенно бесплатна, все ваши вопросы по ней задавайте по электронной почте или на форуме сайта.
Благодарности: Валерий Иванов (Ростов-на-Дону), Антон Кузеленков (Москва)
11 февраля 2008 г. — версия 0.1.1 — пересмотр правил; теперь перевод строки обозначается через \n
10 октября 2007 г. — версия 0.1.0 — теперь файлы, предназначенные для чистки, можно перетаскивать мышью на панель программы.