Показать сообщение отдельно
  #7  
Старый 09.08.2013, 20:45
Аватар для Bargest
Bargest Bargest вне форума
Профессионал
 
Регистрация: 19.10.2010
Адрес: Москва
Сообщения: 2,390
Версия Delphi: XE3/VS12/FASM
Репутация: 14665
По умолчанию

Ну почему сразу грустно:

Все нормально, текст таблицы запихан в текст документа, а картинка где-то в конце. Напрягает только то, что юникодный текст на 2 части разбит всегда. Открыл большой русский doc (207 страниц) - тоже две части текста, просто больших. Вероятность, что разбиение попадет четко на ту часть, на которую должна сработать регулярка, невелика.
Похоже, что формат doc сначала пишет весь текст, а потом всю его разметку. Так что вполне может сработать.
Кстати, если документ сохранен в docx, то распаковываем его как zip и видим файл \word\document.xml с текстом в формате XML. Сносим все теги и радуемся оставшемуся чистому тексту. Проверил автозаменой с помощью Notepad++ - простая регулярочка снесла всё, кроме текста. Можно просто сносить все от открывающейся треугольной скобки до закрывающейся.
__________________
jmp $ ; Happy End!
The Cake Is A Lie.
Ответить с цитированием