Ну почему сразу грустно:
Все нормально, текст таблицы запихан в текст документа, а картинка где-то в конце. Напрягает только то, что юникодный текст на 2 части разбит всегда. Открыл большой русский doc (207 страниц) - тоже две части текста, просто больших. Вероятность, что разбиение попадет четко на ту часть, на которую должна сработать регулярка, невелика.
Похоже, что формат doc сначала пишет весь текст, а потом всю его разметку. Так что вполне может сработать.
Кстати, если документ сохранен в doc
x, то распаковываем его как zip и видим файл \word\document.xml с текстом в формате XML. Сносим все теги и радуемся оставшемуся чистому тексту. Проверил автозаменой с помощью Notepad++ - простая регулярочка снесла всё, кроме текста. Можно просто сносить все от открывающейся треугольной скобки до закрывающейся.