А меня наводит на некоторые мысли следующее:
Убиваем нули, натравливаем регулярку на сам файл. Авось прокатит. Только если есть русские буквы, то это все будет юникодом. Надо учесть.
------------------
UPD: попробовал сделать русские буквы - текст разбило на две части. Так что да, возникают сложности. Хотя чисто англ текст вроде не дробится.