первое что приходит в голову, это посимвольно перебрать текст и разбить на предложения по точкам. естественно отдельно обрабатывать многоточие и другие возможные варианты использования точки в предложениях (те же сокращения "г." ).
затем каждое предложение разбить по пробелам.
потом все что получилось обработать по словарю ваших возможных сокращений.
но это все долго)
|