![]() |
|
|
Регистрация | << Правила форума >> | FAQ | Пользователи | Календарь | Поиск | Сообщения за сегодня | Все разделы прочитаны |
![]() |
|
Опции темы | Поиск в этой теме | Опции просмотра |
#1
|
|||
|
|||
![]() Доброго времени суток, форумчане.
Задача следующая: Необходимо релизовать конечный автомат, который будет работать с текстом. Автомат разбирает текст на отдельные предложения и заносит их в базу. Затем уже в каждом предложении автомат должен выделить каждое слово и занести его в базу. При этом всем если встречается сокращение вида "г."(либо (м/р ну и т.п.) то мы должны определить это слово как сокращение и занести в отдельную базу. Хотелось бы услышать предложения по реализации подобного КА, т.е. алгоритмы выделения предложений, слов в них, принимая во внимание возможность наличия сокращений. |
#2
|
|||
|
|||
![]() первое что приходит в голову, это посимвольно перебрать текст и разбить на предложения по точкам. естественно отдельно обрабатывать многоточие и другие возможные варианты использования точки в предложениях (те же сокращения "г." ).
затем каждое предложение разбить по пробелам. потом все что получилось обработать по словарю ваших возможных сокращений. но это все долго) |