Обработка текста больших объемов

serbius · #1 02.06.2012, 20:37

Здравствуйте.
Есть текст, предположим, 50000 тыс слов. Его надо обработать: разбить на слова (по пробелам), создать массив, который бы не содержал дубликатов слов и второй массив, считающий кол-во повторений того или иного слова, который бы был связан по ключу с первым.

Так вот, задача вроде бы реализована, но, поскольку поиск слов в TStringList реализован через indexOf, то поиск может быть очень медленным, порой до нескольких минут.

Вопрос: как можно оптимизировать поиск, возможно, еще что-то?

Дополнение №1:
Могу выложить исходик, если будет надо.

Дополнение №2:
В инете откопал такой вот пример, может, действительно, быстрее будет проверять: вставилась ли строка?

Код:

var Strlist: TStringList;
begin
  Strlist := TStringList.Create;
  Strlist.Duplicates := dupError;
  Strlist.Add('aa'); {добавляем первую строку}
  try
    Strlist.Add('aa'); {добавляем дубликат}
    ShowMessage('Ok');
  except
    on EStringListError do ShowMessage('Duplicate');
  end;
end;

Спасибо!

Pyro · #2 02.06.2012, 20:46

Код:

Stringlist.sorted := true; // должен ускорить по идее

serbius · #3 02.06.2012, 20:52

Цитата:

Сообщение от Pyro

Код:

Stringlist.sorted := true; // должен ускорить по идее

а он сохраняет ключи, то есть, например, было:
[0]=как
[1]=дела
[2]=вася

Будет ли так после сортировки:
[2]=вася
[1]=дела
[0]=привет

serbius · #4 02.06.2012, 21:04

Цитата:

Сообщение от serbius

а он сохраняет ключи, то есть, например, было:
[0]=как
[1]=дела
[2]=вася

Будет ли так после сортировки:
[2]=вася
[1]=дела
[0]=привет

Ой, это же не php)
тут полюбому надо будет идти по индексу...
что-то уже совсем запутался

angvelem · #5 02.06.2012, 21:36

Добавлять слова в список (StringList) нужно после устанвки свойства Dulpicates в соответствующий режим. Тогда повторяющиеся слова автоматом будут удалены из списка.

Страдалецъ · #6 03.06.2012, 01:01

И зачем нужно так изголятся, стараясь запихать такой объем в StringList? Базы данных способны обрабатывать намного большие объемы с приемлимой скоростью выборки. Для 50000 слов я думаю индексный поиск займет доли секунды.

Опции темы	Поиск в этой теме
Версия для печати Отправить на Email	Поиск в этой теме: Расширенный поиск
Опции просмотра
Линейный вид Комбинированный вид Древовидный вид

	Сайт	Форум	FAQ	Соглашения	Прочее
	Новости Исходники Компоненты Статьи Добавить исходник Поиск	Правила Поиск Сообщения за сегодня Пользователи Кто на форуме?	Delphi FAQ - 5000 статей DRKB - 4500 статей (ZIP-архив) Справочник функций и процедур Delphi Delphi Programming Guide Indy in Depth. Глубины Indy	Конфиденциальность Соглашение пользователя Правила обработки cookie	О сайте Donate Контакты