Форум по Delphi программированию

Delphi Sources



Вернуться   Форум по Delphi программированию > Все о Delphi > [ "Начинающим" ]
Ник
Пароль
Регистрация <<         Правила форума         >> FAQ Пользователи Календарь Поиск Сообщения за сегодня Все разделы прочитаны

Ответ
 
Опции темы Поиск в этой теме Опции просмотра
  #1  
Старый 11.04.2009, 23:46
gOsToFf gOsToFf вне форума
Прохожий
 
Регистрация: 29.03.2009
Сообщения: 10
Репутация: 10
По умолчанию Разработка частного словаря.

Очень нужна помощ знающих. Я с хешами и аски никак. Чет ниче не понял вообще.

Рассмотрим задачу составление частного словаря(то есть определения, сколько раз то или иное слово встречается в данном файле). Слова и текущие частоты помещаются в некоторую структуру данных (например, ассоциативный массив). Далее, при считывании очередного слова программа должна найти его в структуре данных и увеличить соответствующий ему счетчик. Даже в случае выбора очень эффективного представления, все равно придется производить поиск в том или ином виде. Можно ли ускорить работу программы?
Можно. Для этого существуют хеш таблицы. Для начала напишем(желательно быстро работающую) хеш-функцию, по некоторому правилу сопоставляющую строке Целое число в интервале от 0 до Н-1. Теперь представьте, что элементами массива размера Н являются списки строк: КАРТИНКО
Каждая строка, помещаемая в хеш-таблицу записывается в список, расположенный в массиве по индексу, равному ее хеш-коду.
Таким образом в идеале(если каждый список содержит лишь один элемент) придется лишь вычислить хеш код строки строки и обраститься к соответствующему элементу массива. В реальности может потребоваться поиск строки по списку.
Задание заключется в том, чтобы разобработать хорошую хеш-функцию для строк, состоящих из ACII- символов. Хеш-функция возвращает хеш-код в интервале от 0 до Н-1 ( для произвольно задаваемого Н). Затем функцию обязательно следует протестировать ( на реальных текстовых файлах) для разных значений Н и отразить результаты тестирования в отчете. Хеш-коды должны быть распределены равномерно ( если же один код выдается в десять раз чаще другого, это плохой знак)
Изображения
Тип файла: jpg zada4a.JPG (16.0 Кбайт, 18 просмотров)
Ответить с цитированием
  #2  
Старый 12.04.2009, 14:22
Аватар для Konrad
Konrad Konrad вне форума
Эксперт
 
Регистрация: 19.03.2009
Сообщения: 1,261
Репутация: 45834
По умолчанию

Во первых нужно решить нужны ли хеш функции в данном случае.
Так как их использование явно не увеличит скорость обработки данных,
но увеличит безопасность.
Хотя если вы не шифруете траффик аськи, то та безопасность ничего не даст, та и + история сохраняеться в аське.
Ответить с цитированием
  #3  
Старый 12.04.2009, 18:26
gOsToFf gOsToFf вне форума
Прохожий
 
Регистрация: 29.03.2009
Сообщения: 10
Репутация: 10
По умолчанию

Нужно как нибудь сделать задачу. (но естественно не дворовым перебором) чтобы она счиатала каждое слово и сколько оно повторяется в тексте. Хеш функции это они из методов.
Ответить с цитированием
  #4  
Старый 12.04.2009, 21:15
Аватар для Konrad
Konrad Konrad вне форума
Эксперт
 
Регистрация: 19.03.2009
Сообщения: 1,261
Репутация: 45834
По умолчанию

Если так, то посчитаем:
в языке более 120 тыс. слов.
32*32=1024;
Теперь:
1. все буквы переводим в нижний регистр.
2.представляем первым(не обязательно, лучше 1-я+3-я) двум буквам каждого слова 2 цифры-индекса.
3. составляем 2 таблицы в которых будем хранить номер соответственно начала и конца диапазона в котором находиться искомое слово.
Тем самым сужаем диапазон поиска.
4. Ищем в выделенном диапазоне стандартным поиском. (как правило это будет не очень большой диапазон.)
5.+ придеться решить некоторые мелкие проблеммы, которые возникнут ( например, если слово длиной 1-н символ и т.д.)
Ответить с цитированием
Ответ


Delphi Sources

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск
Опции просмотра

Ваши права в разделе
Вы не можете создавать темы
Вы не можете отвечать на сообщения
Вы не можете прикреплять файлы
Вы не можете редактировать сообщения

BB-коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.
Быстрый переход


Часовой пояс GMT +3, время: 20:45.


 

Сайт

Форум

FAQ

Соглашения

Прочее

 

Copyright © Форум "Delphi Sources" by BrokenByte Software, 2004-2025