|
|
Регистрация | << Правила форума >> | FAQ | Пользователи | Календарь | Поиск | Сообщения за сегодня | Все разделы прочитаны |
|
Опции темы | Поиск в этой теме | Опции просмотра |
#1
|
|||
|
|||
Выбор базы данных для большого объема текстовых документов
Собираемся создать базу для хранения и поиска большого объема текстовых документов (порядка 100000 документов, с общим объемом поряка 2гб).
Какую базу посоветуйте выбрать? База все время будет редактироваться и пополняться новыми документами. Каждый документ должен иметь атрибуты /дата ввода, дата последней редакции, номер, тип, автор и т.д./ по которым будут искать документы. |
#2
|
||||
|
||||
Если правильно организовать хранение - то любая, хоть dbf
Некоторые программисты настолько ленивы, что сразу пишут рабочий код. Если вас наказали ни за что - радуйтесь: вы ни в чем не виноваты. |
#3
|
|||
|
|||
Цитата:
|
#4
|
|||
|
|||
Нет, не остаются. Там другого рода проблема - управление пространством. Если периодически делать сжатие базы, то размер будет нормальным. Но в dbf, конечно, лучше большие данные не хранить.
Если совсем нет внешних ограничений на выбор, то я взял бы какую-нить Netezza. Ну или просто Oracle или PostgreeSQL. |
#5
|
||||
|
||||
Вопрос стоит в том, что хранить и как хранить (и сколько это обойдется в деньгах). Если документы по 5-6 индексным полям, то можно хоть txt+zip (для документов) и до миллиона записей - все в ёлку.
Некоторые программисты настолько ленивы, что сразу пишут рабочий код. Если вас наказали ни за что - радуйтесь: вы ни в чем не виноваты. |
#6
|
|||
|
|||
О деньгах не беспокойтесь.
Что кроется под "txt+zip (для документов)". Означает ли это хранение текстов вне базы данных - в отдельных текстовых или в zip файлах? Тогда как быть с поиском в текстах документов? |
#7
|
||||
|
||||
А зачем искать текст внутри документов если ясно сказано что:
Цитата:
Некоторые программисты настолько ленивы, что сразу пишут рабочий код. Если вас наказали ни за что - радуйтесь: вы ни в чем не виноваты. |
#8
|
|||
|
|||
Документы будут искать не только по перечисленным атрибутам, но и по словам и/или словосочетаниям в текстах. А в дальнейшем не исключаем и добавление в текстах гиперссылок на другие документы базы.
|
#9
|
||||
|
||||
А вы уверены, что вам это лучше в БД хранить? Тип документов у вас наверняка будет разный, доступ к ним тоже будете осуществлять скорее всего с помощью разных приложений, да еще надо будет решать массу проблем интерфейса для отображения результатов поиска, и т.д. Так зачем вам усложнять себе жизнь? Для индексации текста и поиска по этому индексу вам придется держать документ не упакованным, для показа документа в исходном виде нужно будет запускать соответствующее приложение. Может проще и эффективнее воспользоваться просто поисковой системой настроенной на работу с папкой где хранятся эти документы? Из таковых мне больш всего нравится DtSearch которая позволяет работать как в сети так и локально.
Жизнь такова какова она есть и больше никакова. Помогаю за спасибо. |
#10
|
|||
|
|||
Дело в том, что в будущем база будет в интернете. И тогда я не знаю насколько эффективным будет предложенный Вами путь.
Может есть какая СУБД для создания и ведения гипертекстовых БД? Что-то похожее на КонсультантПлюс или Гарант. Кстати, может кто знает, какую БД они используют? |
#11
|
||||
|
||||
SQLite не подойдет ?
|
#12
|
|||
|
|||
MySQL или SQLite. Что лучше?
Можно ли создать отдельную прогу на дельфи для работы с данными из этох баз, которую можно будет инсталлировать на отдельный компьютер для работы локально на этом компьютере. Нужно ли в этом случае инсталлировать и MySQL или SQLite, или что-то еще? |
#13
|
||||
|
||||
SQLite - идеальный варинат, ИМХО, с собой тока будешь таскать 1 библиотеку
|
#14
|
|||
|
|||
Есть ли в SQLite возможность в локальном варианте хранить текстовые (или Memo поля) в архивированном виде? Если нет, какая СУБД обладает такой возможностью?
Что такое - ИМХО? |
#15
|
||||
|
||||
Цитата:
Это означает что мнение сугубо личное Точно знаю что данные базы легко шифруются, кажется А вот насчет архивирования , а что стоит самому паковать в тот же BZIP, PPMD, ZIP, RAR, 7-Zip, или другой алго который жмет быстро в ущерб степени сжатия. |