![]() |
|
|
Регистрация | << Правила форума >> | FAQ | Пользователи | Календарь | Поиск | Сообщения за сегодня | Все разделы прочитаны |
![]() |
|
Опции темы | Поиск в этой теме | Опции просмотра |
#1
|
||||
|
||||
![]() Добрый день. Помогите найти правильный алгоритм действий.
Задача состоит в следующем: у меня XML файл, в котором есть записи, и проблема в том, что некоторые из них повторяются, а в БД они должны попадать "Уникальными" (Записей много.) Решаю так: 1) Создаётся ADODataSET с параметрами, которые должны быть уникальными и запросом вроде Код:
"Select * from `some_table` where param1=:param1 and param2=:param2" (Записей вроде Код:
ID Param1 Param2 321 STR1 Int1 322 STR1 Int1 2) Далее в цикле от первой к последней записи в XML я передаю считанные параметры из XML в ADODataSet и выполняю его 3) Далее проверяю Код:
if ADODataSet.IsEmpty then Код:
ADODataSet.InsertRecord([nil, param1, param2]); ~ 60 000 запросов. Базу носилую. С учётом того, что записей около 60 тысяч в одном XML файле, времени этот процесс занимает в районе часа. Если учесть тот факт, что XML разбирается ночью раз в сутки, то можно и не обращать внимания, но всё равно чувствует неправильный подход к решению задачи. И это не даёт мне спокойно спать. Последний раз редактировалось Uniq!, 24.07.2015 в 11:55. |
#2
|
||||
|
||||
![]() Непонятки, в базе повторы или в разбираемом XML файле?
Первое можно обойти при выводе, посредством SELECT DISTINCT, а второе предварительным заносом в StringList только уникальных записок с проверкой на дубликат, XML проще прошерстить и после разбора закинуть результат в DB Я не понял Вашего вопроса, но всё же Вам на него отвечу! |
#3
|
||||
|
||||
![]() Цитата:
Дубликаты приходят в XML. И в базу они попасть не должны. Данные вложены, т.е. Дерево XML имеет много веток. При "прочёсывании" XML данные в БД попадают в связанные таблицы. Циклически это выглядит так: Код:
ADODataSet.Open; if ADODataSet.IsEmpty then AdoDataSet.InserRecord[nil, aID, ... ]; aID := ADODataSet['ID']; for k:=0 to a.Childs.Count -1 do begin b:= a.Child[k]; ADODataSet.Param1 := ...; ADODataSet.Param2 := ...; ADODataSet.Open; if ADODataSet.IsEmpty then AdoDataSet.InserRecord[nil, aID, ... ]; bID := ADODataSet['ID']; for l:=0 to b.Childs.Count -1 do begin // и.т.д Мне всё равно нужно узнавать ID родительского элемента, чтоб при вхождении в дочерний уровень подставлять этот ID дочерним элементам. Последний раз редактировалось Uniq!, 24.07.2015 в 13:24. |
#4
|
|||
|
|||
![]() Вставляй все во временную таблицу без проверок. А потом просто перенеси в основную только уникальные записи.
А далее варианты: 1. Если у тебя приходят дубликаты в xml (т.е. в БД записей, которые пришли в xml в принципе нет), то копируешь только уникальные (типа insert into table select distinct * from temp_table, реальный синтаксис надо смотреть по СУБД). 2. Если надо проверять супротив записей в БД, то тогда вставляешь минус (типа insert into table (select * from temp_table minus/except select * from table), minus/except - это в зависимости от того как это в БД называется, можно переписать через exists). Такой алгоритм будет гораздо быстрее, чем проверять каждую зпись, особенно, если дубликатов не очень много. Тоже самое, для первого случая, можно сделать в памяти, например, создаешь Map, для каждой записи считаешь хеш и добавляешь эти записи в Map. В результате в Map'е у тебя уникальные записи, которые и добавляешь в БД. Если у тебя смешанный случай, то это уже бессмысленно, так что действуешь по второму варианту. Последний раз редактировалось lmikle, 24.07.2015 в 22:23. |
Этот пользователь сказал Спасибо lmikle за это полезное сообщение: | ||
Uniq! (14.08.2015)
|