![]() |
|
|
Регистрация | << Правила форума >> | FAQ | Пользователи | Календарь | Поиск | Сообщения за сегодня | Все разделы прочитаны |
![]() |
|
Опции темы | Поиск в этой теме | Опции просмотра |
#1
|
||||
|
||||
![]() Доброго времени ув. знатоки и иже с ними! Писал парсер с сайта объявлений cian.ru.
Сделал даже полный аналог фильтра для поиска с самого сайта (покупка\продажа\комнаты и тд). Поначалу прекрасно парсил даже и в 10 и в 100 потоков. Прикрутил каждую страницу к одному thread. Но счастье, как грится, было недолгим - "Connection Closed Gracefully". Теперь эта, с позволения сказать, - ошибка вылетает сразу, не дает спарсить даже 1 страницу, т.е результат начисто по-нулям. Парсил через TIdHTTP.GET(url)/ Пробовал менять и "user agent" в самом компоненте, включал и глоб.прокси через VPN в пр-ме Phsiphon, безрезультатно. Понятно, что эта чисто внешняя "загрушка" со стороны самого сервера cian.ru.. Полный нуб в этом вопросе, подскажите пож. куда копать, уж очень долго писал етот парсер )))) Процедура запуска для потока: Код:
|
#2
|
|||
|
|||
![]() Если правильно помню, то этот эксепшн можно игнорировать. Это на стороне сервера конекшн обрывается грубо. Т.е. страницу то ты получил.
Попробуй отловить именно этот эксепшн вокруг page := http.get(url_); и проигнорировать его. |
Этот пользователь сказал Спасибо lmikle за это полезное сообщение: | ||
Xalexo (11.07.2020)
|
#3
|
||||
|
||||
![]() Цитата:
Возможно по каким-то паттернам, раз прокси не спасают, хотя странно. |
Этот пользователь сказал Спасибо Admin за это полезное сообщение: | ||
Xalexo (11.07.2020)
|
#4
|
||||
|
||||
![]() Спс, сейчас попробую
|
#5
|
|||||
|
|||||
![]() Цитата:
Да, тоже была такая мысль.. Может спасет какой-нить авторизованный доступ, как-то так напр.: Код:
Или через пост-запрос: Код:
|
#6
|
||||
|
||||
![]() Возможно нужно куки за собой таскать, либо они видят что рефер не передается. Нужно анализировать...
|
Этот пользователь сказал Спасибо Admin за это полезное сообщение: | ||
Xalexo (12.07.2020)
|