|
|
Регистрация | << Правила форума >> | FAQ | Пользователи | Календарь | Поиск | Сообщения за сегодня | Все разделы прочитаны |
|
Опции темы | Поиск в этой теме | Опции просмотра |
#1
|
||||
|
||||
"Connection Closed Gracefully" на http.get(url_)
Доброго времени ув. знатоки и иже с ними! Писал парсер с сайта объявлений cian.ru.
Сделал даже полный аналог фильтра для поиска с самого сайта (покупка\продажа\комнаты и тд). Поначалу прекрасно парсил даже и в 10 и в 100 потоков. Прикрутил каждую страницу к одному thread. Но счастье, как грится, было недолгим - "Connection Closed Gracefully". Теперь эта, с позволения сказать, - ошибка вылетает сразу, не дает спарсить даже 1 страницу, т.е результат начисто по-нулям. Парсил через TIdHTTP.GET(url)/ Пробовал менять и "user agent" в самом компоненте, включал и глоб.прокси через VPN в пр-ме Phsiphon, безрезультатно. Понятно, что эта чисто внешняя "загрушка" со стороны самого сервера cian.ru.. Полный нуб в этом вопросе, подскажите пож. куда копать, уж очень долго писал етот парсер )))) Процедура запуска для потока: Код:
procedure MThread.Execute; var http:TIdHTTP; ssl: TIdSSLIOHandlerSocketOpenSSL; s:string; begin inherited; try http:= TIdHTTP.create(nil); ssl:= TIdSSLIOHandlerSocketOpenSSL.Create(nil); try with ssl do begin SSLOptions.Mode:= sslmUnassigned; SSLOptions.Method := sslvSSLv23; end; with http do begin //Response.KeepAlive:= true; Request.UserAgent:= 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.9) Gecko/20100101 Goanna/4.6 Firefox/68.9 PaleMoon/28.10.0'; AllowCookies:= true; HandleRedirects:= true; HTTPOptions:= [hoForceEncodeParams]; RedirectMaximum:= 100; ProxyParams.BasicAuthentication:= false; IOHandler:= ssl end; page:= http.get(url_); // тот самый, ранее сформированый в интерфейсе URL finally ssl. free; http.free; end; except // Здесь с некоторых пор имеем "Connection Closed Gracefully" on E: Exception do messagebox(0,pchar(E.ClassName+': '+E.Message),pchar(''),MB_ICONWARNING+MB_OK); end; end; |
#2
|
|||
|
|||
Если правильно помню, то этот эксепшн можно игнорировать. Это на стороне сервера конекшн обрывается грубо. Т.е. страницу то ты получил.
Попробуй отловить именно этот эксепшн вокруг page := http.get(url_); и проигнорировать его. |
Этот пользователь сказал Спасибо lmikle за это полезное сообщение: | ||
Xalexo (11.07.2020)
|
#3
|
||||
|
||||
Цитата:
Возможно по каким-то паттернам, раз прокси не спасают, хотя странно. |
Этот пользователь сказал Спасибо Admin за это полезное сообщение: | ||
Xalexo (11.07.2020)
|
#4
|
||||
|
||||
Спс, сейчас попробую
|
#5
|
||||
|
||||
Цитата:
Да, тоже была такая мысль.. Может спасет какой-нить авторизованный доступ, как-то так напр.: Код:
http.Request.UserName:= "login"; // логин зарег. на сайте, он же емейл http.Request.Password:= "password"; // и пароль от туда page:= http.get(url_); Или через пост-запрос: Код:
page:= http.post(url_, "файл с параметрами"); |
#6
|
||||
|
||||
Возможно нужно куки за собой таскать, либо они видят что рефер не передается. Нужно анализировать...
|
Этот пользователь сказал Спасибо Admin за это полезное сообщение: | ||
Xalexo (12.07.2020)
|