![]() |
|
|
|||||||
| Регистрация | << Правила форума >> | FAQ | Пользователи | Календарь | Поиск | Сообщения за сегодня | Все разделы прочитаны |
![]() |
|
|
Опции темы | Поиск в этой теме | Опции просмотра |
|
#1
|
||||
|
||||
|
Доброго времени ув. знатоки и иже с ними! Писал парсер с сайта объявлений cian.ru.
Сделал даже полный аналог фильтра для поиска с самого сайта (покупка\продажа\комнаты и тд). Поначалу прекрасно парсил даже и в 10 и в 100 потоков. Прикрутил каждую страницу к одному thread. Но счастье, как грится, было недолгим - "Connection Closed Gracefully". Теперь эта, с позволения сказать, - ошибка вылетает сразу, не дает спарсить даже 1 страницу, т.е результат начисто по-нулям. Парсил через TIdHTTP.GET(url)/ Пробовал менять и "user agent" в самом компоненте, включал и глоб.прокси через VPN в пр-ме Phsiphon, безрезультатно. Понятно, что эта чисто внешняя "загрушка" со стороны самого сервера cian.ru.. Полный нуб в этом вопросе, подскажите пож. куда копать, уж очень долго писал етот парсер )))) Процедура запуска для потока: Код:
procedure MThread.Execute;
var http:TIdHTTP;
ssl: TIdSSLIOHandlerSocketOpenSSL; s:string;
begin
inherited;
try
http:= TIdHTTP.create(nil);
ssl:= TIdSSLIOHandlerSocketOpenSSL.Create(nil);
try
with ssl do
begin
SSLOptions.Mode:= sslmUnassigned;
SSLOptions.Method := sslvSSLv23;
end;
with http do
begin
//Response.KeepAlive:= true;
Request.UserAgent:= 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.9) Gecko/20100101 Goanna/4.6 Firefox/68.9 PaleMoon/28.10.0';
AllowCookies:= true;
HandleRedirects:= true;
HTTPOptions:= [hoForceEncodeParams];
RedirectMaximum:= 100;
ProxyParams.BasicAuthentication:= false;
IOHandler:= ssl
end;
page:= http.get(url_); // тот самый, ранее сформированый в интерфейсе URL
finally
ssl. free;
http.free;
end;
except
// Здесь с некоторых пор имеем "Connection Closed Gracefully"
on E: Exception do
messagebox(0,pchar(E.ClassName+': '+E.Message),pchar(''),MB_ICONWARNING+MB_OK);
end;
end; |
|
#2
|
|||
|
|||
|
Если правильно помню, то этот эксепшн можно игнорировать. Это на стороне сервера конекшн обрывается грубо. Т.е. страницу то ты получил.
Попробуй отловить именно этот эксепшн вокруг page := http.get(url_); и проигнорировать его. |
| Этот пользователь сказал Спасибо lmikle за это полезное сообщение: | ||
Xalexo (11.07.2020)
| ||
|
#3
|
||||
|
||||
|
Цитата:
Возможно по каким-то паттернам, раз прокси не спасают, хотя странно. |
| Этот пользователь сказал Спасибо Admin за это полезное сообщение: | ||
Xalexo (11.07.2020)
| ||
|
#4
|
||||
|
||||
|
Спс, сейчас попробую
|
|
#5
|
||||
|
||||
|
Цитата:
Да, тоже была такая мысль.. Может спасет какой-нить авторизованный доступ, как-то так напр.: Код:
http.Request.UserName:= "login"; // логин зарег. на сайте, он же емейл http.Request.Password:= "password"; // и пароль от туда page:= http.get(url_); Или через пост-запрос: Код:
page:= http.post(url_, "файл с параметрами"); |
|
#6
|
||||
|
||||
|
Возможно нужно куки за собой таскать, либо они видят что рефер не передается. Нужно анализировать...
|
| Этот пользователь сказал Спасибо Admin за это полезное сообщение: | ||
Xalexo (12.07.2020)
| ||