Форум по Delphi программированию

 



Вернуться   Форум по Delphi программированию > Все о Delphi > Интернет и сети
Ник
Пароль
Регистрация <<         Правила форума         >> FAQ Пользователи Календарь Поиск Сообщения за сегодня Все разделы прочитаны

Ответ
 
Опции темы Поиск в этой теме Опции просмотра
  #1  
Старый 10.07.2020, 21:29
Аватар для Xalexo
Xalexo Xalexo вне форума
Прохожий
 
Регистрация: 04.02.2010
Адрес: Вселенная,Млечный путь,3 планета от Солнца и т.д.
Сообщения: 39
Версия Delphi: &7
Репутация: 10
Сообщение "Connection Closed Gracefully" на http.get(url_)

Доброго времени ув. знатоки и иже с ними! Писал парсер с сайта объявлений cian.ru.
Сделал даже полный аналог фильтра для поиска с самого сайта (покупка\продажа\комнаты и тд).
Поначалу прекрасно парсил даже и в 10 и в 100 потоков. Прикрутил каждую страницу к одному thread.
Но счастье, как грится, было недолгим - "Connection Closed Gracefully".

Теперь эта, с позволения сказать, - ошибка вылетает сразу, не дает спарсить даже 1 страницу, т.е результат начисто по-нулям.
Парсил через TIdHTTP.GET(url)/ Пробовал менять и "user agent" в самом компоненте, включал и глоб.прокси через VPN в пр-ме Phsiphon, безрезультатно.
Понятно, что эта чисто внешняя "загрушка" со стороны самого сервера cian.ru..

Полный нуб в этом вопросе, подскажите пож. куда копать, уж очень долго писал етот парсер ))))

Процедура запуска для потока:

Код:
procedure MThread.Execute;
var http:TIdHTTP;
    ssl: TIdSSLIOHandlerSocketOpenSSL; s:string;
begin
  inherited;

  try
  http:= TIdHTTP.create(nil);
  ssl:=  TIdSSLIOHandlerSocketOpenSSL.Create(nil);
  try
  with ssl do
  begin
     SSLOptions.Mode:= sslmUnassigned;
     SSLOptions.Method := sslvSSLv23;
  end;

  with http do
  begin
    //Response.KeepAlive:= true;
    Request.UserAgent:= 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.9) Gecko/20100101 Goanna/4.6 Firefox/68.9 PaleMoon/28.10.0';

    AllowCookies:=    true;
    HandleRedirects:= true;
    HTTPOptions:=    [hoForceEncodeParams];
    RedirectMaximum:= 100;
    ProxyParams.BasicAuthentication:= false;
    IOHandler:= ssl
  end;

  page:= http.get(url_); // тот самый, ранее сформированый в интерфейсе URL

  finally
    ssl. free;
    http.free;
  end;


  except
  // Здесь с некоторых пор имеем "Connection Closed Gracefully"
  on E: Exception do
       messagebox(0,pchar(E.ClassName+': '+E.Message),pchar(''),MB_ICONWARNING+MB_OK); 

  end;
end;
__________________
Ну вы и сами все знаете... ИМХО: Ищите и да обрещите!
Ответить с цитированием
  #2  
Старый 11.07.2020, 00:27
lmikle lmikle вне форума
Модератор
 
Регистрация: 17.04.2008
Сообщения: 7,599
Версия Delphi: 7, XE3, 10.2
Репутация: 49089
По умолчанию

Если правильно помню, то этот эксепшн можно игнорировать. Это на стороне сервера конекшн обрывается грубо. Т.е. страницу то ты получил.
Попробуй отловить именно этот эксепшн вокруг page := http.get(url_); и проигнорировать его.
Ответить с цитированием
Этот пользователь сказал Спасибо lmikle за это полезное сообщение:
Xalexo (11.07.2020)
  #3  
Старый 11.07.2020, 11:50
Аватар для Admin
Admin Admin вне форума
Администратор
 
Регистрация: 03.10.2005
Адрес: Россия, Москва
Сообщения: 1,463
Версия Delphi: 7
Репутация: выкл
По умолчанию

Цитата:
Сообщение от Xalexo
Доброго времени ув. знатоки и иже с ними! Писал парсер с сайта объявлений cian.ru.
Сделал даже полный аналог фильтра для поиска с самого сайта (покупка\продажа\комнаты и тд).
Поначалу прекрасно парсил даже и в 10 и в 100 потоков. Прикрутил каждую страницу к одному thread.
Но счастье, как грится, было недолгим - "Connection Closed Gracefully".
Логично, что у них есть система блокировок от парсинга, вот тебя и забанили.
Возможно по каким-то паттернам, раз прокси не спасают, хотя странно.
Ответить с цитированием
Этот пользователь сказал Спасибо Admin за это полезное сообщение:
Xalexo (11.07.2020)
  #4  
Старый 11.07.2020, 18:22
Аватар для Xalexo
Xalexo Xalexo вне форума
Прохожий
 
Регистрация: 04.02.2010
Адрес: Вселенная,Млечный путь,3 планета от Солнца и т.д.
Сообщения: 39
Версия Delphi: &7
Репутация: 10
По умолчанию

Спс, сейчас попробую
__________________
Ну вы и сами все знаете... ИМХО: Ищите и да обрещите!
Ответить с цитированием
  #5  
Старый 11.07.2020, 18:27
Аватар для Xalexo
Xalexo Xalexo вне форума
Прохожий
 
Регистрация: 04.02.2010
Адрес: Вселенная,Млечный путь,3 планета от Солнца и т.д.
Сообщения: 39
Версия Delphi: &7
Репутация: 10
По умолчанию

Цитата:
Сообщение от Admin
Логично, что у них есть система блокировок от парсинга, вот тебя и забанили.
Возможно по каким-то паттернам, раз прокси не спасают, хотя странно.

Да, тоже была такая мысль.. Может спасет какой-нить авторизованный доступ, как-то так напр.:

Код:
http.Request.UserName:= "login"; // логин зарег. на сайте, он же емейл
http.Request.Password:= "password"; // и пароль от туда
page:= http.get(url_);

Или через пост-запрос:

Код:
page:= http.post(url_, "файл с параметрами");
__________________
Ну вы и сами все знаете... ИМХО: Ищите и да обрещите!
Ответить с цитированием
  #6  
Старый 12.07.2020, 12:12
Аватар для Admin
Admin Admin вне форума
Администратор
 
Регистрация: 03.10.2005
Адрес: Россия, Москва
Сообщения: 1,463
Версия Delphi: 7
Репутация: выкл
По умолчанию

Возможно нужно куки за собой таскать, либо они видят что рефер не передается. Нужно анализировать...
Ответить с цитированием
Этот пользователь сказал Спасибо Admin за это полезное сообщение:
Xalexo (12.07.2020)
Ответ



Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск
Опции просмотра

Ваши права в разделе
Вы не можете создавать темы
Вы не можете отвечать на сообщения
Вы не можете прикреплять файлы
Вы не можете редактировать сообщения

BB-коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.
Быстрый переход


Часовой пояс GMT +3, время: 14:08.


 

Сайт

Форум

FAQ

RSS лента

Прочее

 

Copyright © Форум "Delphi Sources", 2004-2020

ВКонтакте   Facebook   Twitter