|
|
Регистрация | << Правила форума >> | FAQ | Пользователи | Календарь | Поиск | Сообщения за сегодня | Все разделы прочитаны |
|
Опции темы | Поиск в этой теме | Опции просмотра |
#1
|
|||
|
|||
Удаление тегов из ХТМЛ-страницы
Добрый день
есть код: Код:
var Form1: TForm1; HTML : ustring; ////////////////////////////////// procedure TForm1.Button1Click(Sender: TObject); var URL : string; begin URL := Edit1.Text; Chromium1.Browser.MainFrame.LoadUrl(URL); end; procedure TForm1.Chromium1LoadEnd(Sender: TObject; const browser: ICefBrowser; const frame: ICefFrame; httpStatusCode: Integer; out Result: Boolean); begin if (httpStatusCode <> 200) then Exit; Memo1.Clear; Chromium1.Browser.MainFrame.VisitDomProc( procedure(const Dom: ICefDomDocument) begin HTML := Dom.Document.AsMarkup; end ); Memo1.Clear; Memo1.Lines.Add(HTML); end; end. Код закачивает страницу с заданным УРЛ, производит обработку скриптов и размещает код страницы в ПЕРЕМ типа ustring Все работает. Далее необходимо переработать код в ПЕРЕМ ХТМЛ. В частности нужно удалить все теги типа <script..мусор...>..мусор...</script>, <style type=..мусор>...мусор...</style> и прочие такие же, типа (<b> </b>), не содержащие информации. в общем нужно радикально зачистить страницу, оставив только теги ссылок <a href= " ">...........</a> и теги таблиц <TR></TR>, чтоб ни рекламы. ни флеша, ни картинок ВОПРОС: каким способом это лучше сделать? может есть каки то проверенные способы уже может есть какие то модули типа TParser? или типа того Всем ответившим по делу - спасибо |