![]() |
|
|
|||||||
| Регистрация | << Правила форума >> | FAQ | Пользователи | Календарь | Поиск | Сообщения за сегодня | Все разделы прочитаны |
![]() |
|
|
Опции темы | Поиск в этой теме | Опции просмотра |
|
|
|
#1
|
|||
|
|||
|
Друзья, помогите распарсить одну страницу. Нужно достать заголовки и тексты. Парсить надо вот такой текст
Код HTML:
Мне нужно выбрать из этой массы заголовки, т.е. 'titles'. Например, из этой строчки 'title': 'Купите машину в кредит быстро!', мне нужен только сам заголовок, т.е. Купите машину в кредит быстро! И так все заголовки надо спарсить. Использую модуль RegExpr. Мой код для парсинга: Код:
var
RegExp: TRegExpr;
StrPage, StrTitle: TStringList;
begin
RegExp.Expression := '\''title\'':\s\''(.+)\'',\r\n';
if RegExp.Exec(StrPage.Text) then
repeat
StrTitle.Add(RegExp.Match[1]);
Memo1.Lines.Add(RegExp.Match[1]); // для просмотра вывожу заголовки в Memo
until not RegExp.ExecNext;
end;Код:
StrPage Код:
StrTitle Но при таком рег. выражении, он выводит мне весь текст, т.е. все, что есть, практически. Вот какой получается результат: Код HTML:
Т.е. он выделяет только первый заголовок Машины в кредит от 2,9% в Москве.', и то не полностью, с кавычкой и запятой в конце почему-то. Как мне победить его и заставить его парсить то, что нужно? Потому что, например, на php это рег. выражение работает на УРА. А в Delphi все приобретает совсем иной смысл... Почему так? |
|
#3
|
||||
|
||||
|
У вас же чудная структура, которая легко по строкам обрабатывается. Блоки ограниченные {} и имеющие фиксированное количество элементов - мечта для парсера.
Последний раз редактировалось Страдалецъ, 16.07.2014 в 12:33. |
|
#4
|
|||
|
|||
|
Alegun, спасибо, посмотрю, что такое!
Страдалецъ, можно поподробнее, как с такими блоками работать? Я с парсингом дел не имел почти что, а сейчас вот появилась такая задача... Как же мне распарсить эти заголовки? |
|
#5
|
|||
|
|||
|
Alegun, спасибо!
А ведь и правда можно без рег. выражений здесь обойтись. Только вот не пойму, почему он воспринимает только шаблоны рег. выражения, записанные в Edit1, Edit2. Если в коде это написать, экранировав при этом кавычки, то не работает. Наверное надо не заморачиваться и просто записать этот текст в поля Edit'ов. |
|
#6
|
||||
|
||||
|
Да здесь вопрос в экранировке, - можно посмотреть нужный вариант если открыть форму как текст, и там будет такое - '''title'': ''' , работать это и при вводе из-под редактора будет. Покажите пжлст какие титлы нужно выводить (в смысле каков должен быть конечный результат), из первого поста это действие слегка не понятно
Последний раз редактировалось Alegun, 17.07.2014 в 07:06. |
|
#7
|
|||
|
|||
|
Alegun, Вот такое должно быть выведено
Машины в кредит от 2,9% в Москве. Автокредит от 4% в Москве! Т.е. только тайтлы. Ну их там много, я просто взял кусок кода страницы для примера. Т.е. из под редактора надо так писать, если без объектов на форме, обойтись? ''title'': '' Но ваш вариант работает здорово. ) |
|
#8
|
||||
|
||||
|
А это разве не JSON? Можно попробовать его библиотекой JSON разбирать, в модных версиях Delphi есть. Всяко надежней, чем самопал.
|