![]() |
|
|
Регистрация | << Правила форума >> | FAQ | Пользователи | Календарь | Поиск | Сообщения за сегодня | Все разделы прочитаны |
![]() |
|
Опции темы | Поиск в этой теме | Опции просмотра |
|
#1
|
|||
|
|||
![]() Друзья, помогите распарсить одну страницу. Нужно достать заголовки и тексты. Парсить надо вот такой текст
Код HTML:
Мне нужно выбрать из этой массы заголовки, т.е. 'titles'. Например, из этой строчки 'title': 'Купите машину в кредит быстро!', мне нужен только сам заголовок, т.е. Купите машину в кредит быстро! И так все заголовки надо спарсить. Использую модуль RegExpr. Мой код для парсинга: Код:
var RegExp: TRegExpr; StrPage, StrTitle: TStringList; begin RegExp.Expression := '\''title\'':\s\''(.+)\'',\r\n'; if RegExp.Exec(StrPage.Text) then repeat StrTitle.Add(RegExp.Match[1]); Memo1.Lines.Add(RegExp.Match[1]); // для просмотра вывожу заголовки в Memo until not RegExp.ExecNext; end; Код:
StrPage Код:
StrTitle Но при таком рег. выражении, он выводит мне весь текст, т.е. все, что есть, практически. Вот какой получается результат: Код HTML:
Т.е. он выделяет только первый заголовок Машины в кредит от 2,9% в Москве.', и то не полностью, с кавычкой и запятой в конце почему-то. Как мне победить его и заставить его парсить то, что нужно? Потому что, например, на php это рег. выражение работает на УРА. А в Delphi все приобретает совсем иной смысл... Почему так? |
#2
|
||||
|
||||
![]() Вот "ручной" пример на PosEx
Я не понял Вашего вопроса, но всё же Вам на него отвечу! |
#3
|
||||
|
||||
![]() У вас же чудная структура, которая легко по строкам обрабатывается. Блоки ограниченные {} и имеющие фиксированное количество элементов - мечта для парсера.
Жизнь такова какова она есть и больше никакова. Помогаю за спасибо. Последний раз редактировалось Страдалецъ, 16.07.2014 в 12:33. |
#4
|
|||
|
|||
![]() Alegun, спасибо, посмотрю, что такое!
Страдалецъ, можно поподробнее, как с такими блоками работать? Я с парсингом дел не имел почти что, а сейчас вот появилась такая задача... Как же мне распарсить эти заголовки? |
#5
|
|||
|
|||
![]() Alegun, спасибо!
А ведь и правда можно без рег. выражений здесь обойтись. Только вот не пойму, почему он воспринимает только шаблоны рег. выражения, записанные в Edit1, Edit2. Если в коде это написать, экранировав при этом кавычки, то не работает. Наверное надо не заморачиваться и просто записать этот текст в поля Edit'ов. |
#6
|
||||
|
||||
![]() Да здесь вопрос в экранировке, - можно посмотреть нужный вариант если открыть форму как текст, и там будет такое - '''title'': ''' , работать это и при вводе из-под редактора будет. Покажите пжлст какие титлы нужно выводить (в смысле каков должен быть конечный результат), из первого поста это действие слегка не понятно
Я не понял Вашего вопроса, но всё же Вам на него отвечу! Последний раз редактировалось Alegun, 17.07.2014 в 07:06. |
#7
|
|||
|
|||
![]() Alegun, Вот такое должно быть выведено
Машины в кредит от 2,9% в Москве. Автокредит от 4% в Москве! Т.е. только тайтлы. Ну их там много, я просто взял кусок кода страницы для примера. Т.е. из под редактора надо так писать, если без объектов на форме, обойтись? ''title'': '' Но ваш вариант работает здорово. ![]() |
#8
|
||||
|
||||
![]() А это разве не JSON? Можно попробовать его библиотекой JSON разбирать, в модных версиях Delphi есть. Всяко надежней, чем самопал.
Не стоит путать форумы с богадельнями. © Bargest |