![]()  | 
	
 
  | 
		
			
  | 	
	
	
		
		|||||||
| Регистрация | << Правила форума >> | FAQ | Пользователи | Календарь | Поиск | Сообщения за сегодня | Все разделы прочитаны | 
![]()  | 
	
	
| 
		 | 
	Опции темы | Поиск в этой теме | Опции просмотра | 
| 
	 | 
| 
		 
			 
			#1  
			
			
			
			
		 
		
		
	 | 
|||
		
		
  | 
|||
| 
	
	
		
			
			 Друзья, помогите распарсить одну страницу. Нужно достать заголовки и тексты. Парсить надо вот такой текст 
		
	
		
		
		
		
		
	
		
		
	
	
	Код HTML: 
	
 Мне нужно выбрать из этой массы заголовки, т.е. 'titles'. Например, из этой строчки 'title': 'Купите машину в кредит быстро!', мне нужен только сам заголовок, т.е. Купите машину в кредит быстро! И так все заголовки надо спарсить. Использую модуль RegExpr. Мой код для парсинга: Код: 
	var
  RegExp: TRegExpr;
  StrPage, StrTitle: TStringList;
begin
  RegExp.Expression := '\''title\'':\s\''(.+)\'',\r\n';
  if RegExp.Exec(StrPage.Text) then
    repeat
      StrTitle.Add(RegExp.Match[1]);
      Memo1.Lines.Add(RegExp.Match[1]); // для просмотра вывожу заголовки в Memo
    until not RegExp.ExecNext;
end;Код: 
	StrPage Код: 
	StrTitle Но при таком рег. выражении, он выводит мне весь текст, т.е. все, что есть, практически. Вот какой получается результат: Код HTML: 
	
 Т.е. он выделяет только первый заголовок Машины в кредит от 2,9% в Москве.', и то не полностью, с кавычкой и запятой в конце почему-то. Как мне победить его и заставить его парсить то, что нужно? Потому что, например, на php это рег. выражение работает на УРА. А в Delphi все приобретает совсем иной смысл... Почему так?  | 
| 
		 
			 
			#3  
			
			
			
			
		 
		
		
	 | 
||||
		
		
  | 
||||
| 
	
	
		
			
			 У вас же чудная структура, которая легко по строкам обрабатывается. Блоки ограниченные {} и имеющие фиксированное количество элементов - мечта для парсера. 
		
	
		
		
		
		
			
		
		
		
		
		
			Последний раз редактировалось Страдалецъ, 16.07.2014 в 12:33.  | 
| 
		 
			 
			#4  
			
			
			
			
		 
		
		
	 | 
|||
		
		
  | 
|||
| 
	
	
		
			
			 Alegun, спасибо, посмотрю, что такое! 
		
	
		
		
		
		
		
	
		
		
	
	
	Страдалецъ, можно поподробнее, как с такими блоками работать? Я с парсингом дел не имел почти что, а сейчас вот появилась такая задача... Как же мне распарсить эти заголовки?  | 
| 
		 
			 
			#5  
			
			
			
			
		 
		
		
	 | 
|||
		
		
  | 
|||
| 
	
	
		
			
			 Alegun, спасибо! 
		
	
		
		
		
		
		
	
		
		
	
	
	А ведь и правда можно без рег. выражений здесь обойтись. Только вот не пойму, почему он воспринимает только шаблоны рег. выражения, записанные в Edit1, Edit2. Если в коде это написать, экранировав при этом кавычки, то не работает. Наверное надо не заморачиваться и просто записать этот текст в поля Edit'ов.  | 
| 
		 
			 
			#6  
			
			
			
			
		 
		
		
	 | 
||||
		
		
  | 
||||
| 
	
	
		
			
			 Да здесь вопрос в экранировке, - можно посмотреть нужный вариант если открыть форму как текст, и там будет такое - '''title'': ''' , работать это и при вводе из-под редактора будет. Покажите пжлст какие титлы нужно выводить (в смысле каков должен быть конечный результат), из первого поста это действие слегка не понятно 
		
	
		
		
		
		
			
		
		
		
		
		
			Последний раз редактировалось Alegun, 17.07.2014 в 07:06.  | 
| 
		 
			 
			#7  
			
			
			
			
		 
		
		
	 | 
|||
		
		
  | 
|||
| 
	
	
		
			
			 Alegun, Вот такое должно быть выведено 
		
	
		
		
		
		
		
	
		
		
	
	
	Машины в кредит от 2,9% в Москве. Автокредит от 4% в Москве! Т.е. только тайтлы. Ну их там много, я просто взял кусок кода страницы для примера. Т.е. из под редактора надо так писать, если без объектов на форме, обойтись? ''title'': '' Но ваш вариант работает здорово.  ) | 
| 
		 
			 
			#8  
			
			
			
			
		 
		
		
	 | 
||||
		
		
  | 
||||
| 
	
	
		
			
			 А это разве не JSON? Можно попробовать его библиотекой JSON разбирать, в модных версиях Delphi есть. Всяко надежней, чем самопал. 
		
	
		
		
		
		
			
		
		
		
		
	
		
		
	
	
	 |