Чтение из файла. UTF-8

Помидоркин · #1 21.03.2015, 22:28

Задача такая: найти в файле с кодировкой UTF-8 определенную строку (.fb2 основан на xml, нужно содержимое определенных тегов), для того что-бы разобраться, как происходит считывание из файла набрасал код:

Код:

var
  Form1: TForm1;
  F: TextFile;

implementation

{$R *.dfm}

procedure TForm1.FormCreate(Sender: TObject);
begin
 AssignFile(F,'Klarkson.fb2');
 Reset(F);
end;

procedure TForm1.FormClose(Sender: TObject; var Action: TCloseAction);
begin
 CloseFile(F);
end;

procedure TForm1.Button1Click(Sender: TObject);
var s: UTF8String;
begin
 Memo1.Clear;
 Readln(F,s);
 Memo1.Lines.Append(Utf8ToAnsi(s));
end;

Как я понял AssignFile(F,'Klarkson.fb2'); Reset(F); , так сказать подготавливают файл к чтению (записи), а Readln(F,s); считывает из файла построчно, т.е. чтения всего файла не происходит.
Проблемма в том, что, фактически файл состоит из двух строк - первая примерно такого вида: <?xml version="1.0" encoding="UTF-8"?>, а вторая - все остальное (включая изображения). Т.е. для того что-бы выудить из строки нужное содержимое, надо в эту строку считать весь файл, а искомый текст находится, как правило, в самом начале файла. Задача состоит в том, что-бы считывать из файла пока не будет найдено искомое, а дальше можно смело закрывать файл.

lmikle · #2 21.03.2015, 22:38

1. Скачать какой-нить SAX-парсер. Он читает файл по кусочкам.
2. Читать файл по кусочкам самому, через, например, File Of Byte или через поток (TFileStream).

M.A.D.M.A.N. · #3 22.03.2015, 08:26

Я бы просто XML парсер бы взял. Не думаю, что найдутся fb2 книги, размером в несколько сотен мегабайт.

Помидоркин · #4 22.03.2015, 13:59

Цитата:

Сообщение от M.A.D.M.A.N.

Я бы просто XML парсер бы взял. Не думаю, что найдутся fb2 книги, размером в несколько сотен мегабайт.

В данном случае, думаю, больше подойдет SAX-парсер. Долго искал

Цитата:

Сообщение от lmikle

какой-нить SAX-парсер

так ни чего и не нашел.
Пробовал поставить LibXmlParser (Author : Stefan Heymann), вроде установл, но выдает ошибку. К тому-же не нашел документации на русском (английским к сожалению не владею), нашел только, как использовать SAX-парсер на примере Java. В общих чертах понял так: подсовываем парсеру наш файл, запускаем, при возникновении определенной ситуации (например парсер натыкается на какой-нибудь тэг) возникает соответствующее событие, на которое нужно написать обработчик. Как это сделать в Дельфи непонятно.

Помидоркин · #5 22.03.2015, 15:31

Фигня "ваши" парсеры, в смысле не для данной, они, задачи. А вот File Of Byte, в данном случае, то что нужно (еще раз спасибо lmikle), пришлось повозиться с кодировкой, но вроде разобрался.

lmikle · #6 22.03.2015, 18:41

Ну и молодец, что разобрался.
Ты ж задачу описал довольно обще, вот и получил несколько разных вариантов решения.

ЗЫ. Первая же ссылка в гугле по поводу Delphi saz xml parset:
http://saxforpascal.sourceforge.net/

Опции темы	Поиск в этой теме
Версия для печати Отправить на Email	Поиск в этой теме: Расширенный поиск
Опции просмотра
Линейный вид Комбинированный вид Древовидный вид

	Сайт	Форум	FAQ	Соглашения	Прочее
	Новости Исходники Компоненты Статьи Добавить исходник Поиск	Правила Поиск Сообщения за сегодня Пользователи Кто на форуме?	Delphi FAQ - 5000 статей DRKB - 4500 статей (ZIP-архив) Справочник функций и процедур Delphi Delphi Programming Guide Indy in Depth. Глубины Indy	Конфиденциальность Соглашение пользователя Правила обработки cookie	О сайте Donate Контакты

Этот пользователь сказал Спасибо lmikle за это полезное сообщение:
Помидоркин (21.03.2015)

Этот пользователь сказал Спасибо M.A.D.M.A.N. за это полезное сообщение:
Помидоркин (22.03.2015)