есть гр. Алексеев(он же GunSmoker) и есть у него выложенный пример использования mlang.dll в 3-х вариантах. У меня используется 3-й вариант (автоопределение кодировки с использованием частотного анализа). и все работает в 99% случаев (кроме приведенного в топики примера и когда страница очень маленькая и тогда функция выдает исключение (там Я вставил обработку исключений и принудительное присвоение 1251 в одном месте одной функции, но речь не об этом).
так вот все таки иногда ошибается и mlang.dll. но при этом, на этой странице не ошибается TEncoding (используется значение ответа сервера о используемой кодировке страницы), зато TEncoding ошибается в до 10% случаев.
сейчас надо применить следующую обработку:
- скачать страницу в RawByteString
- проверить в теге TITLE, получилось ли 1251
- если нет применить TEncoding
такая структура обработки позволит повысить результат возможно до 99.99%
Ну теперь то всем уже понятно для чего мне нужно определить кодировку символов между тегами TITLE?
|