Індексація PDF - файлів
Деякі починаючі Веб-майстри зіштовхуються з дуже простою проблемою - їхні PDF-файли, що перебувають на сервері, не індексуються пошукачем. Для того, щоб подібні труднощі не виникали надалі, корисно буде пояснити - які PDF-документи бувають і які з них можуть потрапити в індекс.
Як уже Вам стало зрозуміло, не всі файли з розширенням PDF індексуються пошуковими машинами. Пошукачі заточені винятково на обробку текстової інформації - їх не цікавить, у якому саме документі перебуває текст (txt, Word, HTML, PDF - не важливо!). Для того, щоб Ваш PDF-документ був проіндексований, Вам необхідно створити його у вигляді тексту, а не у вигляді графічного зображення. Справа в тому, що PDF-конвертори, можуть переводити текстове наповнення з вордовського (або будь-якого іншого) формату, як у вигляді тексту, так й у вигляді картинки - тому, для початку вивчите програму-конвертор, а потім уважно стежте, щоб вона компілювала символи саме в текстові PDF-файли, а не в графічні.
На вид, текстові й графічні PDF-документи нічим не відрізняються один від одного - тільки в першому випадку, текст можна виділити й скопіювати, а в графічному варіанті, цього зробити вже не вдасться.
Отже, якщо пошукач не може прочитати текст (через те, що він виконаний графічно), то і тим більше він не зможе його проіндексувати.
Тому, перед тим як вивішувати PDF-файли на сервер, спробуйте копі-паст - якщо символи виділяються й копіюються у звичайний txt, то жоден з пошукачів не відмовиться від того, щоб згодом занести вміст вашого PDF-файлу у свій індекс.
Отут все просто! :-)
Ну а з іншого боку, з ІT-фронтів приходять підбадьорюючі новини - не за горами вже той час, коли технологія OCR ( Optіcal Character Recognіtіon, тобто оптичне розпізнавання символів) почне застосовуватися й у пошукових системах. Тоді-то вже точно потреба в подібній статті відпаде на всі 100% :-)
Автор: Собокар Кір
Обговорити на форумі (1)
інші статті для починаючих веб-майстрів