В официальном блоге Google сообщается, что компания разработала систему оптического распознания текста, которая позволяет поисковику различать текст на отсканированных изображениях.
На данный момент Google может распознать текст на изображениях в формате PDF.
Lenta.ru пишет, что поисковик уже индексирует PDF-файлы. Сложнее всего поиск по старым отсканированным документам, на которых есть различные пометки от руки.
Напомним, что ранее Google запустил сервис Google Audio Indexing, который распознает звуковую дорожку в видеоклипах.
Также в начале сентября этого года Google сообщил о планах по размещению в интернете отсканированных страниц старых периодических изданий, которые будет помещены в новостной архив поисковика.