Триллион веб-страниц записано на счет Google

Стало известно, что интернет-поисковик Google.com завершил индексацию триллионной по счету веб-страницы. В официальном блоге компании говорится, что поисковик ведет создание индекса уже 10 лет – с августа 1998 года.

В поисковом индексе Google.com до конца 1998 года насчитывалось уже 26 млн страниц. В 2000 году был проиндексирован первый миллиард страниц. “За последние 8 лет интернет значительно вырос и увеличились объемы данных в поисковом сервисе”, – говорит Джесси Алперт, программный инженер Google.


В Google заявляют, что поисковик уже давно научился отыскивать и удалять из индекса дубликаты страниц и страницы с разными адресами. “Старт работы по индексированию начался с того, что поисковый робот начал запоминать содержимое страниц и следовать по гиперссылкам, присутствующими на данных страницах.
Переходя с сайта на сайт и запоминая содержимое уже изученных страниц, система постоянно следует по ссылкам. В реальности Google.com проиндексировал уже более триллиона страниц, однако далеко не все из них являются уникальными автономными страницами. Многие из них имеют по несколько адресов, другие являются автокопиями друг друга”, пишет в официальном блоге компании Ниссан Хаджай, один из разработчиков поисковой системы.


Специалисты Google говорят, что поисковик существует для того, чтобы избежать бесконтрольного увеличения поискового индекса должен обладать изрядной долей интеллекта и отличать автоматически генерируемые страницы от настоящего пользовательского контента.


“Например многие онлайновые календари, работающие в интернете, имеют ссылку “следующий день”, нажав на которую можно начать планирование на предстоящий день, однако парадокс состоит в том, что продвигаться по данной ссылке, каждый раз нажимая “следующий день” можно до бесконечности. Потому реальный размер интернета с точки зрения поисковой системы зависит только от того, насколько строги параметры индексирования робота и насколько он способен распознать степень полезности той или иной страницы”, – замечают в Google.

Це цікаво:   Огляд Google Pixel 8

Прежде в Google применялась  своеобразная узловая система работы с веб-данными. Так один компьютер мог обсчитать граф информации для PageRank из 26 млн страниц за пару часов и эта информация использовалась в качестве индекса на протяжении жестко указанного периода времени. В случае с Google.com этот временной промежуток составлял пару дней.


На сегодняшний день, как сообщают в компании, пополнение веб-данных не останавливается ни на секунду, а благодаря распределенной системе обсчета данных и оперативному обновлению информации весь поисковый индекс ранжируется заново по несколько раз в сутки.


“Такой граф из триллиона страниц можно сравнить с разветвленной системой дорог, каждая из которых по триллиону раз пересекается с другой. Подобная система соотношения “многие ко многим” позволяет максимально быстро изучать петабайты данных”, – сообщает в блоге компании Джесси Алперт.

itua.info


Новини IT » Інтернет » Триллион веб-страниц записано на счет Google

Опубліковано


Останні новини IT: