Триллион веб-страниц записано на счет Google

Стало известно, что интернет-поисковик Google.com завершил индексацию триллионной по счету веб-страницы. В официальном блоге компании говорится, что поисковик ведет создание индекса уже 10 лет – с августа 1998 года.

В поисковом индексе Google.com до конца 1998 года насчитывалось уже 26 млн страниц. В 2000 году был проиндексирован первый миллиард страниц. “За последние 8 лет интернет значительно вырос и увеличились объемы данных в поисковом сервисе”, – говорит Джесси Алперт, программный инженер Google.

В Google заявляют, что поисковик уже давно научился отыскивать и удалять из индекса дубликаты страниц и страницы с разными адресами. “Старт работы по индексированию начался с того, что поисковый робот начал запоминать содержимое страниц и следовать по гиперссылкам, присутствующими на данных страницах.
Переходя с сайта на сайт и запоминая содержимое уже изученных страниц, система постоянно следует по ссылкам. В реальности Google.com проиндексировал уже более триллиона страниц, однако далеко не все из них являются уникальными автономными страницами. Многие из них имеют по несколько адресов, другие являются автокопиями друг друга”, пишет в официальном блоге компании Ниссан Хаджай, один из разработчиков поисковой системы.

Специалисты Google говорят, что поисковик существует для того, чтобы избежать бесконтрольного увеличения поискового индекса должен обладать изрядной долей интеллекта и отличать автоматически генерируемые страницы от настоящего пользовательского контента.

“Например многие онлайновые календари, работающие в интернете, имеют ссылку “следующий день”, нажав на которую можно начать планирование на предстоящий день, однако парадокс состоит в том, что продвигаться по данной ссылке, каждый раз нажимая “следующий день” можно до бесконечности. Потому реальный размер интернета с точки зрения поисковой системы зависит только от того, насколько строги параметры индексирования робота и насколько он способен распознать степень полезности той или иной страницы”, – замечают в Google.

Це цікаво: Огляд Google Pixel 8

Прежде в Google применялась своеобразная узловая система работы с веб-данными. Так один компьютер мог обсчитать граф информации для PageRank из 26 млн страниц за пару часов и эта информация использовалась в качестве индекса на протяжении жестко указанного периода времени. В случае с Google.com этот временной промежуток составлял пару дней.

На сегодняшний день, как сообщают в компании, пополнение веб-данных не останавливается ни на секунду, а благодаря распределенной системе обсчета данных и оперативному обновлению информации весь поисковый индекс ранжируется заново по несколько раз в сутки.

“Такой граф из триллиона страниц можно сравнить с разветвленной системой дорог, каждая из которых по триллиону раз пересекается с другой. Подобная система соотношения “многие ко многим” позволяет максимально быстро изучать петабайты данных”, – сообщает в блоге компании Джесси Алперт.

itua.info

Триллион веб-страниц записано на счет Google

ASUS AI PC – комп’ютер нової ери

Lenovo Advances Focus on Customer Security with new AI-powered Cyber Resiliency as a Service

Стабільний зв’язок та розвиток smart city: Київщина та Vodafone підписали меморандум про співпрацю

LG збільшує свою присутність в Європі завдяки виставці кухонних рішень на MDW 2024

Підтримка екології та зниження витрат на електроенергію: програмне забезпечення для бізнесу Intelligent Power Manager від Eaton

Травень 2024
Пн	Вт	Ср	Чт	Пт	Сб	Нд
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31