読んだ本

Googleを支える技術 ?巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ)

Googleを支える技術 ?巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ)

目次

はじめに
第1章 Googleの誕生
第2章 Googleの大規模化
第3章 Googleの分散ストレージ
第4章 Googleの分散データ処理
第5章 Googleの運用コスト
第6章 Googleの開発体制

感想・興味をひいた所

クローリングとは,インターネット上のあらゆるWebページを集めてくる処理です,これには多くの時間が必要となるため,「クローラ」と呼ばれる複数のマシンが分担して作業を進めます。クローラを集めたwebページは一時的に「リポジトリ」と呼ばれる領域に保管されます。
インデックス生成は,リポジトリからwebページを取り出して,検索用のインデックスを作り上げる処理です。これにはさらに,webページの「構造解析」「単語処理」「リンク処理」「ランキング」といったさまざまな過程に分けられます。p13

更に分散処理や大規模なデータストレージを可能とするグーグルはどんな意気込みに検索バックエンドを開発をしているのでしょうか。不思議でなりません。