kazutagoの日記

読んだ本

Googleを支える技術 ?巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ)

Googleを支える技術 ?巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ)

作者: 西田圭介
出版社/メーカー: 技術評論社
発売日: 2008/03/28
メディア: 単行本（ソフトカバー）
購入: 47人クリック: 1,166回
この商品を含むブログ (374件) を見る

目次

はじめに
第1章　Googleの誕生
第2章　Googleの大規模化
第3章　Googleの分散ストレージ
第4章　Googleの分散データ処理
第5章　Googleの運用コスト
第6章　Googleの開発体制

感想・興味をひいた所

クローリングとは，インターネット上のあらゆるWebページを集めてくる処理です，これには多くの時間が必要となるため，「クローラ」と呼ばれる複数のマシンが分担して作業を進めます。クローラを集めたwebページは一時的に「リポジトリ」と呼ばれる領域に保管されます。
インデックス生成は，リポジトリからwebページを取り出して，検索用のインデックスを作り上げる処理です。これにはさらに，webページの「構造解析」「単語処理」「リンク処理」「ランキング」といったさまざまな過程に分けられます。p13

更に分散処理や大規模なデータストレージを可能とするグーグルはどんな意気込みに検索バックエンドを開発をしているのでしょうか。不思議でなりません。