Google 技術講演会

Google のエンジニアを招いての講演会があった。SawzallやMapReduce の説明が主だったが、面白かったところをメモしておく。
http://labs.google.com/papers/

スペルチェック

検索語は固有名詞が多く、一般の辞書引きのスペルチェックは役に立たない。ウェブ全体をコーパスとして利用して確率分布で推測することで正確なスペルチェック(「もしかして」)が実現できる。

統計的機械翻訳

現在は文法的な解析を行う古典的な機械翻訳よりも、統計的機械翻訳の方が優れている。統計的機械翻訳では文法規則は一切使わない。膨大な対訳情報を、規定の評価値が最大になるように組み合わせるだけだ。カタコトの外国語のように、文法的には自然ではないが、それでも十分に意味が分かる翻訳を提供する。文章が正しいかどうかの判断を、聞いたことがあるかどうかで決めるのは実際の人間の言語活動に近い。