AIとは：検索エンジンランキング

Colin de la Higuera; Jotsna Iyer

17 AIとは：検索エンジンランキング

2000年代初頭の検索エンジンと比較すると、現在の検索エンジンはより豊かで深い分析を行います。例えば、単語を数えるだけでなく、単語の背後にある意味を分析し比較することができます¹。この豊かさの多くはランキング処理の中で実現されます：

ステップ４: クエリ用語がインデックス用語と照合される

出典: https://ai.googleblog.com/2021/12/a-fast-wordpiece-tokenization-system.html, A Fast WordPiece Tokenization System, By Xinying Song and Denny Zhou and “Vintage Disney Mary Poppins Plate by Sun Valley Melmac” by GranniesKitchen is licenced under CC BY 2.0. このライセンスのコピーを見るには、https://creativecommons.org/licenses/by/2.0/を訪れてください。

ユーザーがクエリを入力して検索をクリックすると、クエリが処理されます。ドキュメントテキストと同様の処理でトークンが作成されます。その後、クエリに他のキーワードを追加して拡張される場合があります。これは、クエリがウェブコンテンツの著者のものとはわずかに異なる単語を使用しているために関連ドキュメントが見つからない状況を避けるためです。これはまた、習慣や使用法の違いを捉えるためにも行われます。例えば、大統領、首相、宰相といった単語の使用は、国によって置き替わる場合があります¹。

ほとんどの検索エンジンはユーザーの検索履歴を追跡しています（詳細は人気のある検索エンジンの説明を参照）。検索クエリはユーザーデータと共に記録され、コンテンツをパーソナライズしたり広告を配信したりするために利用されます。あるいは、全ユーザーの記録をまとめて分析し、検索エンジンの性能をどこでどのように改善すべきかを判断します。

ユーザーログには、過去の検索クエリ、検索結果ページ、および効果のあった情報などが含まれます。例えば、ユーザーが何をクリックし、何に時間を費やして読んだのかといった情報です。ユーザーログを用いることで、各クエリを関連文書（ユーザーがクリック、閲覧しセッションを終了）と非関連文書（ユーザーがクリックせず、閲覧せず、またはクエリの言い換えを試みた）に分類できます²。

これらのログを使用すると、新しいクエリを類似した過去のクエリと照合することができます。あるクエリが別のクエリと類似しているかを確認する一つの方法は、ランキングが同じドキュメントを返すかどうかをチェックすることです。類似のクエリが常に同じ単語を含んでいるわけではありませんが、結果は同じである可能性が高いです²。

クエリを拡張するためにスペルが追加されます。これは、過去の関連ドキュメントで頻繁に現れる他の単語を調べることによって行われます。ただし一般的には、非関連ドキュメントよりも関連ドキュメントで頻繁に現れる単語がクエリに追加されるか、追加の重み付けがされます²。

ステップ５: 関連ドキュメントがランク付けされる

各ドキュメントは関連性に基づいてスコアが付けられ、このスコアに従ってランク付けされます。ここでの関連性には、トピックの関連性 – ドキュメントのインデックス用語がクエリのものとどれだけよく一致するか、およびユーザーの関連性 – それがユーザーの好みとどれだけよく一致するかの両方が含まれます。ドキュメントのスコアリングの一部はインデックス作成中に行うことができます。検索エンジンの速度はインデックスの品質によります。その効率は、クエリのドキュメント適合度、およびランキングシステムに基づいています²。

ユーザーの関連性は、過去の検索用語、訪問したサイト、メールメッセージ、使用しているデバイス、言語、地理的位置に基づいて作成されたユーザーモデル（またはパーソナリティタイプ）によって測定されます。クッキーはユーザーの好みを保存するために使用されます。一部の検索エンジンは第三者からユーザー情報を購入することもあります（いくつかの検索エンジンの説明を参照してください）。例えば、サッカーに興味があるユーザーが「マンチェスター」を検索した場合の結果は、ちょうどロンドン行きの航空券を予約したユーザーとは異なります。個人に関連付けられたドキュメントに頻繁に出現する単語が最も重要視されます。

商用ウェブ検索エンジンは、ランキングアルゴリズムに数百の特徴を組み込んでいます。多くは、クエリログ蓄積された膨大なユーザーインタラクションデータから導き出されたものです。ランキング関数は、ドキュメント、クエリ、およびユーザーの関連性の特徴を組み合わせます。いかなるランキング関数が用いられても、堅固な数学的基盤があります。出力は、ドキュメントがユーザーの情報ニーズを満たす確率です。一定の関連性確率を超えると、そのドキュメントは関連性があると分類されます²。

MLは、ログの暗黙のユーザーフィードバック（つまり、以前のクエリで何がうまくいったか）に関するランキングを学ぶために使用されます。MLはまた、人間が言語をどのように使用するかに関する洗練されたモデルを開発するためにも使用されています。これは、クエリを解読するために使用されます^1,2。

過去10年間でウェブ検索の進歩は驚異的でした。しかし、特定のクエリの文脈を理解することに関しては、ユーザーがより良いクエリを提供することに代わるものはありません。通常、より良いクエリは、検索結果を検討し、クエリを再構成するユーザーから生まれます²。

ステップ６: 結果が表示される

“Gumshoe DuckDuckGo Results” by jrbrusseau is licenced under CC BY-SA 2.0. このライセンスのコピーを見るには、https://creativecommons.org/licenses/by-sa/2.0/?ref=openverseを訪れてください。

結果が準備できました。ページのタイトルとURLが表示され、クエリ用語は太字で表示されます。各リンクの後には短い要約が生成されて表示されます。要約ではドキュメント内の重要な箇所が強調して表示されます。

この点において、文は見出し、メタデータの説明、またはクエリに最も適合するテキストから抽出されます。クエリの全語句がタイトルに含まれる場合、それらは抜粋欄では繰り返されません²。文はまた、どれだけ読みやすいかに基づいて選択されます。

検索結果には適切な広告が表示されます。検索エンジンは広告を通じて収益を得ています。一部の検索エンジンでは「スポンサー提供」と明示されますが、そうでないものもあります。多くのユーザーが最初の数件の結果しか見ないため、広告は検索プロセスを大きく変える可能性があります。

広告は、検索クエリの文脈とユーザーモデルに基づいて選択されます。検索エンジン企業は広告データベースを管理しています。このデータベースを検索し、特定のクエリに対して最も関連性の高い広告を見つけます。広告主は自社製品に関連するトピックを表すキーワードに対して入札を行います。入札額と広告の人気度はいずれも、選択プロセスにおける重要な要素です²。

事実に関する質問に対しては、一部の検索エンジンが独自の事実データベースを使用します。GoogleのKnowledge Vaultには、様々な情報源からインデックス化された10億件以上の事実が蓄積されています³。検索結果はMLアルゴリズムによって適切なグループに分類されます。最後に、ユーザーにはクエリの代替案も提示され、より適切な結果かどうかを確認できます。

参考文献

Googleの起源については、Brin and Pageのオリジナル論文を参照。Pagerankの数学的背後の一部は、WikiのPageRankにあります。数学好きな人のために、Pagerankのわかりやすい説明はこちら。

¹ Russell, D., What Do You Need to Know to Use a Search Engine? Why We Still Need to Teach Research Skills, AI Magazine, 36(4), 2015.

²Croft, B., Metzler D., Strohman, T., Search Engines, Information Retrieval in Practice, 2015.

³ Spencer, S., Google Power Search: The Essential Guide to Finding Anything Online With Google, Koshkonong, Kindle Edition.

Licence

Icon for the Creative Commons Attribution 4.0 International License