【翻訳】匿名情報筋によるGoogle Search API仕様書の内容と信憑性は?(Rand Fishkin, Spark Toro)

sparktoro.com

5月5日(日)、私はGoogleの検索部門の内部から流出した膨大なAPIドキュメントにアクセスできると主張する人物からメールを受け取りました。メールではさらに、これらの流出ドキュメントは元Google社員によって本物であると確認されたと主張し、元社員やその他の人物がGoogleの検索業務に関する追加の非公開情報を共有していると主張しました。

彼らの主張の多くは、Google社員による長年にわたる公式声明と直接矛盾しており、特に、クリック中心のユーザーシグナルが採用されているという繰り返し否定「クリック中心のユーザーシグナル」 が使用されているという否定、「サブドメインは個別にランキングで考慮されている」という否定 新しいウェブサイト用のサンドボックス拒否ドメインの年齢が収集または考慮される拒否、その他。

当然ながら、私は懐疑的でした。匿名を希望したこの情報源の主張は、驚くべきものでした。

  • 初期の頃、Google の検索チームは、検索エンジンの結果の質を向上させるために、ウェブユーザーの大部分に対して完全なクリックストリームデータ(ブラウザが訪問したすべての URl)が必要だと認識していました。
  • 「NavBoost」と呼ばれるシステム(検索担当副社長のパンデュ・ナヤクが司法省への証言で引用)は、当初、Googleツールバーページランク であり、より多くのクリックストリームデータの取得が、Chromeブラウザ(2008年にローンチ)作成の主な動機となりました。 NavBoostは、特定のキーワードに対する検索回数からトレンドの検索需要を特定し、検索結果に対するクリック数(私は2013年から2015年にかけてこれについていくつかの実験 を50644430回を行いました)、また、ロングクリックとショートクリック(これについては、2015年のこの動画で理論を提示しました)。
  • Googleは、手動および自動のクリックスパム対策として、クッキー履歴、ログイン中のChromeデータ、パターン検出(リークでは「アンスクウォッシュ」クリックと「スクウォッシュ」クリックと呼ばれています)を効果的な手段として活用しています。
  • NavBoost は、ユーザーの意図をクエリにスコア付けします。例えば、動画や画像に対する一定の注意やクリックのしきい値を超えると、そのクエリと関連する NavBoost 関連クエリに対して動画や画像の機能が有効になります。 Googleは、メインのクエリ(「NavBoostクエリ」と呼ばれます)中およびクエリ後に検索に対するクリックとエンゲージメントを調査します。例えば、「Rand Fishkin」を検索した多くのユーザーが「SparkToro」を見つけられず、すぐに検索語句を「SparkToro」に変更し、検索結果のSparkToro.comをクリックした場合、「Rand Fishkin」キーワードの検索結果でSparkToro.com(「SparkToro」が言及されているウェブサイト)が上位に表示されるようになります。
  • NavBoost のデータは、サイトの全体的な品質を評価するためにホストレベルで使用されます(匿名の情報筋によると、これは GoogleSEO「パンダ」 と呼ばれるものかもしれないとのことです)。この評価により、順位が上昇する場合もあれば、下降する場合もあります。
  • ブランド名を含まない検索クエリに完全に一致するドメイン名に対するペナルティ(例:mens-luxury-watches.com や milwaukee-homes-for-sale.net)や、新しい「BabyPanda」スコア、スパムシグナルなどのその他の軽微な要因も、品質評価プロセスにおいて考慮されます。
  • NavBoostのジオフェンスクリックデータでは、国や州/県レベル、モバイルとデスクトップの利用状況を考慮します。ただし、Googleが特定の地域やユーザーエージェントに関するデータを欠いている場合は、クエリ結果に一律にプロセスを適用する場合があります。
  • Covid-19のパンデミックの間、GoogleはCovid関連の検索において上位に表示される可能性のあるウェブサイトに対してホワイトリストを採用しました 同様に、民主的な選挙期間中、Googleは選挙関連の情報として表示すべき(または降格させるべき)サイトに対してホワイトリストを採用しました

そして、これらは氷山の一角にすぎません。

異常な主張には異常な証拠が必要です。そして、これらのうちのいくつかはGoogle/DOJ訴訟で明らかになった情報と重複していますが(そのうちのいくつかは、2020年のこのスレッドで読むことができます)、多くは斬新で、内部情報であることを示唆しています。

そこで、今週の金曜日(5月24日)に(数回のメールのやり取りを経て)、匿名の情報源とビデオ通話を行いました。

匿名化されたスクリーンキャプチャ:ランド氏による情報提供者との通話

5月28日午前10時(太平洋時間)の更新:匿名の情報提供者が名乗り出ることを決意しました。この動画は、情報提供者の正体である、SEOの実務者でありEA Eagle Digitalの創設者であるErfan Azimi氏を公表するものです。

www.youtube.com

メールと電話でのやり取りの前、私はエルファンに会ったこともなければ、彼の名前も聞いたことがありませんでした。彼は自分の身分を伏せてほしいと要望し、私は以下の引用文を記載することだけを許可されました。

鷲は嵐を利用して想像を絶する高みに到達する。 – Matshona Dhliwayo

電話の後、私はErfanの職歴の詳細、マーケティング業界で私たちが共に知っている人々、業界関係者(Google社員を含む)と特定のイベントに一緒にいたという彼らの主張のいくつかを確認することができました。ただし、彼らが主張する会議の詳細や議論の内容については確認できませんでした。

通話中、Erfanはリークそのものを私に見せました。2,500ページ以上のAPIドキュメントには、Googleの内部「Content API Warehouse」から取得されたと思われる14,014の属性(API機能)が含まれていました。ドキュメントのコミット履歴によると、このコードは2024年3月27日にGitHubにアップロードされ、2024年5月7日まで削除されていませんでした。(注:この文書は公開後に編集され、アーファンの身元が明らかになったため、以下では「匿名の情報源」と表記しています)。

この文書は、検索ランキングアルゴリズムにおける特定の要素の重みといったことを示すものではなく、ランキングシステムで使用されている要素を証明するものでもありません。しかし、Googleが収集するデータに関する驚くべき詳細を示しています。以下は、文書のフォーマットの一例です。

クリックの長さ(つまり、Googleの検索結果からクリックしたウェブページに訪問者が滞在する時間)を含む、「良い」クリックと「悪い」クリックに関する漏洩データのスクリーンショット

これらのAPIモジュールのいくつかを説明した後、情報源は、その動機(透明性、Googleに説明責任を求めることなど)と、私がこの記事を公開し、このリークに含まれる多くの興味深いデータの一部を明らかにし、「Google社員が長年広めてきた嘘」をいくつか反証することを期待していると述べました。

Googleの代表(マット・カッツ、ゲイリー・イリーズ、ジョン・ミューラー)が、クリックベースのユーザーシグナルをランキングに使用していないと否定した発言の例

この API リークは本物か? 信用できるか?

このプロセスにおいて次に重要なステップは、API Content Warehouse の文書の信憑性を確認することでした。そこで私は、元 Google の友人たちに連絡を取り、リークされた文書を共有し、彼らの意見を聞きました。元 Google の 3 人が返信をくれました。1 人は、それを見てコメントするのは気が引ける、と答えました。他の 2 人は、次の内容を共有しました(匿名で、記録には残していません)。

  • 「私はそこで働いていたとき、このコードにアクセスできませんでした。しかし、これは間違いなく本物です。」
  • 「これは Google の内部 API の特徴をすべて備えています。」
  • JavaベースのAPIです。誰かが、Google独自の内部標準に則って、ドキュメントと命名に多くの時間を費やしています。」
  • 「確認するにはもう少し時間が必要ですが、私が知っている内部文書と一致しています。」
  • 「ざっと見た限りでは、これが合法的でないことを示すものは何もありません。」

次に、命名規則やドキュメントのより技術的な側面を分析し、解読する上で助けが必要でした。私はAPIを少し扱ったことはありますが、コードを書いたのは20年前、SEOを専門的に実践したのは6年前です。そこで、世界屈指のテクニカルSEOの1人に連絡を取りました。Mike King氏です。氏はiPullRankの創設者です。

金曜日の午後、40分間の電話インタビューで、マイクはリークされた文書を確認し、私の疑念を裏付ける結果となりました。これは、Googleの検索部門の内部文書である可能性が高いGoogleの内部事情について、これまで確認されていなかった情報が非常に多く含まれているのです。

2,500もの技術文書を、たった一人の人物(しかも父親であり、夫であり、起業家でもある)が週末の2日間でレビューするのは無理があります。しかし、それでもマイクは全力を尽くしました。 彼はGoogle API リークの非常に詳細な初期レビューをこちらにまとめています。これは、以下の調査結果でさらに詳しく言及します。また、10月8日にワシントン州シアトルで開催されるSparkTogether 2024にも参加して、この情報漏えいについて、今後数か月の分析結果を踏まえて、より詳細に、完全に透明性のあるストーリーを語ってくれることになりました。


このポストに求められる資格と動機

先に進む前に、いくつか免責事項があります。私は現在、SEOの分野では働いていません。SEOに関する知識や経験は6年以上も古いものです。APIドキュメントの漏洩を分析し、それが本物であることを確実に確認するためのGoogleの内部業務に関する技術的な専門知識も知識もありません(そのため、マイクと元Google社員の意見を取り入れました)。

では、なぜこのトピックについて記事にするのでしょうか?

なぜなら、私にこの情報を送ってきた人物と話をしてみて、彼らが信頼でき、思慮深く、深い知識を持っていると感じたからです。私は懐疑的な気持ちで話を進めましたが、問題となる点や悪意のある動機は見つかりませんでした。この人物は、非公開の会話やリークされた文書と相反する公式声明についてGoogleに説明責任を求め、検索マーケティングの分野にさらなる透明性をもたらすという、私と同じ目標を持っているように見えました。そして、彼らは私がSEOの世界から遠ざかっているとはいえ、この情報を公開するのに最も適した人物だと考えていました。

これは私が20年近く深く関心を寄せてきた目標です。そして、私の職業人生は進んできましたが(現在は、オーディエンスリサーチソフトウェアを開発するSparkToroと、インディーズのビデオゲーム開発会社であるSnackbar Studioの2つの会社を経営しています)、検索エンジン最適化の世界に対する興味とつながりは依然として強いままです。私は、世界の主要な検索エンジンがどのように機能しているか、特にGoogleが隠しておきたいと思っているような情報を共有する義務を強く感じています。そして悲しいことに、これほど画期的な可能性を秘めた情報を他にどこに送ればよいのかわかりません。

数年前、ジャーナリズムの世界を離れ、Googleの検索担当となったダニー・サリバン氏なら、このような重大情報のリーク源として最適だったでしょう。彼は、このような主張を検証し、世論の法廷で公正に提示するだけの重厚さ、経歴、知識、経験を備えていたのです。ここ数年、このようなニュース価値のある記事に対して、ダニーが冷静かつ公平、そしてGoogleに対して厳しくも公正なアプローチをとってくれることを何度も願ってきました。このような記事は、同社の証言台での声明にまで及ぶ可能性がありました(例えば、Googleのオーガニックキーワードデータに関する弁明の余地のないプライバシー主張について彼が雄弁に書いたものなど)。

Googleが彼にいくら支払っているにせよ、それは十分ではありません。

親愛なる読者の方、ダニーの代わりに私が登場することをお許しください。しかし、せっかくなので、私の経歴や資格についてご存じないかもしれないと思い、簡単にご紹介させていただきます。

さて、Googleのリーク情報に戻ります。


Google API Content Warehouseとは何か?

膨大な API ドキュメントをざっと目を通す際、最初に思い浮かぶ疑問は「これは何?何に使うの?そもそもなぜ存在するの?」でしょう。

この情報流出は GitHub からのものであるようです。流出の最も信憑性の高い説明は、匿名の情報源が電話で私に話した内容と一致しています。これらのドキュメントは、不注意により短期間公開されてしまったのです(ドキュメント内の多くのリンクは、GitHubの非公開リポジトリGoogleの企業サイト内の内部ページを指しており、Googleの認証情報を持つ特定のログインが必要です)。2024年の3月から5月にかけて、おそらく偶然に公開されたと思われる期間中、APIのドキュメントはHexdocs(GitHubの公開リポジトリをインデックスする)に拡散し、他のソースによって発見・流通しました(他の人もコピーを持っていると確信していますが、これまで公開された議論を一切見つけられなかったのは奇妙です)。

Google社員の情報によると、このようなドキュメントはGoogleのほぼすべてのチームに存在し、プロジェクトに携わる人々が利用可能なデータ要素に慣れるのを助けるために、さまざまなAPI属性やモジュールについて説明しています。このリークは、GitHubの公開リポジトリGoogleのCloud APIドキュメントに掲載されている他のものと一致しており、同じ表記スタイル、フォーマット、さらにはプロセス/モジュール/機能名や参照が使用されています。

技術的な専門用語が多くて分かりにくいと思われるかもしれませんが、これはGoogle検索エンジンチームのメンバー向けの指示書だと考えてください。これは、図書館の蔵書目録のようなもので、利用可能なリソースとその入手方法を、知る必要がある社員に伝えるものです。

しかし、図書館は一般に公開されているのに対し、Google検索は世界で最も秘密主義で厳重に守られたブラックボックスの1つです。過去25年間、Google検索部門からこれほど大規模かつ詳細な情報の漏洩は一度も報告されていません

Google検索エンジンが、これらの API ドキュメントに詳細に記載されているすべての機能を使用していると、どの程度確信できるか?

これは解釈の余地があります。Google はこれらのうちのいくつかを廃止し、他のものをテストや社内プロジェクトにのみ使用していた可能性もあります。また、実際には使用されていない API 機能を利用可能にしていた可能性もあります。

しかし、廃止された機能に関する言及や、使用すべきではないことを示す特定の注釈がドキュメント内にあります。これらの詳細が記載されていない機能は、2024年3月の情報漏洩時点でまだ使用されていた可能性が高いことを強く示唆しています。

また、3月のリークが、この文書の最新バージョンであるかどうかについても、確かなことは言えません。APIドキュメントで参照できる最も新しい日付は2023年8月です。

該当のテキストは以下の通りです。

google.com のような、ウェブサイトのドメインレベル表示名。詳しくは go/site-display-name を参照してください。2023年8月現在、このフィールドは廃止され、info.[AlternativeTitlesResponse].site_display_name_response フィールドに置き換えられています。このフィールドには、ホストレベルのサイト表示名と追加情報が含まれています。」

常識的な読者であれば、このドキュメントは昨年の夏時点での最新情報であると結論づけるでしょう(2023年およびそれ以前の年、さらには2005年までの他の変更に関する言及も存在しています)。また、2024年3月の公開時点でも最新情報であった可能性もあります。

Google検索は明らかに年によって大きく変化しており、最近導入された多くの批判を浴びたAIの概要などは、このリークには登場していません。 言及された項目のうち、現在Googleのランキングシステムで実際に使用されているものはどれでしょうか? それは推測の域を出ません。この情報源には、Google検索エンジン技術者以外にとってはまったく新しいものも多い、興味深い情報が含まれています。

しかし、私は読者の皆さんに、このリーク情報から特定の API 機能を見つけ出して、「ほら、Google がランキングに XYZ を使っている証拠だ」などと言わないよう強くお勧めします。これは証拠ではありません。Google の社員による特許申請や公式声明よりも有力な証拠ではありますが、それでも確証があるわけではありません。

とはいえ、これは昨年の司法省裁判でGoogle幹部が証言して以来、決定的な証拠に最も近いものです。そして、その証言について言えば、その多くは文書流出によって裏付けられ、さらに詳しく説明されています。マイクが詳しく説明している通りです。👀

データウェアハウス流出から何を学べるか?

この膨大なファイルセットから、今後何年もかけて興味深いマーケティング上の洞察が引き出されることになるでしょう。このファイルは単に巨大かつ密度が濃すぎるため、週末にざっと目を通しただけで、包括的な教訓をすべて引き出せる、あるいはそれに近いものを見つけ出せるとは思えません。

しかし、私が目を通した中で最も興味深い初期の5つの発見について共有したいと思います。中には、Googleが長い間行っているとされてきたことについて新たな光を当てるものもありますし、同社の公式声明(特に「収集」に関するもの)が誤っていたことを示唆するものもあります。なぜなら、そうすることは面倒であり、個人的な不満として受け取られる可能性があるからです(Googleが私の研究を歴史的に攻撃してきたことを考えると)。そのため、Google社員の発言とこの文書がほのめかす内容とを並べて示すことはしません。それに、Mikeがその点については素晴らしい仕事をしてくれました。

その代わりに、私がレビューすることができたモジュール全体、リークに関するMikeの記事、そしてGoogleについて私たちが知っている他の事実とどのように結びつくかについて、興味深い点や役立つ点、そして私の結論に焦点を当てたいと思います。

#1: Navboost とクリック数、CTR、長押しと短押し、ユーザーデータの利用

ドキュメント内のいくつかのモジュールでは、「goodClicks」、「badClicks」、「lastLongestClicks」、「impression」、「squashed」、「unsquashed」、「unicorn clicks」などの機能について言及しています。これらは Navboost と Glue に関連しており、Google の司法省証言 を読んだ人なら聞き覚えがあるかもしれません。司法省弁護士のケネス・ディンツァーによる、検索品質チームの検索担当副社長パンドゥ・ナヤクの反対尋問からの関連抜粋です。

  1. 思い出させてください。navboostは2005年にまでさかのぼるのですか?
  2. その範囲内です。それ以前の可能性もあります。

  3. 更新されているということですね。昔と同じナビブーストではないということでしょうか? いいえ。

  4. もうひとつはグルーですね?

  5. グルーは、ページ上の他のすべての機能を含む navboost の別名です。

  6. そうです。後でその話をするつもりでしたが、今話してもいいでしょう。Navboostは、私たちが話したとおり、ウェブ検索結果を提供していますよね?

  7. はい。

  8. グルーは、ウェブ検索結果以外のページ上のすべての機能を行うということですね?

  9. その通りです。

  10. 両方を組み合わせることで、検索結果として表示されるコンテンツを見つけ出し、順位付けを行うということでしょうか?

  11. その通りです。どちらもそのためのシグナルです。

API ドキュメントに精通した読者であれば、これらの API がナヤク氏の証言を裏付けていること(そして Googleサイト品質に関する特許 と一致していること)に気づくでしょう。

Googleは、ランキングシステムでカウントしたくないクリックを排除し、カウントしたいクリックを含める方法を持っているようです。また、クリックの長さ(例えば、pogo-sticking – 検索者が検索結果をクリックした後、すぐに戻るボタンをクリックし、検索結果に満足していない場合)やインプレッションも測定しているようです。

Google のクリックデータの使用についてはすでに多くのことが書かれていますので、私はこの点について詳しく述べるつもりはありません。重要なのは、Google がその測定のための機能を命名し、説明していることであり、さらに多くの証拠が積み重なることになります。

#2: Google 検索のパワーアップに Chrome ブラウザのクリックストリームを使用

匿名の情報筋によると、2005年当時、Googleは数十億人のインターネットユーザーのクリックストリームをすべて取得したいと考えており、Chromeによってそれを実現したとのことです。APIのドキュメントによると、Googleは個々のページとドメイン全体の両方に関連するChromeビューを使用して呼び出すことができる、いくつかのタイプのメトリクスを計算しているようです。

この文書は、Googleがサイトリンクを作成する方法に関する機能について説明しており、特に興味深いものです。このドキュメントでは、topUrl という呼び出しが紹介されています。これは、「2-level-score が最も高いトップ URL のリスト、つまり chrome_trans_clicks」です。私の理解では、GoogleChrome ブラウザでのページクリック数を参照し、サイト上で最も人気のある/重要な URL を決定し、サイトリンク機能に追加する URL の計算に使用している可能性が高いです。

例えば、Google の検索結果の上記のスクリーンショットでは、「価格設定」、「ブログ」、「ログイン」ページなどのページが最もよく閲覧されており、Google は数十億人の Chrome ユーザーのクリックストリームを追跡することでそれを把握しています。

#3: 旅行、Covid、政治におけるホワイトリスト

「良質な旅行サイト」に関するモジュールは、良質な旅行サイトに関するホワイトリストGoogleの旅行部門に存在することを、常識的な読者に結論づけるでしょう(これはGoogleの「旅行」検索タブにのみ適用されるのか、それともウェブ検索全般に適用されるのかは不明です)。「isCovidLocalAuthority」および「isElectionAuthority」のフラグが複数の場所で参照されていることは、Googleが極めて物議を醸し出し、潜在的に問題のあるクエリに対して適切と思われる特定のドメインホワイトリスト化している可能性を示唆しています。

例えば、2020年の米国大統領選挙の後、ある候補者が(根拠なく)選挙が盗まれたと主張し、支持者に議事堂を襲撃し、議員に対して暴力的行動(すなわち暴動を起こす)を起こすよう呼びかけました。

Googleは、この出来事に関する情報を入手するために人々が真っ先にアクセスする場所のひとつとなる可能性が高く、同社の検索エンジンが選挙の証拠を不正確に伝えるプロパガンダサイトを検索結果に表示した場合、それはさらなる論争や暴力、さらには米国の民主主義の終焉につながる可能性があります。自由で公正な選挙を継続させたいと考える私たちは、Googleのエンジニアがこのケースでホワイトリストを採用していることを非常に感謝すべきです。

#4: 品質評価者のフィードバックを活用する

Googleは、EWOKという品質評価プラットフォームを長年にわたって提供してきました(SEO業界で著名なリーダーであるサイラス・シェパードは、このプラットフォームに数年間貢献し、こちらで記事を書いています)。現在、品質評価者の要素の一部が検索システムで使用されているという証拠があります。

これらのレーティングに基づくシグナルがどの程度影響力を持つのか、また具体的に何のために使用されているのかは、最初の段階では私には不明ですが、鋭い洞察力を持つSEOの専門家がリークを調査し、さらに詳しく調べて公表するのではないかと私は考えています。私が興味を惹かれるのは、EWOKの品質レーティングによって生成されたスコアやデータが、単なる実験用のトレーニングセットではなく、Googleの検索システムに直接関わっている可能性があることです。もちろん、これらは「テスト用」である可能性もありますが、リークされた文書を閲覧すると、それが事実である場合は、注釈やモジュール詳細で特に明記されていることがわかります。

こちらは、EWOK による評価を元にした「文書ごとの関連性評価」を記載しています。詳細な注釈はありませんが、ウェブサイトに対する人間の評価がどれほど重要かを想像するのは、それほど難しいことではありません。

img

これは「Human Ratings(EWOKによる評価など)」を呼び出し、「通常、評価パイプラインにのみ入力される」と注記しています。これは、このモジュールでは主にトレーニングデータとして使用されている可能性があることを示唆しています(私は、これは依然として非常に重要な役割であり、マーケティング担当者は、質の高い評価者が自社のウェブサイトを正しく評価することの重要性を軽視すべきではないと主張します)。

#5: Google、クリックデータを利用してランキングにおけるリンクの重み付けを決定

これは非常に興味深い情報で、リーク情報を最初に共有した匿名の情報源から直接入手したものです。情報源によると、「Google はリンクインデックスを分類するために 3 つのバケツ/階層(低、中、高品質)を使用しています。クリックデータは、ドキュメントがどのリンクグラフインデックス階層に属するかを決定するために使用されます。SourceType hereTotalClicks hereを参照してください。

  • Forbes.com/Cats/のクリック数がゼロの場合、低品質インデックスに入り、リンクは無視されます Forbes.com/Dogs/が、検証可能なデバイスからのクリック数が多い場合(先に述べた Chrome 関連データすべて)、高品質インデックスに入り、リンクはランキングシグナルを通過します。

リンクが上位のインデックスに属するため「信頼される」ようになった場合、PageRankやアンカーを転送したり、リンクスパムシステムによってフィルタリングや降格の対象となる可能性があります。低品質リンクインデックスからのリンクは、サイトのランキングに影響を与えません。単に無視されるだけです


オーガニック検索トラフィックを重視するマーケティング担当者向けの全体像

オーガニック検索トラフィックの価値を戦略的に重視しているものの、Googleの仕組みに関する技術的な詳細についてはあまり詳しくないという方にとって、このセクションは有益な情報となるでしょう。このリークがカバーする期間(2005年~2023年)におけるGoogleの進化の多くを要約しようというのが私の試みです。また、リークで明らかになっている要素にのみ限定することはありません。

  1. ブランドは他の何よりも重要です

    Googleは、エンティティを特定し、ソート、ランク付け、フィルタリング、そしてそれらを活用するための数多くの方法を持っています。エンティティには、ブランド(ブランド名、公式ウェブサイト、関連ソーシャルアカウントなど)が含まれ、データス社とのクリックストリーム調査で見たように、ウェブを支配する大手ブランドにのみ順位付けを行い、トラフィックを誘導するという避けられない道筋をたどっています。

    オーガニック検索のランキングとトラフィックを総合的に改善したいと考えているマーケティング担当者に対して私がアドバイスできるとしたら、それは「Google検索以外の分野でも、注目度が高く、人気があり、よく知られているブランドを構築する」ということです。

  2. 経験、専門知識、信頼性、権威性(以下「E-E-A-T」)は、一部のSEO担当者が考えるほど直接的には重要ではないかもしれません。 これまでに発見した情報漏洩の中で、トピックに関する専門知識について言及されているのは、Googleマップのレビュー投稿に関する簡単な注釈だけです。E-E-A-Tのその他の側面は、埋もれていたり、間接的であったり、特定しにくい方法でラベル付けされていたり、あるいは(私の考えでは)Googleが利用し、重視しているものと関連している可能性が高かったりするものの、ランキングシステムの具体的な要素ではありません。

    マイクが記事の中で指摘しているように、リークされた文書には、Googleが著者を特定し、システム内の実体として扱うことができることを示唆する記述があります。オンライン上で著者として影響力を高めることは、Googleのランキングで有利になる可能性があります。しかし、ランキングシステムの中で「E-E-A-T」を構成する要素が具体的に何であり、それらの要素がどの程度の影響力を持つのかは、まだ明らかになっていません。E-E-A-T が宣伝が80%、実質が20% であることに少し不安を感じています。Google のランキングで非常に高い順位を獲得している強力なブランドでも、経験、専門知識、信頼性、権威性のいずれについてもほとんど実績がないブランドは数多くあります。HouseFresh の最近のバイラル記事で詳しく説明されています。

  3. ナビゲーションに関するユーザーの意図(そしてその意図が生み出すパターン)が存在する場合、コンテンツやリンクは二の次です。 例えば、シアトル地域の多くの人々が「リーマン・ブラザーズ」を検索し、検索結果の2ページ目、3ページ目、4ページ目までスクロールして、リーマン・ブラザーズの舞台公演の劇場情報を探し、その検索結果をクリックしたとします。Googleはすぐに、その地域でこの語句を検索する人々が求めているものが何かを学習します。

    仮に、2008年の金融危機におけるリーマン・ブラザーズの役割について書かれた Wikipedia の記事が、リンク構築やコンテンツ最適化に多額の投資を行ったとしても、シアトルの劇場ファンのユーザー意図シグナル(クエリとクリックから算出)を上回ることはまずないでしょう。

    この例をウェブ全体や検索全体に拡大すると、ターゲットとする地域の十分な数の検索ユーザーに自社ウェブサイトへの需要を創出できれば、リンク、アンカーテキスト、最適化されたコンテンツなどの従来のオンページおよびオフページのSEOシグナルの必要性を回避できる可能性があります。 Navboostの力とユーザーの意図は、Googleのシステムで最も強力なランキング要因である可能性が高いです。Google の副社長であるアレクサンダー・グルシェツキーは、ダニー・サリバンやパンデュ・ナヤクを含む他の Google の幹部たちへの 2019 年のメールの中で次のように述べています

    私たちはすでに知っています。ある指標において、1つのシグナルが全体的な大きなシステムよりも強力な場合があるのです。例えば、NavBoost単独の方が、クリック数(おそらく精度や有用性指標でも)において、ランキングの他の部分よりもポジティブな結果をもたらしていた(あるいは、今もたらしている)と私は確信しています(ちなみに、Navboostチーム以外のエンジニアも、Navboostのパワーと、それが「勝利を横取りしている」という事実について不満を抱いていました)

    さらに確認したい方は、Google のエンジニア、ポール・ハー氏の詳しい履歴書を確認してください。

    「私はログベースのランキングプロジェクトの管理者を務めています。チームの取り組みは現在、4つの分野に分けられています。1) Navboost。これはすでにGoogleの最も強力なランキングシグナルの1つです。現在の作業は、新しいNavboostデータの構築における自動化です。

  4. 従来のランキング要素であるページランク、アンカー(リンクのアンカーテキストに基づくトピック別ページランク)、テキスト一致は、ここ数年で重要性が低下しています。しかし、ページタイトルは依然として非常に重要です。 これは、マイクによる優れた分析から得られた結果であり、ここで言及しないのは愚かです。PageRankは依然として検索インデックスとランキングにおいて重要な位置を占めているようですが、1998年の論文からほぼ確実に進化しています。この文書流出により、PageRankの複数のバージョン(rawPagerank廃止された「nearest seeds」を参照するPageRank、文書が最初に提供されたときのfirstCoveragePageRankなど)が作成され、長年にわたって破棄されてきたことが示唆されています。また、流出文書にはアンカーテキストリンクが含まれていますが、私がSEOの仕事を始めた当初に予想していたほど重要でも普遍的でもないようです。

  5. 大半の中小企業や新しいクリエイター/パブリッシャーにとって、SEOは、信頼性、ナビゲーション需要、そしてかなりの数のオーディエンスからの高い評価を確立するまで、見返りが少ないものとなる可能性が高いです。 SEOは、人気のあるドメインのブランド力を高めるためのものです。起業家として、私はSEOを無視しているわけではありませんが、今後何年かは、SparkToroがその業界でより人気があり、より検索され、よりクリックされるブランドになるか、あるいはそうならない限り、このウェブサイトは、10年以上前から存在するアグリゲーターやパブリッシャーに、オリジナルコンテンツであっても順位で負けてしまうでしょう。

    これは、他のクリエイター、パブリッシャー、中小企業にもほぼ間違いなく当てはまるでしょう。 有名ブランドを持つ大手人気サイトとの競争がある限り、あなたが作成したコンテンツがGoogleで良い結果を出す可能性は低いでしょう。 Googleは、SEOに精通した、賢く、あらゆるコツを知っているスクラップのような運営者をもはや評価しません。 彼らは、確立されたブランド、検索可能な人気、検索者がすでに知ってクリックする確立されたドメインを評価します。1998年から2018年(くらい)までは、GoogleSEOで強力なマーケティングの好循環を始めるのは妥当でした。2024年には、少なくとも競争の激しい分野の英語ウェブでは、それは現実的ではないと思います。

検索業界における次のステップ

私は、より最近の経験を持ち、より深い技術的知識を持つ実務者がこのリークをどのように分析するのかを見るのが楽しみです。興味がある方は、ドキュメントを掘り下げ、他の公開文書、声明、証言、ランキング実験と結びつけてみること、そして、その結果を発表することを勧めます。

歴史的に、検索業界で最も声高で、最も多くの出版物を発行している一部の出版者は、Googleの公式声明を批判的に吟味することなく喜んで繰り返してきました。彼らは、「GoogleはXYZが真実であると主張している」という見出しを付けるのではなく、「GoogleはXYZを主張しているが、証拠はそうではないことを示唆している」という見出しを付けます。

SEO業界は、このような見出しから利益を得ることはありません

もっと頑張ってください。このリークと司法省による裁判が何か一つでも変化をもたらすのであれば、それがこのことであることを願っています。

この業界に初めて参入した人々が、Search Engine Roundtable、Search Engine Land、SE Journal、SEO分野のニュースを扱う多くの代理店ブログやウェブサイトを読むとき、Googleの声明をどれほど真剣に受け止めるべきなのかを必ずしも理解しているわけではありません。ジャーナリストや著者は、Googleの公式代表者が過去に発表した数十から数百もの公式コメントが後に誤りと判明したことを読者が十分に理解しているとは思い込んではなりません。

この義務は、検索業界を助けることだけではありません。それは、全世界を助けることなのです。Googleは、この地球上で最も強力で影響力のある情報および商取引の普及推進力の一つです。ごく最近になって、ようやく政府や報道機関から責任を問われるようになりました。検索マーケティング分野におけるジャーナリストや作家の仕事は、世論の法廷、選出された役人の会議、そしてGoogle社員の心に大きな影響を与えます。Google社員は皆、より良い方向に物事を変える力を持っているか、あるいはそれを無視する力を持っているかのどちらかであり、そのどちらかを選択すれば、私たち全員にとって危険な状況に陥ることになります。


この文書流出に関する記事作成にあたり、貴重な情報を提供してくださったマイク・キング氏、編集を手伝ってくれたアマンダ・ナティヴィダド氏、そしてこの流出情報を教えてくれた匿名の情報提供者に感謝します。今後数日から数週間の間に、より多くの人の目に触れるようになれば、この記事の更新が行われると思います。もし、私がここで述べた内容に賛同できる、あるいは反論できる情報をお持ちでしたら、下のコメント欄でぜひ共有してください。