しかしそれは、自動解釈システムにとっては問題になる。そうしたシステムは、文脈およびこれまでの言葉の使われ方を大きな拠り所として、Twitterユーザーが話題にしている内容を厳密に解釈しようとするからだ。そしてそのどちらも、Twitterに不意に現れたかと思うとすぐに消えてしまうミームを解読するにはあまり役に立たない。ここで自動解釈システムが出てくる唯一の理由は言うまでもなく、Twitterは自動解釈システムを利用して、短期間ではあるが相当に強力であることの多い検索の急増に反応して、プロモツイートやプロモフィードといった「関連度の高い」広告を表示させているからだ。
別の言い方をすれば、Twitterが抱えているのは機能面の問題ではなく、売り上げの問題だ。そしてそれこそ、Chen氏とJain氏がクラウドソース先のゆかいな仲間たちとともに解決しようと乗り出した問題である。
もちろんデータサイエンティストたちは、そのようなことを正面切っては言えない。そのため2人は記事で、Twitterのデータシステムの仕組みを説明している。「トポロジー」「ボルト」「スパウト」「タプルストリーム」「Kafkaキュー」といった用語でいっぱいの説明だ。代表的な文章は次のようなものだ。
Stormトポロジーは、スパウトをKafkaキューに接続し、そのスパウトは、クエリやそのほかのメタデータ(クエリが発行された時間とその場所など)を含むタプルをボルトに送信し、処理する。
この技術的説明の要点は、新しい検索キーワードやハッシュタグが、解釈を必要とするほどの人気に達したことを判断するための、素敵な新しい方法がTwitterにはあるということだ。そしてその時点で、その新しい検索キーワードやハッシュタグがAmazonの「Mechanical Turk」サービスの作業者に外注される。Mechanical Turkについて筆者は聞いたことがなかったのだが、これは基本的には、人間による解釈を必要とするデータ作業を、世界中にいる大勢の作業者に外注する、自動化された契約ベースのサービスである。Amazonはそれを「人為的な(Artificial)人工知能(Artificial Intelligence)」とうまく言い表している。
しかし、あらゆるMechanical Turkの作業者にTwitterの仕事が行くわけではない。Twitterは人気の検索キーワードの「評価」を行うために、一定数のMechanical Turk作業者を選り抜いている。その評価の方法は基本的に、フォーラムやチャットルームで検索キーワードについて議論した上で、そのキーワードが関連するカテゴリや画像、動画をTwitterに報告するというものだ。Twitterはこのエリートチームを信頼しているため、1回の評価の結果だけで、新しい検索キーワードの分類を始めることができる。
次に、適切な種類の広告を表示させるために、同社の広告エンジンを調整する。例えば、#bindersfullofwomenというハッシュタグには、Office Depotの広告ではなく、@barackobamaか@mittromneyの広告を表示する。
Twitterは、作業を依頼している作業者は何人いて、報酬はどのくらいかといった、人間の作業者に関する筆者の質問には回答しなかった。そのため、Mechanical Turkは一般的には、必ずしも気前の良い雇用主ではないということに触れておくのが良いだろう。記事の執筆時点でMechanical Turkのリストに掲載されていた最も実入りの良い「Human Intelligence Task(HIT、人間の知性を用いなければできない作業)」10件の賃金は、最高額である「5時間36分の動画の書き起こしとタグ付けの作業」の135.65ドルから、最低額である「300語のレビュー記事を書く作業」の11ドルまで幅があった。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
企業や自治体、教育機関で再び注目を集める
身近なメタバース活用を実現する
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
パナソニックのV2H蓄電システムで創る
エコなのに快適な未来の住宅環境