ニーズ

現代のニュース サイクルは常に加速しています。 出版社にとって、充実した質の高いジャーナリズムを提供するのは難しい作業です。 出版社は、膨大なアーカイブからさまざまなタイプの関連コンテンツをすばやく分類して見つける必要があります。 このように多種多様なデータをスキャンするプロセスは、Microsoft AI を使用する絶好の機会です。

アイデア

Azure Cognitive Search で駆動する Azure AI ナレッジ マイニング ソリューションを活用することで、アーカイブ内のさまざまなコンテンツの種類と形式を識別する特定の AI モデルを適用できました。それにより、ジャーナリズムのプロセスのスピードとスケーリングの向上につながる洞察を、簡単に手に入れることができます。

ソリューション

Microsoft News チームとの協力により、Azure Cognitive Search、オブジェクト ビジョン、OCR の力を活用してページ レイアウトを分析し、テキストや画像、索引付け用の主要なエンティティを抽出するための AI 取り込みパイプラインを形成しました。 その後、これらのエンティティをインテリジェントな方法でリンクして、ジャーナリストに強力なナレッジ マイニング ツールを提供し、必要な特定のコンテンツをすばやく見つけられるようにします。

Insights and Discovery Accelerator に関する技術的な詳細

1857 年以来出版を行っている  The Atlantic のようなブランドの場合、写真、記事、長編の記事、広告などの膨大なアーカイブを検索する必要があります。

Microsoft News は、世界で最も影響力があり評判の高い 4,500 の報道機関と連携して作業を行っていますが、コンテンツ検索はジャーナリストに共通する頭の痛い問題であることがわかりました。 ニュースのアーカイブには、障害となるいくつかの課題があります。

  • タグ付け: 手動によるタグ付けは時間と手間がかかり、標準化されておらず、しばしば不正確であり、主観的です。 コンテンツをデジタル化する際に、今後検索するであろうものが「重要」としてタグ付けされるでしょうか?
  • メディアの種類: 一部のアーカイブはデジタル化されていますが、多くの資料は未だに紙ベースのままです。つまり、保存が必要な破損しやすい本やドキュメントをざっと読み通す必要があるということです。
  • フォーマット: 雑誌は、2 列または 3 列構造だったり、本文からの抜粋を使ったリード文を使用していたり、ページ飛ばしや埋め込み広告などがあったり、レイアウト要素が多様です。 どんな雑誌でも、テンプレートは時間の経過とともに変わりがちです。 強制レイアウトは、新しいレイアウトにリフローするときに、不適切な禁則処理を行ってしまいます。 典型的な OCR スキャンはページ全体で左から右に実行されます。その際、列の区切りを無視するため、索引付けの問題を引き起こします。

豊富なデータセットは、組織化しないと扱いにくい場合があります。 ソリューションは、発行号、著者、発行年など、データ内の主要な要素をより簡単にナビゲートできるツールを構築することでした。

Microsoft Digital Transformation のパートナーである Microsoft News and Unify は、The Atlantic などのメディア組織がアーカイブを解読して貴重な洞察に簡単にアクセスできるようにするソリューションを作成しました。 その一環として、特定の中核機能に関して、アーカイブ内の経年変化を分析しました。 これらのサブセットが作成されると、Insights and Discovery Accelerator は各年代からランダムにサンプリングされた約 500 の記事にラベルを付けて、ドキュメントのセグメント ラベルの予備的な識別特性を決定しました。 鍵となったのは、さまざまなレイアウトで記載されたコンテンツを探索することでした。

ラベル付けの演習に続いて、ドキュメントとバウンディング ボックスのラベルが Azure にアップロードされ、Azure Custom Vision モデルをトレーニングし、ドキュメント セグメント、列、その他の境界を識別しました。

この新しいスキルは、Azure Cognitive Search エンリッチメント パイプラインに統合されて、既知のエンティティ (人、場所、日付など) を抽出し、ナビゲートしやすいデータの視覚化でそれらの関係を表示して、ファセットの検索エクスペリエンスを強化します。

リソース:

プロジェクト IDA に関連するプロジェクト

ビジネス シナリオのプロジェクトをもっと見る

AI の可能性を探る

Microsoft AI の学習リソースと開発ソリューションで、独自の AI イノベーションをすぐに始めることができます。