Insights and Discovery Accelerator
洞察を解き放ち、非構造化データのインテリジェントなつながりを発見しましょう。 Microsoft AI を使用する Insights and Discovery Accelerator は、ジャーナリストが大量のデータから重要なコンテンツを見つけるのを支援することで、調査と研究を迅速化および拡張します。
デモを見る
ニーズ
現代のニュース サイクルは常に加速しています。 出版社にとって、充実した質の高いジャーナリズムを提供するのは難しい作業です。 出版社は、膨大なアーカイブからさまざまなタイプの関連コンテンツをすばやく分類して見つける必要があります。 このように多種多様なデータをスキャンするプロセスは、Microsoft AI を使用する絶好の機会です。
アイデア
Azure Cognitive Search で駆動する Azure AI ナレッジ マイニング ソリューションを活用することで、アーカイブ内のさまざまなコンテンツの種類と形式を識別する特定の AI モデルを適用できました。それにより、ジャーナリズムのプロセスのスピードとスケーリングの向上につながる洞察を、簡単に手に入れることができます。
ソリューション
Microsoft News チームとの協力により、Azure Cognitive Search、オブジェクト ビジョン、OCR の力を活用してページ レイアウトを分析し、テキストや画像、索引付け用の主要なエンティティを抽出するための AI 取り込みパイプラインを形成しました。 その後、これらのエンティティをインテリジェントな方法でリンクして、ジャーナリストに強力なナレッジ マイニング ツールを提供し、必要な特定のコンテンツをすばやく見つけられるようにします。
160 年以上のアーカイブに潜んだ洞察を発見
Azure Cognitive Search は、さまざまなファイル形式を取り込み、カスタム AI モデル、OCR、エンティティ抽出、ドキュメント分類を適用します。 ドキュメント セグメント、エンティティ、その他の主要コンポーネント (筆者、ページ番号、発行号など) を識別してラベル付けする際に、驚異的な正確さを達成できます。
Insights and Discovery Accelerator に関する技術的な詳細
1857 年以来出版を行っている The Atlantic のようなブランドの場合、写真、記事、長編の記事、広告などの膨大なアーカイブを検索する必要があります。
Microsoft News は、世界で最も影響力があり評判の高い 4,500 の報道機関と連携して作業を行っていますが、コンテンツ検索はジャーナリストに共通する頭の痛い問題であることがわかりました。 ニュースのアーカイブには、障害となるいくつかの課題があります。
- タグ付け: 手動によるタグ付けは時間と手間がかかり、標準化されておらず、しばしば不正確であり、主観的です。 コンテンツをデジタル化する際に、今後検索するであろうものが「重要」としてタグ付けされるでしょうか?
- メディアの種類: 一部のアーカイブはデジタル化されていますが、多くの資料は未だに紙ベースのままです。つまり、保存が必要な破損しやすい本やドキュメントをざっと読み通す必要があるということです。
- フォーマット: 雑誌は、2 列または 3 列構造だったり、本文からの抜粋を使ったリード文を使用していたり、ページ飛ばしや埋め込み広告などがあったり、レイアウト要素が多様です。 どんな雑誌でも、テンプレートは時間の経過とともに変わりがちです。 強制レイアウトは、新しいレイアウトにリフローするときに、不適切な禁則処理を行ってしまいます。 典型的な OCR スキャンはページ全体で左から右に実行されます。その際、列の区切りを無視するため、索引付けの問題を引き起こします。
豊富なデータセットは、組織化しないと扱いにくい場合があります。 ソリューションは、発行号、著者、発行年など、データ内の主要な要素をより簡単にナビゲートできるツールを構築することでした。
Microsoft Digital Transformation のパートナーである Microsoft News and Unify は、The Atlantic などのメディア組織がアーカイブを解読して貴重な洞察に簡単にアクセスできるようにするソリューションを作成しました。 その一環として、特定の中核機能に関して、アーカイブ内の経年変化を分析しました。 これらのサブセットが作成されると、Insights and Discovery Accelerator は各年代からランダムにサンプリングされた約 500 の記事にラベルを付けて、ドキュメントのセグメント ラベルの予備的な識別特性を決定しました。 鍵となったのは、さまざまなレイアウトで記載されたコンテンツを探索することでした。
ラベル付けの演習に続いて、ドキュメントとバウンディング ボックスのラベルが Azure にアップロードされ、Azure Custom Vision モデルをトレーニングし、ドキュメント セグメント、列、その他の境界を識別しました。
この新しいスキルは、Azure Cognitive Search エンリッチメント パイプラインに統合されて、既知のエンティティ (人、場所、日付など) を抽出し、ナビゲートしやすいデータの視覚化でそれらの関係を表示して、ファセットの検索エクスペリエンスを強化します。
リソース:

JFK Files
JFK Files は、写真、手書きドキュメント、政府ドキュメントなどを含む 34,000 ページもの複雑なファイルを取り込み、判読可能な情報を抽出します。 この知識は、新しい方法で情報を探索できるよう整理されます。

機械読解
MRC (Machine Reading Comprehension) は、書かれたテキストに関する質問に答えます。 ニューラル ネットワークを使用して、MRC は人間が文章を読む際のプロセスを模倣します。 質問をすると、MRC は回答が形成されるまでドキュメントを読み取ります。

責任ある対話型 AI
対話型 AI は、デジタル アシスタント、チャット、ソーシャル メディアなど、あらゆるチャネルで企業が顧客と対話できる新しい方法です。 その可能性を最大限に実現するため、対話型ボットはユーザーの信頼が得られる方法で開発する必要があります。

Gen Studio
Gen Studio は、メトロポリタン美術館 (The Met)、Microsoft、MIT が共同作業により作り上げたプロトタイプです。 Gen Studio は AI を使用して、The Met のアート コレクションを視覚的にナビゲートします。
AI の可能性を探る
Microsoft AI の学習リソースと開発ソリューションで、独自の AI イノベーションをすぐに始めることができます。

AI スクール
AI テクノロジのコースで、独自の AI エクスペリエンスを作成する方法が学べます。 対話型 AI、機械学習、デバイス向け AI、コグニティブ サービス、自律システム、AI ビジネス戦略、責任ある AI といったラーニング パスが用意されています。

AI プラットフォーム
強力なツールとサービスで AI ソリューションの構築を開始しましょう。 Microsoft AI は、対話型 AI、機械学習、データ科学、ロボット工学、IoT などの AI ソリューションを開発するための、強固なフレームワークです。