
最近、CTOのケリー・ライアンと話をして、Sapienプラットフォームの革新的な機能を探る機会がありました。熟練したラベラーの分散型ネットワークから、ゲーミフィケーションツールや専用モジュールに至るまで、当社のプラットフォームは、AI モデルトレーニングの規模を拡大する企業にとって、新しく、非常に効果的なソリューションです。この対談では、Sapienのアプローチのユニークな側面、私たちが克服した技術的課題、そしてデータラベリングの将来について見ていきます。
1。私たちが構築しているプラットフォームの概要を教えてください。市場に出回っている他のデータラベリングソリューションと何が違うのですか?
Sapienプラットフォームは、データラベラーと構造化データを必要とするAIプロジェクトをつなぐ双方向のマーケットプレイスです。他社と一線を画しているのは、アドビの高度なツールと、オンデマンドで利用できる非常に多様で熟練したラベラーのコミュニティです。これにより、プロジェクトを迅速に開始し、非常に高い精度で新しいグラウンドトゥルースデータを生成することができます。
2。スケーラビリティと効率を向上させる上で、データラベラーの分散型ネットワークはどのような役割を果たしているのでしょうか?このグローバルインフラストラクチャの構築に伴う技術的課題にどのように対処しているのでしょうか。
当社のデータラベラーの分散型ネットワークは、現代のデータタスクが必要とする多様なスキルとバックグラウンドを提供するため、スケーラビリティに不可欠です。こうした資格は、犬を飼っているような単純な資格から、放射線科医のような専門的な専門知識まで多岐にわたります。データの種類が異なれば、独自の視点とスキルを持つ作業者が必要であり、当社のネットワークはそのニーズを満たすように設計されています。
3。当社のデータラベリングモジュールは AI モデル開発とどのように統合されていますか?柔軟性やカスタマイズという点で、さまざまな業界にどのような利点があるのでしょうか?
Sapienには、非常に特殊なラベリングモジュールが幅広くあり、その数は週ごとに増え続けています。大まかに言うと、私たちはラベラーに圧倒的なツールを提示するのではなく、タスクのうち最も小さく、最も簡単に完了できるセクションをラベラーに提示します。これにより、ラベラーの作業がより簡単かつ正確になり、市場の需要側でのコスト削減につながります。私たちは、新しい顧客や新しいタスクのために、まったく新しいラベリングツールを立ち上げることを恐れません。私たちの目には、すべてのサピエンスがベストを尽くしていることを確認するために最低限必要なことです。
4。さまざまな地域にわたるデータラベラーの大規模な管理をサポートするインフラストラクチャをどのように構築したか説明してもらえますか?これはクライアントとラベラーの両方にどのようなメリットをもたらしますか?
第一原則から、私たちは完全に分散された環境で機能するように Sapien のプラットフォームとインフラストラクチャを構築しました。特定のラベル作成ワークフローの各ステップに同じ言語を話す作業者がいることは必須でもありません。これにより、あらゆるタイプのバックグラウンドを持つ労働者が有意義な仕事を見つけることができ、顧客が専門的でない労働に多額の支払いをする必要がない、効率的な市場を提供することができます。
5。データ収集用のゲーム化プラットフォームを開発する際に遭遇した主な技術的課題にはどのようなものがありますか?この機能はデータ品質の向上にどのように貢献しますか?
主な課題は常に2つあります。1つ目は、人々が効率的かつ正確に作業できるようにするツールを提供することです。ゲーミフィケーションは、ラベリング作業の単調さを解消するのに大いに役立ちます。第二に、最終的なデータ出力が常に高品質になるように内部インフラストラクチャを構築することが、お客様が最終的に気にかけていることです。つまり、最高のラベラーを見つけて信頼することから、高精度のアウトプットを保証するサンプリングシステムを構築することまで、あらゆることを意味します。
6。AIによって進化するデータラベリングの未来についてどう思いますか?その未来を形作る上で、特に自動化と人間の入力のバランスを取る上で、私たちのプラットフォームはどのような役割を果たしているのでしょうか?
自動化ツールがより高度になるにつれて、データラベリングの未来は、どちらかといえば、AIやその他の自動化ツールによって強化され、人間のアウトプットを増やすために人間から派生したラベルにさらに重点が置かれます。新しいモデルが効果的であるためには、新しい基礎となる真実が必要です。そうしたデータを得るには、洗練されたツールのフレームワークの中で人間が作業するのが最善の方法です。
7。堅牢で分散化されたプラットフォームの構築に注力することは、大量のラベル付きデータを迅速に必要とするクライアントにどのように役立つのでしょうか?このアプローチのパフォーマンスとスケーラビリティの利点にはどのようなものがありますか?
さまざまなスキルやバックグラウンドを持つ従業員が集まる大規模なコミュニティを持つことで、新しいプロジェクトを小規模で簡単にテストし、ひいては膨大な量のデータをすべてお客様の都合の良いときに増やすことができます。また、さまざまなプロジェクトや、同じプロジェクト内のさまざまなニーズに応じて、ラベル作成担当者の経歴やスキルを簡単に変更できます。