- 更新日 2024.01.10
- カテゴリー AI開発
アノテーションとは?AIとの関係性や活用事例について解説【2024年最新版】
AI(人工知能)は、学習と呼ばれるプロセスが必要です。学習させるために必要なデータのことを「教師データ」と言い、教師データを作り出すことをアノテーションと呼びます。
本記事では、
- アノテーションの種類が知りたい
- 教師データを使った機械学習の方法は?
- アノテーション業務の外注化や活用事例を教えて
という声を解決するためにまとめています。AIとは切れない関係であるアノテーションについて学んでいきましょう。
※自社に合ったアノテーションツールが見つからないという方は、システム幹事にご相談ください。御社の予算や目的をヒアリングし、希望に沿った開発会社を紹介します。相談料・紹介料は無料です。どんなことでもご相談いただけます。
AI開発に役立つ記事もご覧ください アノテーションの前におさらい!AI開発の流れや手順、利用されるフレームワークとは
アノテーションとは
アノテーション(annotation)とは、英語で「注釈」「注解」を意味する言葉です。
IT分野で「アノテーション」といった場合、使用される領域によって意味するものが異なります。本記事では、以下の3つの領域におけるアノテーションについて解説します。
- AIにおけるアノテーション
- プログラミングにおけるアノテーション
- YouTubeにおけるアノテーション
なお、本記事では特に断りがない限り、アノテーションは「AIにおけるアノテーション」の意味で用いています。
AIにおけるアノテーション
AIにおけるアノテーションとは、データに情報を付加することを指します。作成されたデータを「教師データ(正解データ、ラベル)」と呼び、次の工程である機械学習で使用されます。教師データは、例題と正解がそれぞれ用意されているデータのことです。
AI開発では初期の段階で行われる作業であり、開発したAIが教師データをもとに狙い通りに作動させるための大切な工程です。教師データ数が少ないと、AIが思ったとおりの仕上がりにならない可能性があります。
後述しますが、AIの精度を高めるためにはいかにアノテーションで使用する教師データを準備できるかが重要です。
プログラミングにおけるアノテーション
プログラミングにおけるアノテーションは、プログラミング言語の1つであるJavaで使用される補足事項のことです。@から始まる情報で、コードだけでは表現できない者を補足する目的で使用されます。
主に「クラス」や「インターフェース」などで使用されることが多く、コンパイラの警告メッセージを出ないようにしたり、実行環境に応じて動作を変更できたりします。また、コーディングを行う際の共通ルールをアノテーション(注釈)として書いておくことで、プログラマーによる人的ミスを減らせるようになるでしょう。
YouTubeにおけるアノテーション
YouTube上でもアノテーションという言葉を使用することがあります。補足情報の説明や視聴者への呼びかけ、ほかのコンテンツへリンクさせるために使用されていました。
YouTubeのアノテーションは2019年1月15日をもって廃止されています。原因は動画の邪魔になっていたり、閲覧者が減少したりしたためといわれています。廃止後はアノテーションに変わる機能として「カード機能」と「終了画面機能」が実装されました。
教師データを使った機械学習の流れ
アノテーションによって作り出された教師データで機械学習を行います。では、実際にどのようなことをするのでしょうか。各工程の詳しい内容を、図を用いて解説します。
アノテーションで教師データを作成する
機械学習を行う前に、データとデータに対応する注釈を作成します。この作業をアノテーションと呼び、精度の高いAIを開発するためには必要不可欠な工程です。
簡単にいえば、1枚の写真を見せて何かを判断させるAIを開発させる場合、「これは何ですか?」という質問と「これは〇〇です」という解答をセットで覚えさせることです。適切な解答を導き出すためには、解答にあてはまる複数の写真を覚えさせなければなりません。こうすることでAIの正答率が向上していく仕組みです。
アノテーションは、AIの正答率を向上させるために必要な複数の問題と解答のセットを、できるだけ多く作ることを指すと覚えておきましょう。最終的に得られたものを教師データと言います。
教師データで実際に機械学習を行う
アノテーションによって作成された教師データを機械学習で覚えさせます。先に用意した複数の問題と解答のセットを見せて、AIに覚えさせていきます。
繰り返しになりますが、多くの学習をすればAIの正答率は高くなります。人間の学習と同じであり、より高い正答率をAIにはじき出してもらうためには膨大な教師データが必要です。手作業で行うため骨が折れますが、求める解答が導き出されるまで学習を続けなければなりません。
アノテーション(タグ付け)の対象
アノテーションには、以下の4種類が存在しています。
- 画像・動画
- 音声
- テキスト
- 単語
それぞれアノテーションの手法や作業が違います。1つずつ詳しく見ていきましょう。
画像・動画にアノテーションする場合
画像と動画のアノテーションは同じ仕組みで、次の3種類のアノテーションがあります。
- 物体検出
- 領域抽出
- 画像分類
画像にアノテーションをした例として、自動車の自動運転技術に搭載されるAIや個人情報漏えい防止目的で使用されるAIがあります。開発するAIの用途によって差はありますが、高精度AIを作成する場合には約1~10万件のデータが必要です。
精度を求めなかったとして、それ相応の教師データとなる写真や動画は準備しておきましょう。
物体検出
※画像引用:Kysmo’s Tech Blog
対象となる画像(動画)に何が写っているかを検出し、タグ付けを行う手法です。
例えば1枚の画像に複数の情報が含まれている場合、そこに何が映っているのかの情報をタグ付けします。アノテーションによって、映し出されている物体は何かを検出できるようになります。
ただし、物体検出の時点では色や形状などの把握はできません。あくまでも「写真や動画に写っているものは何か」という判断だけが可能になると思っておきましょう。
領域抽出
※画像引用:FastLabel株式会社「FastLabel」
1枚の画像や動画のワンシーンの中で、決められた領域にあるものを認識・タグ付けする手法です。画像・動画全体に適用することもできますが、範囲指定をして特定の領域のみ検出できます。
ただし領域抽出でわかるのは物体の大まかな名前であり、物体検出同様に色や状態までタグ付けはできません。物体検出との違いはAIが認識するデータの領域の違いだと思っておけばいいでしょう。
画像分類
※画像引用:FastLabel株式会社「FastLabel」
対象の画像(動画)に対して、上画像のように色や模様などの細かな属性をタグ付けして分類できる状態にします。画像分類まで完了して、はじめて物体の詳細な情報をAIが判断できるようになるのです。
音声にアノテーションする場合
音声のアノテーションは、音量や音の種類に対するタグ付けと、音声の意味に対するタグ付けの2種類の作業をしなければなりません。音声に含まれている名詞はもちろん、「あの」「うーん」「えー」などの指示語や感動詞も理解させる必要があります。
作業量は膨大で、業種・業態や利用するシーンによって学習させるデータの総数が違います。
主に音声認識AIで使用される手法であり、コールセンターやスマートスピーカーに搭載されるAIには必須の作業です。
テキストにアノテーションする場合
ニュースサイトやSNSの「おすすめ」に、ユーザーに関連する文章を表示させる際に使用するのがテキストに対するアノテーションです。アノテーションを実施する前に教師データをカテゴリ分けする必要があるのが、ほかのアノテーションとの違いです。
文章で保存された顧客データから必要なデータを抽出する際に使用されます。後述する単語へのアノテーションと違い、文章全体がアノテーションの対象です。事前にカテゴライズされたデータに基づいて、表示されるものが変わります。
単語にアノテーションする場合
※画像引用:Qiita
テキストのアノテーションによく似ていますが、チャットボットに活用されるアノテーションに「意味的(セマンティック)アノテーション」があります。文章全体ではなく、含まれている単語に対してアノテーションするものです。
検索エンジンの関連性改善でも使用されており、主に人名や商品名を認識するために使用されます。例えばあるユーザーが「AV機器」について調べているとAIが判断すれば、抽出されたデータにはAV機器関連の情報が表示される仕組みです。
アノテーションを実施する方法
アノテーションそのものは難しいものではないでしょう。自身で行おうと思えばアノテーションツールを使用して内製もできますし、外注することもできます。
2通りの方法について、どちらで実施すべきかの判断基準と合わせて詳しく解説します。
アノテーションツールを使用する
アノテーションを内製する場合、アノテーションツールを使用する必要があります。判断基準としては次の2点があるでしょう。
- AI開発担当が自社に在籍している
- 開発担当者が不足しており、開発に時間をかけずに効率を重視したい
実施したい企業によって内情は様々ですが、開発担当者に課題を感じている企業が多いでしょう。開発を担当できる人員に課題を抱えていても使いやすいと言われている、代表的なアノテーションツールには次の3つがあります。
- FastLabel
- ProLabel
- Anno Station
それぞれ特徴が異なるため、違いを理解しておきましょう。
FastLabel
画像引用:FastLabel株式会社
FastLabelのおすすめポイント
・100社以上の導入実績を誇る、精度99.7%の高品質である
・幅広い分野でのAI開発に使用されている
・ISO/IEC 27001:2013 / JIS Q 27001:2014を取得した開発拠点を持つ
FastLabelは、導入実績100社以上の実績を誇るアノテーションツールです。
使い勝手の良さとアノテーションにかかるコスト・期間を70%削減できるプラットフォームを提供しています。使用する端末にアプリをインストールする必要もなく、Web上ですぐ使用できるのがメリットです。
MLOps構築にも対応しているため、様々な業種で使用できます。運用段階になってもモニタリング機能で教師データを蓄積可能。常にAI精度を改善できるのも特徴です。
ProLabel
画像引用:ProLabel
ProLabelのおすすめポイント
・コスト削減を重視している
・独自AIによる画像データの自動アノテーションが可能
・画像データの確認や修正もできる
ProLabelは、独自に開発されたAIを使用した、画像データのアノテーションに特化したツールです。
Adobe社とパートナー契約を結んで画像処理やレイアウト処理技術を開発。海外の博士号を持つ人材の間でも使用されるアノテーションツールです。
オンプレミス型という特徴もあり、情報漏洩の心配が少ないのもメリットといえるでしょう。微調整で人の手が必要なシーンはあるものの、基本的なアノテーションについては自動で完了するのがポイントです。
AnnoStation
画像引用:Anno Station
Anno Stationのおすすめポイント
・初心者でも使いやすく、トレーニング不要で使用できる
・アノテーション画像にフィードバックを付与できる
・AWSやGoogleドライブなどの外部データソースとの連携が可能
Anno Stationは、初心者でも使いやすい機能を豊富に搭載した画像認識AI専用アノテーションツールです。
1つのライセンス契約でチームメンバー全員が使用できる汎用性の高さや、外部データソースとの連携で使いやすさに定評があります。進捗状況の把握にも優れているのも魅力的です。
無料トライアルも設定されています。アノテーションツールの導入や入れ替えを検討している場合は試してみる価値はあるでしょう。
アノテーション業務を外注する
どうしても自社でアノテーション業務ができない、アノテーションを委託したい場合は外注するのも1つの方法です。完全内製化が難しいといわれるアノテーションは、無理に自社で完結させようとするよりも、外注したほうがいい場合もあります。
以下の3社はアノテーション業務の外注先となりうる企業です。外注を検討している場合は参考にしてください。
- Lionbridge AI
- ANO SUPO
- BRYCEN ANNOTATION
Lionbridge AI
画像引用:ライオンブリッジジャパン株式会社
Lionbridge AIのおすすめポイント
・300ヶ国語に対応したアノテーションツール
・大量の教師データを素早くアノテーション可能
・固有表現抽出や感情タグ、バウンディングボックスなどの豊富な対応範囲を持つ
2019年にローンチされたLionbridge AIは、旧型のGengo AIから格段に進化したことで話題になりました。
特に強みとしているのは50万人の言語のエキスパートを要して開発された300ヶ国語対応のアノテーション。自然言語処置はもちろん、自動運転AIまで幅広く対応できます。
ANOSUPO
画像引用:ANO SUPO
ANO SUPOのおすすめポイント
・アノテーションだけに特化しているため価格がリーズナブル
・作業開始まで最短2日というスピード感
・全データダブルチェックで歩留まり率99.7%を記録
ANO SUPOは、他のアノテーション代行業者と違いアノテーションだけを請け負うサービスです。
他の作業を一切しないため価格もリーズナブルなうえ、ダブルチェックの質も高いのが特徴です。2021年の実績では、歩留まり率が99.7%という高い数字を記録。全データがチェック範囲なのも他社にはない強みです。
BRYCEN ANNOTATION
画像引用:BRYCEN ANNOTATION
BRYCEN ANNOTATIONのおすすめポイント
・国内実績No.1のアノテーション制作実績を持つ
・富士キメラ総研実施の市場調査で2年連続シェア1位に輝く
・対応件数1,200万枚、継続率95%を誇る
BRYCEN ANNOTATIONは、画像データのアノテーション制作の実績が豊富なアノテーション代行サービスです。
農業や自動運転、研究用の行動解析AIに至るまで幅広く手がけており、継続率は95%を誇っています。300人規模のアノテーターがおり、厳しいチェックにもクリアできる体制を整えています。
アノテーションによる機械学習の活用事例
アノテーションによる機械学習には多くの事例が存在しています。私たちの生活に身近なものから、ビジネスシーンで活用されるものまで様々です。
主な活用事例として、次の3点を紹介します。
- AIによる自動運転
- AIによる音声アシスタント
- AIによるテキストの自動認識(OCR)
例1)AIによる自動運転
生活に近い機械学習の活用事例として、自動車の自動運転技術が挙げられます。
引用:JAF
ドライブレコーダーに記録された映像・画像をもとにアノテーションを行い、自動運転技術の向上を行います。
教師データを学習させる件数は非常に多く、期間も長期間にわたります。公道で使用するには技術の進歩以外の課題もあるものの、近い将来実現できるのではないかと考えられている事例です。
ただし作業が単調でアノテーター(アノテーションを実施する人)が飽きてしまうという欠点があります。学習させる工数も6,000件前後といわれているため、アノテーターのモチベーション維持やフォローアップできる体制が必要です。
例2)AIによる音声アシスタント
音声で各種デバイスや家電製品をコントロールするために必要なアノテーションでは、学習させる音声の採用件数が約45,000件にも及びます。先述の自動運転技術で用いられるAI開発よりも圧倒的にデータが必要です。
守秘性が高く、難易度も優しくないため熟練したアノテーターが必要とされています。自社でリソースを確保しようとするだけでかなりの労力となってしまうため、チーム体制を構築できたりプロジェクト管理ができたりするアノテーションの導入が必須です。
例3)AIによるテキストの自動認識(OCR)
必要なテキスト件数22,000件と数としてはあまり多くない件数ではあるものの、難易度の高さから断念してしまうケースが多いのがテキストの自動認識です。テキストのアノテーションは事前のカテゴライズが必要で、他のアノテーションよりも手間がかかることが原因とされます。
難易度が高いことからアノテーターの粒度をテストでそろえてチームを編成し、稼働率の向上をさせたケースがあります。また翻訳が必要な資料に特化したチームも編成。結果として稼働効率の向上に貢献できました。
アノテーション まとめ
アノテーションは、AIの精度を向上させるために必要な作業です。作業にかけられるリソースは企業によって異なるものの、慣れていなければ効率的なAIの開発は難しいでしょう。
システム幹事では、アノテーションに関わるご相談も受け付けています。自社に人材がいない場合はもちろん、自社で使用するアノテーションツールを開発してほしい場合もご相談ください。
貴社の予算や希望をうかがって、最善の提案ができる強みがシステム幹事にはあります。
コンサルタントのご紹介
岩田
専任のコンサルタントが、
お客様の予算と目的を丁寧にヒアリング。
最適な会社をピックアップ・ご紹介させていただきます!
初心者の方でも安心してご相談いただけます。
Q. アノテーションとは何ですか?
アノテーションとは、画像・動画・音声などのデータに情報を付加することを指します。AI開発では初期の段階で行われる作業であり、開発したAIを狙い通りに作動させるための大切な工程です。
Q. アノテーションの活用事例は?
アノテーションの活用事例として「自動車の自動運転技術」「音声アシスタント」などが挙げられます。詳細は記事内をご覧ください。
この記事を書いた人
久保田 幹也
専門分野: SEO、取材、書籍代筆、note運用代行
Web上のライティングをほぼ一括で請け負うライター。集客の困りごとやマーケティング戦略の手段まで幅広くご相談いただけます。最適なマーケティング方法がわからない方も、一度ご相談ください。最善と思われる施策をご提示いたします。