|EN

AIのバイアス特定・管理のための標準化に向けて(2/3)NIST Special Publication 1270

Filed under:

はじめに

弊社では米国国立標準技術研究所(NIST)の許可を得て、2022年3月に発表された報告書 NIST Special Publication 1270: Towards a Standard for Identifying and Managing Bias in Artificial IntelligenceAIのバイアスの特定と管理のための標準化に向けて」について、そのキーポイントと思われるところを抜粋し邦訳の上、3回に分けてブログで公開することと致しました。今回は第二回目です。

邦訳並びにブログでの転載の許可を頂きましたNISTのご厚意に深謝申し上げますと共に、本記事が、今後の日本の社会や企業におけるAIの実装において、少しでも皆様のお役に立てることを願っています。

尚、邦訳に関わる抜粋箇所の選定は、あくまで弊社の私見・責任に則ったものであり、NISTの意図を現したものではございません。

Translated with permission courtesy of the National Institute of Standards and Technology (NIST), not an official US Government translation. All rights reserved, US Secretary of Commerce.

【NIST Special Publication 1270の構成】

前回に引き続き、第二回は以下構成の内、2. AIバイアスの類型化の後半から2章の終わりまでについて、主な論点を取りまとめます。

Executive Summary

1 Purpose and Scope 目的とスコープ

2 AI Bias: Context and Terminology AIバイアスの類型化

3 AI Bias: Challenges and Guidance AIバイアス:課題と指針

4. Conclusions 結論

5. Glossary

以下2.3項で記載されている、社会技術的なアプローチは、本報告書を通じてNISTが提言するガイドラインの骨格を成すものです。

2 AI Bias: Context and Terminology AIバイアスの類型化

2.3 A Socio-technical Systems Approach 社会技術的なアプローチ

Adopting a socio- technical perspective can enable a broader understanding of AI impacts and the key decisions that happen throughout, and beyond, the AI lifecycle–such as whether technology is even a solution to a given task or problem [3, 109].

社会技術的なアプローチを採用することで、AIのライフサイクルならびにその先に起こり得る影響をより広く理解し、与えられた課題や問題に対して技術だけが真の解決策となるのかといった重要な判断を行うことができるようになります。 [3, 109]

Reframing AI-related factors such as datasets, TEVV, participatory design, and human-in-the-loop practices through a socio- technical lens means understanding how they are both functions of society and, through the power of AI, can impact society.

AIに関連するデータセット、TEVV(Test, Evaluation, Validation, and Verification)、参加型設計といった要素と、ヒューマンインザループの実践を、社会技術的なレンズを通して捉え直すことで、それらが共に社会の重要な機能であると同時に、逆にAIという力を通じて社会に影響を及ぼし得るものであるかということを理解できるようになります。

2.4 An Updated AI Lifecycle 新たなAIのライフサイクル

This document has adapted a four-stage AI lifecycle from other stakeholder ver sions.11 The intent is to enable AI designers, developers, evaluators and deployers to relate lifecycle processes with AI bias categories and effectively facilitate its identification and management.

本報告書は、他の著作版に記載された、4 段階の AI ライフサイクルを採用します。その意図は、AIの設計者、開発者、評価者、デプロイ担当者が、ライフサイクルプロセスとAIのバイアスカテゴリーを関連付け、効率的にその特定と管理を促進できるようにするためです。

AI Lifecycles are iterative, and begin in the Pre-Design stage, where planning, problem specification, background research, and identification of data take place.

AIのライフサイクルは反復的であり、そしてそれは計画を立て、課題を設定し、背景調査の上データを特定する事前設計ステージから始まります。

The Design and Development stage typically starts with analysis of the requirements and the available data. Based on this, a model is designed or selected.

設計と開発ステージでは、通常、要求分析と利用可能なデータの分析から始まります。これに基づいて、モデルが設計されたり選択されたりします。

The Deployment stage is when the AI system is released and used. Once humans begin to interact with the AI system the performance of the system must be monitored and reassessed to ensure proper function.

デプロイメントステージは、AIシステムがリリースされ、使用される時です。人間がAIシステムを利用し始めたら、適切な機能を保証するためにシステムのパフォーマンスを監視し、再評価する必要があります。

The Test and Evaluation stage is continuous throughout the entire AI Development Lifecycle. Organizations are encouraged to perform continuous testing and evaluation of all AI system components and features where bias can contribute to harmful impacts.

テストと評価ステージは、AI開発ライフサイクル全体を通じて継続的に行われます。組織には、バイアスが有害な影響をもたらす可能性のあるすべてのAIシステムのコンポーネントと機能について、継続的なテストと評価を行うことが推奨されます。

For example, if during deployment the model is retrained with new data for a specific context, the model deployer should work with the model producer to assess actual performance for bias evaluation. Multi-stakeholder engagement is encouraged to ensure that the assessment is balanced and comprehensive.

例えば、デプロイメントの過程で、特定のコンテキストの新しいデータでモデルを再学習する場合、モデルのデプロイメント担当者はモデル開発者と協力して、バイアス評価のために実際のパフォーマンスを検証する必要があります。検証がバランスのとれた包括的なものであることを保証するためには、さまざまなステークホルダーが検証に関与することが推奨されます。

If deviations from desired goals are observed, the findings should feed into the model Pre-Design stage to ensure appropriate adjustments are made in data curation and problem formulation.

望ましい目標値から外れていることが観測された場合、その知見をモデルの事前設計ステージに反映させ、データ収集、及び課題設定において適切な調整がなされるようにすべきです。

Any proposed changes to the design of the model should then be evaluated together with the new data and requirements to ensure compatibility and identification of any potential new sources of bias.

モデル設計に提案されたすべての変更は、新しいデータ及び要求条件と合わせて評価の上、互換性を検証し、新たなバイアスの原因となり得るものを洗い出す必要があります

Then another round of design and implementation commences to formulate corresponding requirements for the new model capabilities and features and for additional datasets. During this stage, the model developer should perform continuous testing and evaluation to ensure that bias mitigation maintains effectiveness in the new setting, as the model is optimized and tested for performance.

次に、新しいモデルの機能と特徴量、並びに追加データセットに対応する要件を策定する、新たな設計・実装ステージに入ります。このステージでは、モデルの最適化と性能テストを行ないながら、バイアス軽減が新しい環境でも有効性を維持できるよう、モデル開発者は継続的にテストと評価を実施する必要があります。

Once released, the deploying organization should use documented model specifications to test and evaluate bias characteristics during deployment in the specific context. Ideally, this evaluation should be performed together with other stakeholders to ensure all previously identified problems are resolved to everyone’s satisfaction.

リリース後、デプロイ担当部門は文書化されたモデル仕様を用いて、各デプロイメント環境下におけるバイアス特性をテストし評価する必要があります。理想的には、この評価は他のステークホルダーとともに実施し、事前に特定された問題がすべて解決され、全員が満足するようにすべきです。

3. AI Bias: Challenges and Guidance AI バイアス:課題と指針

Through a review of the literature, and various multi-stakeholder processes, including public comments, workshops, and listening sessions, NIST has identified three broad areas that present challenges for addressing AI bias.

文献のレビューや、パブリックコメント、ワークショップ、リスニングセッションなどの様々なステークホルダーとのプロセスを通じて、NISTは、AIのバイアスに対処するための課題として、3つの広範な領域を明らかにしました。

The first challenge relates to dataset factors such as availability, representativeness, and baked-in societal biases.

The second relates to issues of measurement and metrics to support testing and evaluation, validation, and verification (TEVV).

The third area broadly comprises issues related to human factors, including societal and historic biases within individuals and organizations, as well as challenges related to implementing human-in-the-loop.

最初の課題は、利用可能性、代表性、社会的なバイアスなどのデータセットに関するものです。

2つ目は、テストと評価、検証、妥当性確認(TEVV)をサポートするための測定とメトリックの問題に関するものです。

3つ目の分野は、個人や組織における社会的・歴史的バイアスや、ヒューマンインザループの実装に関する課題など、人的要因に関連する問題を広く含んでいます

NIST plans to work with the trustworthy and responsible AI communities to explore the proposed mitigants and governance processes, and build associated formal technical guidance over the coming years in concert with these communities.

NISTは、信頼できる責任あるAIのコミュニティと協力して、提案されている緩和策やガバナンスプロセスを検討し、これらのコミュニティと連携して、今後数年間で関連する正式な技術ガイダンスを構築する予定です。

3.1 Who is Counted? Datasets in AI Bias

誰を考慮し何を考慮しないのか?AIバイアスにおけるデータセットの意味

3.1.1 Dataset Challenges データセットの課題

AI design and development practices rely on large scale datasets to drive ML processes. This ever-present need can lead researchers, developers, and practitioners to first “go where the data is,” and adapt their questions accordingly [124]. This creates a culture focused more on which datasets are available or accessible, rather than what dataset might be most suitable [108]

AIの設計と開発の現場では、機械学習プロセスを実行するにあたり、大規模なデータセットが必要です。この絶えず存在するニーズは、 AIの研究者、開発者、実務家を、データがあるところに駆り立て、課題をそれに適合させてしまう可能性があります[124]。このことは、どのデータセットが最も適しているかということよりも、どのデータセットが利用可能か、アクセス可能かということに、より焦点を当てる文化を生み出すことになります[108]。

As a result, the data used in these processes may not be fully representative of populations or the phenomena that are being modeled. The data that is collected can differ significantly from what occurs in the real world [77, 78, 119].

その結果、これらのプロセスで使用されるデータは、母集団やモデル化される現象を必ずしも代表しているとは言い難いものとなるかも知れません。収集されたデータが、実世界で起こっていることと大きく異なってしまう可能性もあり得ます [77, 78, 119]。

Systemic biases may also be manifested in the form of availability bias when datasets that are readily available but not fully representative of the target population (including proxy data) are used and reused as training data.

システミックバイアス(訳注:組織全体に及ぶようなバイアス)が顕在化する一例としては、入手し易い一方で、対象母集団を十分に代表していないデータセット(プロキシデータを含む)を学習データとして使用・再利用してしまった場合に発生する、利用可能性バイアスがあります。

Other issues arise due to the common ML practice of reusing datasets. Under such practices, datasets may become disconnected from the social contexts and time periods of their creation.

機械学習の実践環境では、データセットを再利用することが多いのですが、そうした手法に起因する問題もあります。このようなデータ再利用の手法を用いる場合、データセットが、それが作成された社会的コンテキストや時代から切り離されてしまいます

Even when datasets are representative, they may still exhibit entrenched historical and systemic biases, improperly utilize protected attributes, or utilize culturally or contextually unsuitable attributes. Latent variables such as gender can be inferred through browsing history, and race can be inferred through zip code.

データセットが母集団を代表していたとしても、歴史的バイアスやシステミックバイアスが残っていたり、本来利用すべきではないプロテクトされた属性や、文化的・文脈的に不適切な属性が利用されたりすることがあります。例えば、性別といった潜在変数は閲覧履歴から、人種は郵便番号から推測することが可能です。

3.1.2 Dataset Guidance データセットのガイダンス

Not only is the predictive behavior of the ML system determined by the data, but the data also largely defines the machine learning task itself [62].

データは、単に機械学習システムの予測結果を左右するというだけでなく、データには、機械学習のタスクそのものを大きく決定付けてしまうという側面があります。[62]

The question of dataset fit or suitability requires attention to three factors: statistical methods for mitigating representation issues; processes to account for the socio-technical context in which the application is being deployed; and awareness of the interaction of human factors with the AI technical system at all stages of the AI lifecycle.

データセットの適合性または適性の問題に取り組むには、3つの要因に注意を払う必要があります:

代表性の問題を軽減するための統計的手法、アプリケーションがデプロイされる社会技術的コンテキストを考慮するプロセス、および全てのAIライフサイクルステージにおいて、人的要因とAI技術システムとの相互作用を認識することです。

Statistical Factors 統計的要因

AI bias problems are exacerbated by the variety of statistical biases that are prevalent in the large scale datasets used in ML modeling. When these models are deployed for decision-based applications, often in high-risk settings and off-label uses, harms can be perpetuated and amplified.

AIバイアスの問題は、機械学習モデリングに使用される大規模データセットに遍在する、様々な統計的バイアスによってさらに深刻化します。これらのモデルが、意思決定に関わるアプリケーションにデプロイされた場合、特に高リスクで適応範囲外で使用された場合、弊害が永続し増幅されるリスクがあります。

Consequently, a model trained on biased and erroneous data may lead to biased and inaccurate predictions. Moreover, training a model on one dataset and using it to operate on another requires special care to account for potential differences in the distributions of the datasets that may further exacerbate the unfairness and errors of the model.

その結果、偏った誤ったデータで訓練されたモデルは、偏った不正確な予測につながります。さらに、あるデータセットで学習させたモデルを別のデータセットで使用する場合、データセット間の潜在的な分布の差異を考慮して、特別な注意を払う必要があります。データセットが、モデルの不公平感や誤差をさらに悪化させる可能性があるからです。

Accounting for Socio-technical Factors 社会技術的要因の考慮

While statistical methods are indeed necessary, they are not sufficient for addressing the AI bias challenges associated with datasets. Modeling processes have the intent of making contextual concepts measurable. Once the context has been removed, however, it is difficult to get it back, leading AI models to learn from inexact representations.

統計的手法は確かに必要ですが、データセットに関連するAIバイアスの課題を解決するには十分ではありません。モデリングプロセスにおいては、コンテクストを考慮した概念を可視化することを目指しています。しかし、一旦コンテキストから離れてしまうと、それを元に戻すことは難しく、正確に選ばれたとは言い難いデータをAIモデルが学習してしまうことになります。

The practice of deploying AI in off-label uses, that is AI systems being applied to a task or within a social or organizational context for which it was not designed, must be approached with caution, especially in high-risk settings.

AIを適応範囲外でデプロイすること、すなわち、意図されていなかったタスクや社会的・組織的コンテキストにAIシステムを適用することは、特にリスクの高い場所で利用される場合、慎重に取り組まなければなりません。

Interaction of human factors and datasets

人的要因とデータセットの相互作用

Systemic institutional biases are captured in the datasets used to build the models underlying AI applications. These biases are compounded by the decisions and assumptions made by AI design and development teams about which datasets to use [145]. These decisions affect who and what gets counted, and who and what does not get counted.

AIアプリケーションの基礎となるモデルを構築するために使用されるデータセットには、システミックバイアスが存在します。これらのバイアスは、AIの設計・開発チームが、どのデータセットを使用するか判断し仮定することによって齎されます[145]。こうした判断が、誰を考慮し、何を考慮しないのかといったことに影響を及ぼします。

Data typically needs to be cleaned in some way, removing outliers and spurious data. Missing data may be imputed (replacing the missing values with nearest neighbors or extrapolated values) or removed entirely. Missing data may be more frequent in marginalized populations. Furthermore, because of compounding collection biases, missing and spurious data is often not random.

データは通常、何らかの方法でクレンジングされ、外れ値や疑わしいデータを除去する必要があります。欠損データは、インピュテーション(欠損値を最近傍値または外挿値で置き換えること)または完全に除去されることがあります。一方で、社会から疎外された集団では、欠損されたようなデータがより頻繁に発生する可能性があります。さらに、データ収集の際のバイアスが複合的に作用するため、欠損データや疑わしいデータはランダムに発生するものとは限りません。

従来のソフトウェアと異なり、AIは繊細で容易に品質が劣化してしまいます。人手によるデバッグには、多くの時間と労力を要し非常に困難です。‍
株式会社Citadel AI では、開発から運用に至る全てのAIのライフサイクルステージにおいて、AIの異常を瞬時に自動検知・防御するシステムを提供しています。
ビジネスやコンプライアンス・セキュリティ上のAI固有の新たなリスクに対し、企業の皆様がプロアクティブに対処頂けるよう、少しでも皆様のお役に立てることを願っています。
ご意見・ご要望は、info@citadel.co.jp までお知らせください。

ご質問・ご要望はこちらまで

デモのご要望やご質問は、こちらまでお寄せ下さい。

Related Articles