IBM 如何利用 Smarter Balanced 塑造教育领域的 AI 治理

总部位于加利福尼亚州的 Smarter Balanced Assessment Consortium 是一个由会员主导的公共组织，为 K-12 和高等教育领域的教育工作者提供评估系统。该组织成立于 2010 年，与州教育机构合作开发创新的、符合标准的考试评估系统。Smarter Balanced 为教育工作者提供工具、课程和资源，包括形成性、中期和总结性评估，帮助教育工作者发现学习机会并加强学生的学习。

Smarter Balanced 致力于在不断变化的教育环境中不断发展和创新。通过与 IBM Consulting® 的合作，该公司旨在探索在教育评估中使用人工智能 (AI) 的原则性方法。该合作于 2024 年初宣布，目前仍在进行中。

定义挑战

传统的针对 K-12 学生的技能评估，包括标准化考试和结构化测验，因各种与公平性有关的原因而受到批评。如果负责任地实施，人工智能具有变革性的潜力，可以提供个性化的学习和评估体验，以提高包括边缘群体在内的学生群体的评估公平性。因此，核心挑战是定义在学校环境中负责任地实施和治理人工智能是什么样子。

作为第一步，Smarter Balanced 和 IBM Consulting 成立了一个多学科咨询小组，其中包括教育测量、人工智能、人工智能伦理和政策以及教育工作者方面的专家。该小组的目标是制定指导原则，将准确性和公平性融入到人工智能用于教育测量和学习资源的过程中。下面概述了咨询小组的一些考虑因素。

以人为本的设计引领

使用设计思维框架可帮助组织制定以人为本的技术实施方法。三项以人为本的原则指导设计思维：关注用户成果、不断创新和赋予多元化团队权力。该框架有助于确保利益相关者在战略上保持一致，并响应功能性和非功能性组织治理要求。设计思维使开发人员和利益相关者能够深入了解用户需求、构思创新解决方案并迭代原型。

这种方法对于在开发过程的早期识别和评估风险以及促进创建值得信赖且有效的 AI 模型具有重要意义。通过不断与不同领域的专家和其他利益相关者社区进行接触并采纳他们的反馈，设计思维有助于构建技术可靠、对社会负责且以人为本的 AI 解决方案。

融入多样性

对于 Smarter Balanced 项目，联合团队成立了一个智囊团，其中包括各领域的专家和思想领袖。这个小组由教育评估和法律、神经多样性人群、学生、有无障碍障碍的人和其他领域的专家组成。

智库成员、马克库班基金会人工智能训练营项目架构师夏洛特·邓根 (Charlotte Dungan) 表示：“Smarter Balanced AI 智库致力于确保人工智能值得信赖且负责任，并确保我们的人工智能能够增强学生的学习体验。”

该智库的目标不是简单地将其成员的专业知识、观点和生活经验以“一次性”的方式纳入治理框架，而是不断迭代。这种方法反映了 IBM 人工智能伦理的一个关键原则：人工智能的目的是增强人类智能，而不是取代它。包含来自不同利益相关者的持续投入、评估和审查的系统可以更好地培养信任并促进公平的结果，最终创造一个更具包容性和有效性的教育环境。

这些系统对于在小学环境中创建公平有效的教育评估至关重要。多元化的团队带来了广泛的观点、经验和文化见解，这对于开发代表所有学生的 AI 模型至关重要。这种包容性有助于最大限度地减少偏见，并构建不会无意中延续不平等或忽视不同人口群体独特需求的 AI 系统。这反映了 IBM AI 伦理的另一个关键原则：AI 多样性的重要性不在于观点，而在于数学。

探索以学生为中心的价值观

Smarter Balanced 和 IBM Consulting 作为一个团队开展的首批工作之一是确定人类我们希望在 AI 模型中看到这些价值观。这不是一个新的道德问题，因此我们确定了一组与 IBM 的 AI 支柱或可信赖 AI 的基本属性相对应的价值观和定义：

可解释性： 具有可以非技术性解释的功能和结果
公平性： 平等相待
鲁棒性： 安全可靠，抵御对抗性攻击
透明度： 披露人工智能的使用情况、功能和数据使用情况
数据隐私： 用户隐私及数据权利的披露与保障

在任何组织中实施这些价值观都是一项挑战。在评估学生技能的组织中，标准甚至更高。但人工智能的潜在优势使这项工作值得：“借助生成式人工智能，我们有机会更好地吸引学生，通过及时和可操作的反馈准确评估他们，并培养通过人工智能工具积极增强的 21 世纪技能，包括创造力、批判性思维、沟通策略、社交情感学习和成长心态，”Dungan 说。下一步是探索和定义将指导使用人工智能评估儿童和年轻学习者的价值观，目前正在进行中。

团队正在努力解决的问题包括：

负责任地培养这些技能需要哪些价值观驱动的护栏？
它们将如何运作和管理，谁应该负责？
我们给构建这些模型的从业者什么指导？
哪些功能性和非功能性要求是必要的，以及强度级别是多少？

探索效果的层次和不同的影响

在本练习中，我们采用了一个名为“效果层”的设计思维框架，这是 IBM® Design for AI 向开源社区 Design Ethically 捐赠的几个框架之一。效果层框架要求利益相关者考虑其产品或体验的主要、次要和第三级影响。

主要影响 描述产品（在本例中为 AI 模型）的预期和已知效果。例如，社交媒体平台的主要作用可能是将兴趣相投的用户联系起来。
次要影响 虽然目的性不强，但很快就能引起利益相关者的关注。继续以社交媒体为例，次要影响可能是该平台对广告商的价值。
三级效应 是随着时间的推移而显现出来的非预期或不可预见的影响，例如社交媒体平台倾向于奖励那些令人愤怒的帖子或具有更高浏览量的虚假信息。

对于这种用例，人工智能增强测试评估系统的主要（期望）效果是成为一种更公平、更具代表性和更有效的工具，从而改善整个教育系统的学习成果。

次要影响可能包括提高效率和收集相关数据，以帮助在最需要的地方更好地分配资源。

第三效应是可能已知和意外。这是利益相关者必须探索潜在意外危害可能是什么样子的地方。

研究小组确定了五类潜在的高级别危害：

有害偏见考虑没有考虑或支持来自弱势群体的学生，这些学生可能需要额外的资源和观点来满足他们的不同需求。
学校系统中缺乏针对其设备和网络的适当程序，存在与网络安全和个人身份信息 (PII) 相关的问题。
缺乏治理和护栏来确保人工智能模型继续按照预期的方式运行。
缺乏与家长、学生、教师和管理人员就学校中人工智能系统的预期用途进行适当沟通。这些沟通应该描述防止不当使用的保护措施和机构，例如如何选择退出。
校外连接有限可能会减少技术的获取以及随后的人工智能的使用，尤其是在农村地区。

差异影响评估最初应用于法律案件，可帮助组织识别潜在偏见。这些评估探索看似中立的政策和做法如何对受保护群体产生不成比例的影响，例如那些容易受到基于种族、宗教、性别和其他特征的歧视的人。事实证明，此类评估在制定与招聘、贷款和医疗保健相关的政策方面非常有效。在我们的教育用例中，我们试图考虑那些可能因其情况而遭受不公平评估结果的学生群体。

被确定最容易受到潜在伤害的群体包括：