白皮书
介绍 Tableau 商业科学
Tableau 让业务人员能够使用数据科学的强大功能
Andrew Beers,Tableau 首席技术官
概要
本白皮书介绍 Tableau 商业科学,一种让业务领域专家能够使用数据科学功能的新型 AI 驱动分析。
长久以来,使用 AI、机器学习和其他统计方法来解决业务问题在很大程度上是数据科学家的职责。许多组织都设立了小型数据科学团队,这些团队专注于解决极其关键且具有高度可扩展性的具体问题。但是,大量业务决策不仅依赖于数据,还依赖于经验和知识。
借助商业科学,了解数据背景的分析师和业务用户可以训练和部署可解释的机器学习模型,将这些模型应用于小型的集中式数据科学团队没有时间或资源来优先解决的问题。
根据 Tableau 一直坚守的观念,分析的关键在于如何让人们提出下一个问题,探索下一个假设,检验下一个想法。现在,我们进一步发扬这种观念,通过实用、合乎伦理的 AI 将预测功能应用到人们当前的业务问题中,帮助人类提高判断能力。这有助于组织在各个业务部门更快、更自信地做出决策,同时扩展他们的分析用例并加深他们对自己数据的理解。
使用 AI 制定高质量决策的障碍
组织收集的数据越来越多样,将数据转化为宝贵见解的分析用例也在以同样的速度不断增加。当前,多种多样的工具和集中式团队专注于寻找能够为决策提供依据的数据见解,但很多组织还不能在技术水平极高的数据专家和具有相关经验与深厚领域专长的业务团队之间找到平衡。并非每个公司都有数据科学团队或人工智能 (AI) 解决方案。而且此类团队往往规模小而技术精湛,并且有大量的积压项目。
我们经常看到,具有领域知识并且接近业务数据的业务用户和分析师并没有掌握独立进行高级统计分析或管理机器学习 (ML) 项目所需的工具或科技技能。他们经常依靠数据科学家和 ML 从业者来构建和部署自定义模型。为此,他们需要通过一个曲折反复的流程来收集相关要求,该流程缺乏敏捷性,并且不能快速迭代。等到整个流程结束时,训练模型所用的数据往往已经过时,整个过程又需要从头开始。同时,业务专业人员每天都需要做出一些决策;这些决策非常重要,但优先级不够,集中式数据科学团队不会对其进行优先处理。
我们的许多客户看到了将数据科学、AI 和 ML 应用于更多业务问题的价值,但又感到自己受制于资源和流程。据我们所闻,来自不同行业和部门的组织有一些共同的需求,他们都希望:
- 减少数据探索和准备工作
- 让分析专家能够以较低的成本提供数据科学输出,尤其是预测结果
- 为数据科学家节省时间,使他们可以专注于处理与关键问题相关的复杂数据工程。对于这些问题而言,分毫不差的精确性最为重要
- 提高成功模型的产出率,让领域专家进行更多用例探索
- 面向业务群组和领域专家扩展和自动执行分析并加快分析速度
- 减少部署和集成模型所需的时间和成本
- 通过提高透明度来倡导人们以负责任的方式使用数据和 AI,并获得关于如何减少和解决偏差的指导
在我们 Tableau 看来,这就是一个契机,我们可以籍此帮助组织将数据科学功能应用到更多业务问题,同时减少超高精确度及最大管控能力与见解获取速度(以及人们在见解失效之前及时采取行动)之间的矛盾。通过将 Salesforce 的 Einstein Discovery 的核心 AI 技术引入 Tableau,我们推出了一种 AI 驱动的新型分析,这种分析旨在使数据科学技术实现普及,让用户能够更快、更有信心地做出决策。而且,我们认为,市场需要在这个重要领域持续创新。
Tableau 已经实现了可视化分析的普及,现在又在对自助式 AI 做同样的事情。大量专业人员每天都在接触数据,商业科学可以释放这些人员的巨大潜力。如果这些精通 BI 的人员能够获得超越描述性分析的高级分析、预测和建议,我们就能够以更快、更具有协作性的方式将更丰富的分析应用于更多用例。
介绍 Tableau 商业科学
什么是 Tableau 商业科学?
商业科学是一类新的 AI 驱动型分析,可帮助具有领域专业知识的人更快、更自信地做出更明智的决策,并认识到并非所有问题都需要为了严苛的精确性而牺牲速度和业务背景。商业科学解决方案同样也能做到严谨和准确,但它让决策者能够根据自己用例的需求进行灵活控制。用户可以通过多种途径实施控制,例如选择和整理输入数据、选择变量和设置阈值。业务专家能够实现完全自动化的体验,或者在模型创建过程中根据引导进行选择性更改。通过为更多的人配备受管控、无代码的 AI (如预测、假设场景规划、引导式模型构建),业务团队可自行完成更多分析,并生成实用性更强、更加符合实际情况的模型。
商业科学实现了数据科学功能的普及,帮助没有学习过传统数据科学工具的领域专家了解模型的主要推动因素。为领域专家提供引导式 AI 体验后,团队就可以将高级分析应用到更多业务问题,更快、更严谨地制定重要决策,同时仍然可以借助人类的判断能力。这样做不是为了对超级精确的模型进行微调,而是让最熟悉相关问题的人找到正确的分析方向。
Tableau 商业科学适合哪些人?
业务具有本质上的复杂性和不可预测性,因此了解领域变化机制的人掌握着至关重要的领域经验和知识。历史数据固然是有用的输入,但并不总是足以回答不断变化的市场状况将如何影响您的组织。要成功应对瞬息万变的商业环境,了解所在行业的背景并且能够快速进行调整和应对的人员必须发挥关键作用。只要让业务专业人员和数据分析师能够利用 ML 模型输出的预测和见解(而无需学习 Python、数据统计,以及为算法调整参数的方法),您就已经迈出了建设数据驱动型专家团队的第一步。
商业科学来自于领域专长及理解能力与历史数据及分析见解的结合。通常,知道正确的问题以及如何利用答案,这要比了解算法选择之类的细节更为重要。因为这些问题往往更加复杂,并非简单的关于批准或拒绝的决定。资源分配、优先级排序、人员配置和物流等问题往往需要借助商业科学来做出最佳的数据驱动型决策。
根据我们的观察,在数不胜数的情况中,商业科学是正确的选择,可以为企业带来最佳结果:
- 营销和销售团队可以将商业科学用于潜在客户和商机评分、交易完成时间预测,以及许多与 CRM 相关的其他用例。大多数数据科学团队无法优先处理此类用例,但它们仍然具有极高的价值。
- 制造商和零售商也可以受益于商业科学,例如将其用于分配和优化供应链、预测消费者需求,或探索在组合中添加新产品的各种方案。
- 对于人力资源部门而言,商业科学可以分析历史模式并综合考虑招聘人员的知识(例如根据候选人的价值调整工资、权益和福利等),在此基础上评估候选人接受录用的可能性。
- 公司物业部门可以应用商业科学来规划在哪里购置办公物业,并研究将员工转移到新建筑或新办公地点的成本。在这种情况下,人工判断有助于在正确的预算考虑因素与任何“办公室政治”(即,某些个人或团队的迁移可能带来的影响)之间实现平衡。
为什么要选择 Tableau 商业科学?
AI 项目的成功既需要数据专业知识,也需要领域专业知识
尽管有人误以为 AI 会取代人类并为此感到恐惧,但对于太多的业务问题而言,最聪明的机器仍然无法与人类的判断相提并论。例如,销售组织可能会使用预测模型来确定最有利可图的追加销售/交叉销售机会。算法可以对客户购买商品的可能性进行预测,但算法不可能具备管理业务关系的人员掌握的关键知识。客户主管了解客户的目标以及哪些产品可以帮助客户实现这些目标,或者可以从过去的经验中了解到某种解决方案不太可能达成购买共识。
算法对此类细微差别无能为力,因此需要进行人工判断。人类具有专业知识、判断力和上下文意识,而机器生成的见解具有严谨性、可扩展性并且能够自动执行,二者相结合可以带来更好的业务成果。再举一个例子,零售商可能想探索在其商店中添加哪些产品可以增加他们在某个地区的利润。业务人员了解供应商关系、区域趋势以及其他只能定性的重要因素如何影响决策,这是机器永远无法成功理解或应用的细节。
即便使用自动化功能,人类也应该能够理解和解释结果。大多数基于 AI 的自动化功能都会使用数学算法来进行建模和预测,人类应该不断测试这些功能提供的建议。
组织花费大量精力来尝试招募同时具备数据科学和领域专长的杰出人才,但符合这种要求的人却是凤毛麟角。在许多关键问题中,数据科学技术固然是最重要的考虑因素,但商业科学可以将许多这些技术带给更多的人,让没有高级技术学位的人也可以在自己的分析中利用预测。
商业科学的重点在于为相关问题找到与之匹配的方法和专家。当数据科学团队着手处理来自业务部门的新项目时,他们常常因为缺少背景信息和领域知识而举步维艰。由于缺少适当的背景信息,数据科学团队不得不花费大量时间来尝试找出解决问题所需的正确数据,然后需要在开始分析之前先对这些数据进行整理、清理和准备。AI 和 ML 高度依赖数据,所以从根本上讲,这是数据问题。因此,为需要解决的问题找出解决所需的正确且合适的数据非常重要。
领域专家非常熟悉他们的组织面临的独特问题,并且掌握了与其业务线数据相关的专业知识,因此在开发、验证和部署预测模型方面很有优势,能够加快速度、提高效率、加强影响力。
一种“修订后重新部署”的迭代式方法可以节省时间、降低成本,并提高特殊技能
传统的数据科学和 ML 往往具有漫长的周期,并且“最后一英里”往往难度最大,需要大量资源,包括时间、精力和成本。传统自定义模型的部署和集成非常复杂,统计人员和数据科学家必须让最终用户能够使用和操作相关解决方案。当上市时间成为主要因素时,如果让人们能够在几天和几周(而不是几个月)内创建和迭代预测模型,就可以最大限度地利用资源并提供更高的投资回报率。
许多组织无法顺利地将其 AI 原型和试点项目扩展到全面生产阶段以实现更广泛的使用,并且常常低估了将 AI 部署和集成到其他系统的难度。根据 Gartner 的 2020 年“组织中的 AI”调查,只有 53% 的原型最终实现了部署。
对于需要依靠数据和预测来为决策提供依据的业务专家而言,如果能够在整个模型构建过程中控制各个方面,并能够自信地将数据应用到每个用例,他们将受益匪浅。在采用迭代式方法构建模型并且专注于不断提高预测准确性时,其价值会更加突出。这种方法可以帮助人们在数据失去相关性之前及时采取行动。有时,即便仅仅是尝试构建模型也会促使团队去证明相关数据,以至于在此过程中实现某些价值。
商业科学的目标是提高 KPI,而不是通过持续的完善使模型达到最精确状态。商业科学帮助客户使用迭代性更强的“修改并重新部署”流程来取代传统数据科学周期,为具有业务背景的人员消除了快速构建模型和应用预测的障碍。更多的人能够更快地从这些先进的分析技术获取价值,并根据需要随时随地做出更加明智的决策,进而可能为某个具体用例节省大量成本并显著提高收益。
考虑分配销售配额时的情景:地理分配和目标一直在变化。在某一个年度用于分配配额的模型在下一个年度将不再有效,因为模型的输入将不断变化。如果区域销售负责人的目标是在该地理区域开展更多业务,并因此而否决了建议的模型,又会出现什么情况?对模型进行快速转置和迭代的能力此时会非常有用,而且可能带来在这些销售区域增加收入的新机会。
通过让分析师和业务用户能够安全地使用自助式机器学习功能,商业科学提升了更多人的独特技能和领域专长。它还减轻了数据科学团队的负担,使其能够专注于至关重要的大规模项目,从而强化了数据科学团队的基础角色。此类由 AI 驱动的解决方案还可以创建实验环境,让分析师和高级业务用户能够探索数据科学团队不会优先考虑的新用例。由于有更多的人考查更多的用例并分析潜在结果的驱动因素,获得成功模型的机会将大大增加。领域专家能够根据自己的需求构建 ML 驱动的无代码模型,从而针对具体业务生成高质量的分析,并且无需达到数据专业人员要求的深度。
必须指出,商业科学解决方案有助于抵消分析师和数据科学家之间的技能差距,但并不能取代数据科学家。数据科学专业人员将继续提供自定义模型、统计分析等。但他们将更多地与业务专家合作,共同验证 ML 驱动的模型中使用的数据。要让这些解决方案获得成功并实现良好的效果,增强这种跨团队协作仍然至关重要。
要以负责任的方式普及数据科学,就必须根据相关的指导来发现和减少偏差以及不符合伦理的使用方式
将基于 AI 的分析扩展到更多的人有很多好处,但也有潜在的风险。数据和技术中难免存在偏差。如果得不到缓解,这些偏差就会通过预测和建议得到固化,甚至可能造成危害。面部识别技术领域出现过一个广为人知的“故障点交汇”的事例 — 包含偏差的训练数据、技术和预测共同导致了对有色族裔不利的结果。(之所以我们的 合理使用政策 不允许使用面部识别技术,这就是原因之一。)
普通的业务专业人员未必会在自己的分析中考虑这些事情。首先,高质量的模型文档可以为预测和建议提供更高的透明度,并降低跟踪难度。了解预测时考虑的因素、数据包含的列以及驱动因素所在的位置有助于找出数据集和模型中的潜在偏差。
我们无法通过自动化或通用的解决方案来确保以符合伦理的方式使用数据和 AI,您必须自己了解数据。但我们有责任在自己的技术中为客户启用一些能够标记出潜在危害的防护机制:帮助用户避免其数据中的偏差被固化到预测结果中并被应用到真实的数据。
进一步的指导可能类似于内置的偏差检测、模型监控以及对影响预测的变量提供自然语言解释,这些指导可以帮助人们创建更加符合伦理的模型。借助 Einstein Discovery,该产品让用户选择可能包含偏差的变量和敏感字段,例如种族、年龄、婚姻状况和居住地。如果一些字段相互关联,并且移除其中一个字段但保留其他字段可能会导致偏差,该产品还会通过代理检测来寻找数据集中的关联字段。另一个重要的指标是差别性影响:例如,查看模型的结果是否因性别或邮政编码而不同。对于许多受监管的行业而言,这个指标可以用于对机器学习模型进行问责。
普及 AI 和 ML 技术时,我们必须考虑一些重要因素,承担一些重要责任
这是一个新兴领域,我们尚不清楚新技术和新用例的出现,以及道德标准和法规的扩展将会如何影响该领域的格局。欧盟监管机构今后颁布的法规将进一步影响 AI 技术。美国也有越来越多的州和联邦政府在实施新的人工智能管控措施。鉴于不断变化的格局以及过去一年的纷扰,组织将会面临考验:数字化转型并非即将发生,而是已经发生。企业正在寻找方法来管理当前大量涌入的数据和 AI 创新及其有效应用,包括如何使用 AI 来提高敏捷性和适应能力。
商业科学使人们能够更方便地使用机器学习技术,但组织有责任以安全且符合伦理的方式管理 AI 的开发和使用。Tableau 和 Salesforce 为个人和组织提供了做出更明智和更负责任的决策所需的平台和指导。客户更加了解他们的数据 — 以及应用 AI 和 ML 解决方案时的业务背景。我们相信,要在跨团队协作、确保 AI 的使用和应用符合伦理,以及快速迭代之间实现平衡,将强大的 AI 和 ML 解决方案与人类专业知识相结合是最有效的方法。这种以人为中心的方法还有助于我们更加有效和成功地使用预测模型、方案规划、模拟和其他数据科学技术。
我们会不断创新,而客户会解决现有问题并发现新问题,商业科学的最佳做法会在这种过程中浮现出来。根据我们的价值观,我们已经确定了组织在采用和开发商业科学解决方案时应该考虑的一些重要因素。为了在协作、快速迭代和符合伦理的使用方式等因素之间实现平衡,我们认为组织必须要:
- 定义角色和流程并就此达成一致
- 建立开展成功合作的方法
- 置入人类接触点,确保 AI 的使用和开发符合伦理
定义角色和流程并就此达成一致
领域专家和数据科学家需要进行调整,以适应这种新的自助式 AI 环境。在实施商业科学解决方案时,分析师、业务用户和数据科学团队必须定义以下考虑因素并就这些因素达成一致:角色,需要完成的工作,实现顺畅和富有成效的交流所需的新流程,每个群组的预期参与程度和验证水平,以及其他考虑因素。与任何新工具或新流程一样,会有一个调整期来测试最近定义的角色和流程。要为所有团队的成功创造条件,保持公开的对话至关重要。
建立开展成功合作的方法
要在各团队之间保持对话,建立持续交流的方法是一个不可缺少的环节。交流的渠道可能已经存在,但要实现标准化并让人们养成真正使用这些渠道的习惯,就必须在向更广泛的人群实施 ML 解决方案时有意识地进行这方面的努力。如果有机会定期提问、咨询、验证、分享诚实的反馈以及开展其他形式的交流,大家就可以更加成功地使用基于 AI 的分析开展跨团队协作。
置入人类接触点,确保 AI 的开发和使用符合伦理
基于技术的偏差控制机制非常有用,可以让更多的人获得有助于做出明智决策的见解和预测,但我们不应该仅仅依赖这一种审查方法。有意识地建立接触点,让每个步骤都经过人类检查。分析师和业务用户具有相关的领域专业知识,能够在上下文中理解数据。他们或许还可以预见到不符合伦理的敏感数据处理方式可能会产生的影响,前提是存在一个多样化的员工群体:这些员工要能够发现数据中的差距或歧视性使用方式,并且能够为弱势人群(包含偏差的 AI 系统对这些人的负面影响最大)仗义执言。通过将机器学习和人类专业知识与必要的工具、人工审查、透明度机制和偏差监控相结合,组织能够更好地以安全和符合伦理的方式应用 AI 解决方案。
如果您发现您的数据已经存在偏差,并且您的模型有可能造成伤害,则不应部署模型或自动执行任何决策。解决数据中的偏差对于多个因素而言都是至关重要的。偏差会导致伤害,数据中的偏差还意味着您的数据存在错误,这些错误进而会导致模型、预测结果和相关决策出现错误。如果您的组织未设立内部伦理团队,或者您有关于如何解决偏差的疑虑,请与第三方专家合作,让他们帮助您彻底检查并减少数据或模型中的偏差。他们的调查可以揭示偏差在未得到控制的情况下可能产生的潜在后果。贵组织的数据科学团队可以在这些外部 AI 审核员和顾问开展相关工作时为其提供支持。
Tableau 和 Salesforce 都致力于为客户、合作伙伴和员工提供以负责任、准确和合乎伦理的方式开发和使用 AI 所需的工具。详细阅读 我们的 AI 伦理承诺(Salesforce 伦理和人道使用办公室)。为了更好地从您的数据和算法中移除偏差,让贵公司的 AI 系统更加符合伦理,请完成 Salesforce Trailhead 模块,“ Responsible Creation of Artificial Intelligence(以负责任的方式创建人工智能)。”
结语
人们对数据技能的需求持续增长,我们有非常多的机会帮助个人和组织更加有效地了解和解决问题。某些方法可能会专注于开发或实施完全自动化的 AI 解决方案,但此类方法存在局限性,可能无法实现其预期的价值。在普及 AI 和数据科学技术的过程中,我们不应该轻视或摒弃人类的创造性、上下文意识和专业知识,因为这样不仅会使目标难以实现,而且是不负责任的做法。
Tableau 始终坚信人类的巨大潜能。释放人类潜能是 Tableau 与生俱来的追求,这种追求已经融入到我们行业领先的可视化平台中。现在,我们推出了 Tableau 商业科学,这一系列创新成果使用 AI 和 ML 来发扬我们的传统:通过正确的工具和功能提高人们的能力,帮助他们提出和回答问题、发现见解、解决问题。我们推出了 Tableau 中的 Einstein Discovery(一种商业科学解决方案),让更多的人可以安全地使用机器学习功能,通过普及强大的数据科学技术帮助人们更快地做出更明智的决策。
其他资源