来源:IT168企业级频道
近年来,所有关于人工智能的炒作和所寄予的厚望都集中在引人注目的使用案例上,比如创造新药、接管客户服务等等。然而,如果没有管理完善、来源可靠的数据,所有的关于AI的努力都将一事无成,这是企业在 2025 年的经济竞争中面临的主要挑战。
Quest Software 和企业战略集团对 220 名业务和 IT 专业人士进行的一项调查发现,要达到令人满意的数据管理水平以推动人工智能的发展,对许多企业来说都是一个问题。33%的受访者认为,所面临的三大挑战包括有将数据和治理提升到人工智能就绪状态、了解源数据的质量以及查找和识别和收获数据资产。
受访者表示,在数据映射、数据来源和数据政策方面存在挑战,难以适用于新兴的人工智能模型和数据。Presidio 对 1000 名 IT 高管进行的另一项调查发现,86% 的人报告了与数据有关的障碍,如难以获得有意义的见解和实时数据访问问题。研究报告的作者指出,这正在减缓人工智能投资计划。
“我们这个价值800多亿美元的行业目前大多建立在过时的关系架构上,难以满足现代应用的需求。”MongoDB首席信息官Mindy Lieberman表示,“随着人工智能驱动的创新步伐不断加快,企业必须对其应用程序进行现代化改造,不仅要跟上步伐,还要超越不断变化的期望。”
缺失的要素
SAS 数据管理高级总监 Gordon Robinson 表示,拥有高质量的数据 “就好比食用营养丰富的食物”。“正如高质量的食物有助于我们的身体发育和保持健康一样,好的数据也是建立有效人工智能模型的基础。”
虽然人工智能正在迅速改变各行各业,但企业几十年来一直面临的问题依然存在:数据质量。
由于人工智能的数据质量可能存在欠缺,因此可能无法建立对人工智能输出的信任。“没有可信的数据,人工智能就无从谈起,因为不可靠的数据会导致不可靠的模型,”Cloudera 首席人工智能架构师 Manasi Vartak 说。“如果企业缺乏信任基础,其人工智能计划失败的可能性就会大大增加,因为输出不准确、决策有缺陷等等。”
数据孤岛和分散的数据环境也阻碍了提供性能良好的人工智能应用的努力。“集成和统一的数据系统往往是缺失的。”埃森哲技术公司创新中心网络常务董事兼全球负责人Mary Hamilton说,“数据孤岛阻碍了信息的流动,导致难以有效地构建和训练人工智能模型。”
“数据到人工智能战略需要整合人工智能应用所需的所有要素:半结构化数据和非结构化数据、实时数据 API、知识库管理和数字化流程,”MassMutual 公司数据科学负责人 Alex Baldenko 说。“一般来说,企业数据环境侧重于管理结构化数据,最常见的是表格数据。许多新兴的人工智能功能依赖于对半结构化、非结构化数据的访问,其覆盖范围、管理和治理水平与已成功应用于结构化数据仓库的数据相同。”
知识库管理也是数据到人工智能部署的重要工具,Baldenko 继续说道。“知识库通常不被视为企业数据环境的一部分。然而,许多人工智能功能都利用了知识库,这为企业提供了应用数据管理实践的机会,包括权限、存储库结构、维护和质量控制。”
Nasuni 数据智能和人工智能首席创新官 Jim Liddle 表示:“缺乏统一的数据框架造成了严重的差距,尤其是在处理非结构化数据时。”
缺乏系统的数据分类方法也阻碍了从数据到人工智能的管道。“明确的分类法可以区分各种类型的数据,与人工智能相关的数据和不相关的数据。此外,实施针对人工智能特定要求的管理政策也至关重要,例如数据来源跟踪、偏差检测和敏感数据的处理。没有这些基础要素,几乎不可能为人工智能创建可靠、弹性和可扩展的数据管道。”
同样存在问题的是,数据管理人员没有完整的数据资产清单。“大多数组织低估了其环境中存在的‘未知’数据的数量。”Proofpoint DSPM 的 GVP 兼首席技术官 Ravi Ithal 说,“这不仅关系到找到数据,还关系到了解哪些数据是有价值的、敏感的以及与人工智能相关的。如果没有这个基础,你要么在不完整的信息上进行训练,要么就会面临数据泄露或违反法规等风险。”
数据+人工智能的成功步骤
准备好数据环境以有效支持人工智能的实施需要强大的组织基础。
凯捷加拿大公司数据、人工智能和洞察力主管 Steven Karan 建议,从自上而下的方法入手。他说:“重点是确保组织的人工智能战略能够与业务优先成果直接挂钩。其次,实施适当规模的安全和治理框架,通过最大限度地减少对人工智能的意外或未经许可的使用来保护组织的品牌。第三,进行整体架构审查,确保数据平台、工具和所需的人工智能服务就位,以维持人工智能解决方案。”
SolarWinds 工程高级副总裁 Krishna Sai 说:“制定一个人工智能框架,”创建一个标准化的方法,供整个组织遵循。“框架必须确保合规性、公平性和透明度,包括实施可观察性工具,以监控数据质量、脉络和漂移,从而保持模型性能。”
数据治理至关重要,这首先要了解您拥有哪些数据、数据的质量以及数据是否可信。“一个强大的数据治理计划可以确保用于人工智能项目的数据是准确、一致和可靠的,这对于建立有效的人工智能模型至关重要,”Robinson说,“没有强有力的数据治理,企业可能会遇到数据质量问题,导致洞察力不准确和决策失误。此外,全面的数据治理框架有助于确定企业拥有哪些数据,为人工智能应用做好充分准备,并确保符合监管要求。”
Liddle敦促成立一个专门的 “人工智能战略委员会”,由 “首席执行官、业务部门领导、技术领导、法律顾问和财务代表 ”组成,以制定公司的人工智能愿景和治理框架。该委员会将对实现人工智能应用所必需的数据到人工智能的流程进行监督。“IT和数据领导者将与董事会合作,重新评估企业架构,确保其适合人工智能。这包括统一数据孤岛、实施强大的数据分类框架,以及自动化处理非结构化数据的数据整理管道。”
Baldenko 解释说,要超越 “试点炼狱 ”并部署人工智能工具,数据领导者就必须找出并解决数据环境中存在的差距。他建议说,这包括遵循 “目的驱动型创新手册”。“鉴于生成式人工智能和代理式人工智能的发展引起了热议,技术专家要避免被每一个令人兴奋的新发展所干扰,可能会很有挑战性。但是,将人工智能投资与推进公司的长期和短期战略目标结合起来至关重要。”
Karan敦促道,要实现大规模的人工智能开发,需要精心构建一个以现代数据Lakehouse架构标准为核心的 “数据资产”。“Lakehouse标准能够实现跨结构化和非结构化数据的统一数据存储、可扩展的数据湖、商业智能(BI)与人工智能工作负载的无缝集成,借助诸如原子性、一致性、隔离性和持久性(ACID)事务等特性来加强数据治理,以及强大的元数据管理。”
Sai建议从试点项目入手,“利用自动化并设计具有可扩展性的系统,以帮助简化工作流程、降低风险并确保人工智能的长期成功。”
可扩展的基础设施是向前发展的关键。哈里斯堡科技大学(Harrisburg University of Science and Technology)的数据科学助理教授Maria Vaida表示:“信息技术(IT)和数据领域的领导者必须投资于可扩展的基础设施,比如基于云的系统;确保高速的数据管道;并支持大规模的运营。”
Vaida补充道:“不要从头开始构建模型,而是利用现有的预训练模型,将它们集成到工作流程中以提取最 佳特征。可以针对独特的专有数据开发内部模型,从而最大限度地挖掘专业数据集的价值。整合来自多学科领域的数据可以增强模型的稳健性并拓宽其适用性。让团队学习图神经网络等新兴技术,提升他们的技能水平,并通过可解释的人工智能框架来增强透明度,从而建立利益相关者的信任。嵌入保护隐私的算法可确保人工智能得到负责任的部署。”
当然,在为人工智能应用和系统建立健康的数据流方面,文化是决定性因素。Vartak表示:“长期以来,信息技术团队和业务团队一直各自为政,业务用户在不了解所需技术范围的情况下向信息技术团队提出要求,而信息技术团队在不清楚这些见解将用于解决什么业务问题的情况下生成见解。”
为了弥合这一差距,“首先要采用集中式数据架构,以确保整个组织内的可见性,并在全组织范围内建立数据和人工智能监管框架以及开展相关教育。”
具备必要的技能也是从数据到人工智能领域所需的一部分。Robinson表示,最主要的挑战是熟练数据工程师的严重短缺,而这些数据工程师是 “为人工智能、分析管理和处理大量数据所必需的人才”。“数据工程师负责设计、构建和维护能够让数据被高效收集、存储和分析的基础设施,这使得各组织很难填补这些职位空缺。”
Robinson继续说道,应对这一问题的一个解决办法是 “平民数据工程师”,即那些可能没有接受过数据工程方面的正规培训,但具备处理数据任务所需技能和知识的人。“这些平民数据工程师通常来自不同的背景,他们需要能够简化数据工程流程的工具和平台。”
衡量数据与人工智能的成功
与所有关键技术一样,如果你无法衡量,就无法进行管理:了解从数据到人工智能管道的交付情况至关重要。
真正的考验是在实施之后,这时需要审视数据管理举措对人工智能发展进程的影响。Hamilton表示:“这涉及确定特定的业务成果和指标,这些指标可用于衡量人工智能项目的投资回报率(ROI)。” 一种 “跟踪的方法是监控智能体的行为,以评估其性能、准确性以及安全和透明度保障措施的应用情况。这有助于发现需要改进的地方,并确保人工智能系统按预期运行。”
Lieberman表示:“在做其他所有事情之前,至关重要的是,人工智能指标的定义要与更广泛的信息技术和业务目标保持一致。这能确保对人工智能的投资直接解决特定的业务需求,并且在每个项目开始时就明确确定期望的成果。虽然从工程的角度去探索最新的人工智能技术很有吸引力,但最终,专注于简单、有效的解决方案,直接支持你的目标,而不是让实施过程过于复杂或追逐各种功能特性,这样做会更有效。”
Liddle表示,一个监督委员会在跟踪人工智能的数据恢复能力方面也能起到重要作用。“公司应该跟踪在出现数据中断的情况下,他们能够多快、多有效地恢复数据。由委员会监督的人工智能计划与业务目标的一致性,为衡量成功提供了一个更高层面的指标。通过确保人工智能的用例能够带来可衡量的商业价值,公司可以评估其数据环境是否有效地支持了更广泛的人工智能战略。”
Karan表示,还有各种关键绩效指标可以应用,从性能指标到数据质量都有。对于将数据输入人工智能解决方案,他建议关注成本优化、运营效率和商业价值。“成本优化关键绩效指标衡量和监控计算、消耗和存储的成本。运营效率指标监控数据处理任务所需的时间,而价值指标衡量由人工智能洞察支持的业务决策数量,或者由人工智能提升的业务成果。”
Vaida将生产力、数据利用率、工作流程优化和模型性能提升确定为衡量从数据到人工智能性能的关键指标(KPI)。
她说:“生产力不仅应该减少数据准备、模型训练和部署所需的时间,还应该提高领域专家的工作效率。通过为他们提供可靠且透明的工具,组织可以培养信任,并加强技术团队与领域专家之间的合作关系。”
Ithal表示,成功始于提出这些问题:“我们是否能更快地做出更好的决策?我们是否避免了人工智能模型中出现数据泄露或意外偏差等风险?” “如果你的数据生态系统正在推动产生更明智的结果,并且保持在道德和法规的范围内,那么你就做对了。像数据访问速度、合规遵守情况和人工智能性能基准等指标可以告诉你是否走在正轨上。”返回搜狐,查看更多