关于本书
• 本书涵盖内容:概述数据科学项目中使用的统计和机器学习方法,注重其在解决业务问题中的适用性。涵盖数据科学任务、各阶段相关技术,包括数据准备、探索、建模、评估和部署,还涉及多种监督和非监督模型,以及模型评估和部署方法。但不深入涉及数据工程技术,也不提供模型编程代码和实际部署操作。
• 本书适用人群:面向数据科学家、数据分析师、数据工程师、业务分析师、市场分析师或计算机科学家等,对希望学习数据科学技能的人员也有益处。
• 阅读本书的前提条件:阅读本书无特定先决条件。
• 我们期待您的反馈:SAS Press书籍由SAS用户为SAS用户编写,欢迎读者参与书籍发展并提供反馈,可通过sas.com/books进行注册评价、推荐主题、申请成为作者或提供反馈等操作。
作者介绍:郭佰鑫(Max)
作者Max,一位大三的应用心理学本科生,社交自媒体平台专注于 输出体育科技以及体育科学相关内容,期待未来有能力的基础下能加入更多基于人工智能的体育分析与科技。有其他科研合作的欢迎您的联系。
我比较喜欢体育科学、大语言模型以及数据相关的,平常运动喜欢篮球足球以及体能训练
更加关注此方向的产品应用和创新。
(我有时候会看一些可穿戴设备、动作捕捉以及AI领域的科研、产品应用,欢迎交流,期待向各位学习!)
邮箱:gbx1220max@gmail.com
我的联系方式(微信):MaxGBX
Linkedin领英:Baixin Guo
自媒体视频制作/公众号文章代做/翻译/AI智能体&工作流(大语言模型)搭建/科研&推文绘图/PPT制作也欢迎您的联系!
期待您的合作!
▼ 麻烦您带一下备注!
• 数据科学与机器学习方法:数据科学是多领域融合,涵盖数学统计、计算机科学与领域知识。机器学习属人工智能分支,可自动从数据学习并决策,如通过数据挖掘客户消费模式,为精准营销提供依据。
• 数学与统计学:数据科学家依靠数学和统计技能理解、准备、训练、评估模型并解释结果。描述性统计总结过往,推断性统计推广样本结论,例如分析销售数据预测未来趋势。
• 计算机科学:数据科学家运用计算机科学技能处理大数据,利用编程语言和工具进行数据处理与模型训练,云计算和容器技术提升模型部署效率,像电商平台利用大数据分析优化库存管理。
• 领域知识:领域知识助力数据科学家理解业务问题,将模型结果转化为实际操作,比如医疗领域专家结合数据科学优化疾病诊断流程。
• 沟通与可视化:良好的沟通和可视化能力有助于数据科学家向业务部门传达分析结果,支持决策制定,例如制作直观的数据可视化报表辅助管理层决策。
• 数据科学应用:在多方面广泛应用,提升客户体验(如个性化推荐)、优化收入(精准预测销售额)、助力网络分析(优化网络资源配置)和实现数据货币化(如基于位置的营销)。
• 数据科学生命周期与成熟度框架:包含理解问题、收集数据、探索数据、建模、提供答案等环节,各环节需特定技能方法,保障模型有效且可解释,例如通过明确项目目标开启数据科学项目。
• 高级分析:包含机器学习、预测、文本挖掘和优化等内容。机器学习模型处理复杂数据,优化算法寻找最优解,如金融机构用机器学习模型评估风险。
• 数据准备:涉及数据合并、采样、分区、处理缺失值、变量转换和特征提取等,确保数据质量适用,为建模分析奠基,如处理缺失值保证数据完整性。
• 模型评估与部署:用准确率、召回率、ROC曲线等统计指标评估模型,部署时考虑在生产环境有效运行维护,确保持续有效,如依据评估指标选择最佳模型上线。
• Carlos Pinheiro博士:SAS首席数据科学家,法国数据科学技术学院客座教授。1996年起在巴西多家大型电信供应商从事分析工作,担任技术与管理职务,后在EMC巴西公司任高级数据科学家,从事网络分析、优化和文本分析项目,还在Teradata担任首席数据科学家负责机器学习项目。他拥有里约热内卢联邦大学应用数学与计算机科学学士学位、计算科学硕士学位和工程博士学位,并在多个领域完成博士后研究,在国际期刊和会议发表多篇论文,著有《电信社交网络分析》和《分析中的启发式方法:影响我们分析世界的实用视角》。
• Michael Patetta:1994年起成为SAS统计讲师,教授多门课程,包括使用SAS® Viya®的监督式机器学习课程、逻辑回归预测建模、数据科学统计方法入门以及使用SAS Viya的回归方法等。此前在北卡罗来纳州卫生部门工作10年,担任卫生统计员和项目经理,自1983年以来已撰写或合著10篇发表论文,拥有圣母大学学士学位和北卡罗来纳大学教堂山分校硕士学位,业余喜欢在国家公园徒步旅行。
你手中的这本书,呈现了众多数据科学技术的概貌,其间穿插着这些技术在现实世界中的应用案例与发现。创作这本书的想法,源于我和我的团队在设计SAS数据科学学院之时。我们精心规划了一个颇具雄心的培训与认证项目,当时设想报名参加学院的学员,在开启学习之旅前,应已拥有数年的数据与分析工作经验。
2015年,SAS数据科学学院作为一个自主节奏的在线学习项目正式推出。设计该学院的课程需要深入研究数据科学的现状,与培养下一代数据科学家的教职人员展开讨论,并跟随顾问的脚步,观察他们如何为客户将数据转化为实际价值。这些主题会随着时间而不断变化和演进,如今,它已成为全球顶尖的数据科学培训项目之一。其课程已被除南极洲之外的各大洲的大学研究生项目所采用。
然而,在实际操作中我们发现,有相当广泛的受众希望加入该学院,其中包括那些在不同领域拥有丰富经验,但缺乏多年数据分析经验来指导他们思考如何在自身领域应用分析技术的聪明人。
对于这些初学者而言,该从何处着手呢?Carlos Pinheiro和Mike Patetta提出了创建一门简短课程的想法,该课程将概述数据科学方法,并分享作为在职数据科学家的大量一手经验。
Carlos Andre Reis de Pinheiro在数据科学领域著述颇丰,包括一门关于社交网络分析的商业知识系列课程(以及后来的相关书籍)。正是通过这门课程,我开始与Carlos合作。Carlos给人的第一印象是他是一个天生的讲故事高手。其次,你会发现他对足球痴迷至极——我是说真的,真的非常热爱足球。随着时间的推移,我对这位痴迷足球的教授有了更多了解,他总能用其精彩的数据科学研究故事吸引众人的注意力。Carlos在(至少)六个不同的国家生活和工作过,并且流利掌握(至少)四种语言。他是一个充满无尽好奇心且积极追求成长的人。2016年,他加入了我在SAS高级分析教育部门的同事们,在那里,他凭借不懈的努力和独创性,致力于用数据和分析解决商业问题。如今,他以直接且务实的方式向企业展示,通过一些数据管理工作、训练有素的模型以及好奇心,能够实现怎样的可能性。
Mike Patetta在过去20多年里一直是SAS的统计讲师。他教授多种课程,包括在SAS® Viya®环境中的监督式机器学习课程、使用逻辑回归进行预测建模、数据科学统计方法入门以及使用SAS Viya进行回归分析等。在加入SAS之前,Mike在北卡罗来纳州卫生部门担任了10年的卫生统计员和项目经理。自1983年以来,他已撰写或合著了10篇已发表的论文。Mike拥有圣母大学的学士学位和北卡罗来纳大学教堂山分校的硕士学位。在闲暇时光,他热衷于在国家公园徒步旅行。
通过访问他们的作者页面,你可以了解更多关于这些作者的信息,在那里你可以下载免费的书籍摘录、访问示例代码和数据、阅读最新评论、获取更新等:http://support.sas.com/pinheiro,http://support.sas.com/patetta。
数据科学充满乐趣,至少招聘人员会让你这么认为。数据科学意味着从大量杂乱无章的数据中挖掘模式、意义和洞察。实际上,这意味着要花费比你预期更多的时间来获取数据、确定记录的内容、数据在文件中的表示方式、文件的结构,以及如何将这些信息与其他文件以有意义的方式整合起来。对我们许多人来说,这就是数据科学家的主要工作内容。那么,乐趣在哪里呢?
数据科学工作的回报,来自于数据经过整理、清洗并准备好进行分析之时。最初的一批可视化成果、特征工程、建模——这些才是使数据科学工作富有成就感的部分。与几乎其他任何职业相比,数据科学家能够不断提出问题,而问题的答案又会引出后续新的问题。日复一日,你的工作可能会截然不同。你无法告诉数据该说什么——但如果你有合适的工具和好奇心去倾听,数据会向你诉说。
本书(及其配套课程)提供了一个用于开展项目工作的框架,即分析生命周期。该生命周期涵盖并涉及数据科学团队的所有成员——信息技术人员、计算机工程师、统计学家以及业务利益相关者,并明确了在整个数据科学项目生命周期中,工作和责任是如何分配的。本书的重点在于理解数据、模型以及已部署模型的结果。可以说,本书的理想受众是公民数据科学家(采用Gartner的术语)或统计业务分析师。这不是一本教授如何编写脚本以提取每小时数据、如何在云托管提供商上搭建虚拟机或如何将应用程序容器化的书籍。仅靠本书无法将你转变为世界级的数据科学家。然而,它所做的是整理数据科学中的零散部分,使你的项目易于管理,并且你的结果易于解释。而这,朋友们,正是任何有效数据和分析专业人员的核心能力所在。
Catherine Truxillo博士
SAS高级分析教育总监
2021年2月
第1章:数据科学简介
• 章节概述:引入数据科学概念,阐述其主要任务、角色及应用,强调多学科融合解决问题,介绍相关技能在业务中的作用,描述数据科学生命周期及各阶段任务,包括理解问题、收集数据、探索数据、建模、提供答案,探讨高级分析方法,说明数据科学在各行业的广泛应用及跨行业协作价值。
• 核心内容:数据科学融合多学科解决问题,其生命周期各阶段紧密相连,从问题定义到模型部署,各环节影响最终结果。高级分析方法丰富多样,不同模型适用于不同场景,数据科学应用广泛,跨行业知识共享可提升效率与创新。
• 章节概述:强调数据探索是分析建模关键,介绍数据探索任务及处理数据问题的方法,阐述数据准备阶段的采样、分区、处理缺失值等任务,解释特征提取、选择及模型选择与评估方法,说明模型泛化及偏差 - 方差权衡概念。
• 核心内容:数据探索与准备是构建有效模型的基础,合理的数据处理和特征工程可提升模型性能,模型选择与评估需综合考量多种因素,平衡偏差与方差以确保模型泛化能力。
• 核心内容:监督模型统计方法各有特点,线性回归简单易用,逻辑回归适用于分类且结果易解释,决策树直观但不稳定,根据业务需求选择合适模型可有效解决问题,提升决策准确性。
• 章节概述:讲解监督机器学习模型,如随机森林、梯度提升和神经网络,对比与统计模型的差异,分析其性能、灵活性、准确性及可解释性,通过案例说明在实际业务中的应用,如检测使用欺诈和处理电信坏账。
• 核心内容:机器学习监督模型具有独特优势,随机森林和梯度提升能提高预测准确性,神经网络适用于复杂关系建模,选择模型时需权衡性能与可解释性,以满足不同业务场景需求。
• 章节概述:探讨高级机器学习模型和方法,包括支持向量机、因式分解机、集成模型和两阶段模型,阐述各模型原理、适用场景及优势,通过案例说明在解决实际业务问题中的应用,如欺诈检测、推荐系统和客户流失管理。
• 核心内容:高级监督模型拓展了数据科学解决方案的广度和深度,支持向量机和因式分解机在特定场景表现出色,集成模型和两阶段模型为复杂业务问题提供有效途径,合理运用可提升企业竞争力。
• 核心内容:聚类分析是非监督学习的重要方法,有助于发现数据内在结构,不同聚类算法适用于不同数据特征和业务需求,合理运用可提供有价值的业务洞察。
• 章节概述:讲解非监督模型中的关联规则分析、序列分析、链接分析、路径分析和文本分析,阐述各方法原理、应用场景及评估指标,通过案例说明在市场购物篮分析、产品推荐、网络分析和客户行为理解等方面的应用。
• 核心内容:非监督模型处理半结构化数据方法多样,关联规则和序列分析挖掘数据关联,链接和路径分析揭示实体关系,文本分析处理非结构化文本,综合运用可提升企业对数据的理解和决策能力。
• 章节概述:介绍网络分析和网络优化,包括网络概念、类型、分析方法和优化算法,阐述其在理解实体关系、解决业务问题中的应用,如减少电信客户流失和优化城市通勤路线,强调网络科学在多领域的重要性。 返回搜狐,查看更多