首页 IBM SPSS Modeler 教程-(1)

IBM SPSS Modeler 教程-(1)

IBM SPSS Modeler 教程-(1)IBMSPSSModeler说明数据挖掘和建模数据挖掘是一个深入您的业务数据，以发现隐藏的模式和关系的过程。数据挖掘解决了一个常见的问题：您拥有的数据越多，就越难有效地分析并得出数据的意义，并且耗时也越长。金矿无法开采，通常是由于缺乏人力、时间或专业技术。数据挖掘使用清晰的业务流程和强大的分析技术，快速、彻底地探索大量的数据，抽取并为您提供有用且有价值的信息，这正是您所需要的“商务智能”。尽管您数据中的这些以前未知的模式和关系本身很有趣，但一切并不止于此。如果您可以使用这些过去行为的模式来预测未来可能发生的事情，那...

IBMSPSSModeler 说明数据挖掘和建模数据挖掘是一个深入您的业务数据，以发现隐藏的模式和关系的过程。数据挖掘解决了一个常见的问题：您拥有的数据越多，就越难有效地分析并得出数据的意义，并且耗时也越长。金矿无法开采，通常是由于缺乏人力、时间或专业技术。数据挖掘使用清晰的业务流程和强大的分析技术，快速、彻底地探索大量的数据，抽取并为您提供有用且有价值的信息，这正是您所需要的“商务智能”。尽管您数据中的这些以前未知的模式和关系本身很有趣，但一切并不止于此。如果您可以使用这些过去行为的模式来预测未来可能发生的事情，那又会怎样？这就是建模的目标-模型，它包含一组从源数据中抽取的规则、公式或方程式，并允许您通过它们生成预测结果。这正是预测分析的核心。关于预测分析预测分析是一个业务流程，其中包含一组相关技术，通过从您的数据中总结出有关当前状况与未来事件的可靠结论，帮助制定有效的行动措施。它是以下方面的组合：•高级分析•决策优化高级分析使用多种工具和技术，分析过去与现在的事件，并预测未来的结果。决策优化确定您的哪些措施可以产生最好的可能结果，并确保这些建议措施能够最有效地融入到您的业务流程中。有关预测分析如何工作的深入信息，请访问公司网站ht,tp://HYPERLINK"http://www.spss.com/predict,ive_analyt,ics/work.ht,m"www.spss.com/predict,ive_analyt,ics/work.ht,m。建模技术建模技术基于对算法的使用，算法是解决特定问题的指令序列。您可以使用特定算法创建相应类型的模型。有三种主要的建模技术类别，IBM®SPSS®Modeler为每种类别提供了一些示例：•Classification•关联•细分（有时称为“聚类”）分类模型使用一个或多个输入字段的值来预测一个或多个输出（或目标）字段的值。这些技术的部分示例为：决策树（C&R树、QUEST、CHAID和C5.0算法）、回归（线性、logistic、广义线性和Cox回归算法）、神经网络、SupportVectorMachine（SVM）和贝叶斯网络。关联模型查找您数据中的模式，其中一个或多个实体（如事件、购买或属性）与一个或多个其他实体相关联。这些模型构建定义这些关系的规则集。数据中的字段可以作为输入和目标。您可以手动查找这些关联，但关联规则算法可以更快速地完成，并能探索更多复杂的模式。Apriori和Carma模型是使用此类算法的示例。另一种类型的关联模型是序列检测模型，后者可以在按时间建立结构的数据中查找顺序模式。细分模型将数据划分为具有类似输入字段模式的记录段或聚类。细分模型只对输入字段感兴趣，没有输出或目标字段的概念。细分模型的示例为Kohonen网络、K-Means聚类、两步聚类和异常检测等。我如何知道使用哪种技术？有这样种类繁多的技术摆在面前，很难知道从哪里开始解决您的特定问题。幸运的是，IBM®SPSS®Modeler可以通过自动化建模形式替您做出其中的部分决定。这是一种功能强大的技术，它能评估和比较多种不同建模方法，并按有效性顺序对它们进行排序。这样，您可以在单次建模运行中尝试多种方法。自动建模自功分粪塞自功麹値自苛醱使用说明要启动该应用程序，请从Windows“开始”菜单的SPSSInc程序组中选择IBM®SPSS®Modeler14.1几秒钟后，屏幕上将显示主窗口。在数据挖掘过程中的每一个阶段，均可通过IBM®SPSS®Modeler易于使用的界面来邀请特定业务的专家。建模算法（如预测、分类、细分和关联检测）可确保得到强大而准确的模型。模型结果可以方便地部署和读入到数据库、IBM®SPSS®Statistics和各种其他应用程序中。使用SPSSModeler即处理数据的三个步骤。•首先，将数据读入SPSSModeler，・然后，然后通过一系列操纵运行数据，・最后，将数据发送到目标位置。这一操作序列称为数据流，因为数据以一条条记录的形式，从数据源开始，依次经过各种操纵，最终到达目标（模型或某种数据输出）流工作区是IBM®SPSS®Modeler窗口的最大区域，也是您构建和操纵数据流的位置。通过在界面的主工作区中绘制与业务相关的数据操作图表来创建流。每个操作都用一个图标或节点表示,这些节点通过流链接在一起，流表示数据在各个操作之间的流动。在SPSSModeler中，可以在同一流工作区或通过打开新的流工作区来一次处理多个流。会话期间，流存储在SPSSModeler窗口右上角的“流”管理器中。IBM®SPSS®Modeler中的大部分数据和建模工具位于节点选项板中，该选项板位于流工作区下方窗口的底部。例如，可以使用“记录选项”选项板选项卡中包含的节点对数据记录执行操作，如选择、合并和追加等。要将节点添加到工作区，请在节点选项板中双击图标或将其拖放到工作区。随后可将各个图标连接以创建一个表示数据流动的流。每个选项板选项卡均包含一组不同的流操作阶段中使用的相关节点，如：・源。此类节点可将数据引入SPSSModeler。・记录选项。此类节点可对数据记录执行操作，如选择、合并和追加等。・字段选项。此类节点可对数据字段执行操作，如过滤、导出新字段和确定给定字段的测量级别等。・图形。此类节点可在建模前后以图表形式显示数据。图形包括散点图、直方图、网络节点和评估图表。・建模。此类节点可使用SPSSModeler中提供的建模算法，如神经网络、决策树、聚类算法和数据排序等。・数据库建模。节点使用MicrosoftSQLServer、IBMDB2和Oracle数据库中可用的建模算法。・输出。节点生成可在SPSSModeler中查看的数据、图表和模型等多种输出结果。•导出。节点生成可在外部应用程序(如IBM®SPSS®DataCollection或Excel)中查看的多种输出。・SPSSStatistics。节点将数据导入IBM®SPSS®Statistics或从中导出数据，以及运行SPSSStatistics过程。随着对SPSSModeler的熟悉，您也可以自定义供自己使用的选项板内容。可以使用“流”选项卡打开、重命名、保存和删除在会话中创建的流。7尤I.druQdfugplol•Qiraud“输出”选项卡中包含由IBM®SPSS®Modeler中的流操作生成的各类文件，如图形和表格。您可以显示、保存、重命名和关闭此选项上列出的表格、图形和报告。“模型”选项卡是管理器选项卡中功能最强大的选项卡。该选项卡中包含所有模型块，这些模型块包含针对当前会话在SPSSModeler中生成的模型。这些模型可以直接从“模型”选项卡上浏览或将其添加到工作区的流中。DiugDiug31claimvalue：4圧窗口右侧底部是工程工具，用于创建和管理数据挖掘工程（与数据挖掘任务相关的文件组）。有两种方式可查看您在IBM®SPSS®Modeler中创建的工程-类视图或CRISP-DM视图。依据“跨行业数据挖掘过程标准”，这一业内认可且无所属的方法理论，“CRISP-DM”选项卡提供了一种组织工程的方式。不论是有经验的数据挖掘人员还是新手，使用CRISP-DM工具都会使您事半功倍。“类”选项卡提供了一种在SPSSModeler中按类别（即，按照所创建对象的类别）组织您工作的方式。此视图在获取数据、流、模型的详尽目录时十分有用。类CRISP-DM□—〔未尿存的H程）B'l_流|_丄®跖物卜旨节点|-_已主成的摸型直宵表、图旳和报吿!--病历B个字段J200^记录）'■-葯加配匚胃其他IBM®SPSS®Modeler中最常见的鼠标用法如下所示：・单击。使用鼠标左键或右键选择菜单选项，打开上下文相关菜单以及访问其他各种标准控件和选项。单击并按住按键可移动和拖动节点。・双击。双击鼠标左键可将节点置于流工作区并编辑现有节点。・中键单击。单击鼠标中键并拖动光标可在流工作区中连接节点。双击鼠标中键可断开某个节点的连接。如果没有三键鼠标，可在单击并拖动鼠标时通过按Alt键来模拟此功能。建模简介模型是一组规则、公式或方程式，可以用它们根据一组输入或变量来预测输出。例如，一家财务机构可根据对过往申请人的已知信息，使用模型预测贷款申请人可能存在优良还是不良风险。能够预测结果是预测性分析的中心目标，并且了解建模过程是使用IBM®SPSS®Modeler的关键。本示例使用决策树模型，该模型使用一系列决策规则对记录进行分类（并预测响应），例如：如果收入=中等并且卡＜5则-〉“优良”本示例使用CHAID（卡方自动交互效应检测）模型时，旨在进行常规的介绍，大部分概念会广泛应用于SPSSModeler中的其他建模类型。无论要了解哪种模型，均需要首先了解进入该模型的数据。此示例中的数据包含有关银行客户的信息。其中使用了下列字段：描述字段名字段名描述Credit_rating信用评价：0二不良，1=优良，9=丢失值年龄Ageinyears收入收入水平：1=低，2二中，3二高Creditcards持有的信用卡数量：1=少于五张，2二五张或更多教育教育程度：1-高中，2-大学Car_loans贷款的汽车数量：1=没有或辆，2-超过两辆银行可维护一个包含银行贷款客户历史信息，包括这些客户是正在还贷（信用评价=优良）还是在拖欠贷款（信用评价=不良）的数据库。银行希望使用现有的数据建立一个模型，允许他们预测未来贷款申请人拖欠贷款的可能性。使用决策树模型，您可分析两组客户的特征，并预测拖欠贷款的可能性。本示例使用了名为modelingintro.str的流，该流位于streams子文件夹下的Demos文件夹中。数据文件是tree_credit.sav请参阅主题Demos文件夹详细信息。我们来看一下流。►从主菜单中选择下列选项：文件〉打开流►单击“打开”对话框的工具栏上的金色模型块图标，然后选择Demos文件夹。►双击streams文件夹。►双击名为modelingintro.str的文件。构建流要构建流以创建模型，至少需要三个元素：・一个从某些外部源读取数据的源节点，在本示例中为IBM®SPSS®Statistics数据文件。・一个指定字段属性的源节点或“类型”节点，字段属性包括测量级别（字段包含的数据类型）以及每个字段在建模过程中的角色是目标还是输入等。・一个在运行流时生成模型块的建模节点。在本例中，我们使用CHAID建模节点。CHAID，或卡方自动交互效应检测，是一种通过使用称作卡方统计量的特定统计类型识别决策树中的最优分割来构建决策树的分类方法。如果在源节点中指定了测量级别，则可以去掉单独的“类型”节点。从功能上来说，结果是一样的。该流中还包含“表”节点和“分析”节点，仓U建模型块并将其添加到流中后，将使用这两个节点查看评分结果。Statistics文件源节点从tree_credit.sav数据文件读取SPSSStatistics格式数据，该文件安装在Demos文件夹中。（名为$CLEO_DEMOS的特殊变量用于引用位于当前IBM®SPSS®Modeler安装下的该文件。这样，无论当前的安装文件夹或版本是什么，均可以确保路径有效。）类型节点指定每个字段的测量级别。测量级别是一种指示字段中数据类型的类别。我们的源数据文件使用三种不同的测量级别。连续字段（例如年龄字段）包含连续的数字值，而名义字段（例如信用评价字段）有两个或多个不同值,例如不良、优良或无信用历史。有序字段（例如收入水平字段）用于描述具有顺序固定的不同值的数据,在本例中为低、中和高。..'Type零E融1亘巨回黄型〕F**上谏収値‘淆睁陋淆除所育酒二段A&CreditralingBad.Gocnl.无⑥目权Age[MD0却…人钮.IncomelevelHgh.Low,...无Numbero-f..."L-Basth*...无和卸、Educntbn"Highsell...无%Carkuaina$击"Nonecr...:晴走］取消|:应用J:莹置J对于每个字段，类型节点还指定角色，以指示每个字段在建模中扮演的部分。将字段信用评价的角色设置为目标，此字段指示指定的客户是否拖欠贷款。这是目标，或者是要预测其值的字段。对于其他字段，将角色设置为输入。输入字段有时也称为预测变量，或建模算法用其值来预测目标字段值的字段。CHAID建模节点生成模型。在建模节点的“字段”选项卡中，已选中使用预定义角色，这意味着将按在类型节点中的指定使用目标和输入。我们可以在此处更改字段角色，但本例中我们不做任何更改使用这些角色。单击“构建选项”选项卡。此处包含的选项可以用于指定要构建的模型类型。由于我们想要一个全新的模型，因此使用默认选项构建新模型我们还要求它为单个标准决策树模型，并且不包含任何增强，因此保留默认目标选项构建单个树我们可以选择启动允许对模型进行微调的交互建模会话，本示例只使用默认设置生成模型来生成模型对于此示例，我们希望保持树的结构简单，因此通过增加用于父节点和子节点的最小个案数限制树的增长。►在“构建选项”选项卡上，从左侧的导航器窗格选择停止规则►选择使用绝对值选项。►将父分支中的最小记录数设置为400。►将子分支中的最小记录数设置为200。在本例中，我们可以使用所有其他默认选项，因此单击运行以创建模型。（另外，也可以右键单击该节点，然后从上下文菜单中选择运行，或选择节点，并从“工具”菜单中选择运行。）iSUk少曲苗互鱼圭吳生OCredltratina目毎世綽一瓯匡7:0燮•用百分比®?D沖的绘小记規划型》了*灾^仲的蛊小記變劉理卜£19.昵|上电辽山\IVffl浏览模型执行完成后，模型块将添加到应用程序窗口右上角的“模型”选项板中，它还会置于流工作区中，并带有指向创建它的建模节点的链接。要查看模型的详细信息，右键单击模型块并选择浏览（在模型选项板上）或编辑（在工作区上）。卜越出愎型itriling垂需=6井注解Q狂威理複审点帰存模型将愎型另存为...辎存佛抿型辱出PMML...潍加到工愎X冊瞎血礁对于CHAID模型块，“模型”选项卡以规则集的形式显示详细信息，规则集实际上是可根据不同输入字段的值将各个记录分配给子节点的一组规则。对于每个决策树终端节点一意味着那些树节点没有进一步拆分一返回优良或不良的预测值。对于落在该节点内的记录，所有个案中的预测均由模式或最常见的响应决定。汇息甲•I阿甘“相呵耐唧勺押〕[模为Gqq和；lutomsleffiiIn|"LOiWjBad臼離&僦了觀n[鱸諭询[噸站曲也INumberofcredit-catdsin「凿左nS*][模3C：Gocd]CGo^dBNumberq(credit=cardsin["5orrriore"][Ead]■■Age<=IS.ofa[整曲Bad|=BailAgea28.079|樓戎.Good|=>Cood在规则集的右侧，“模型”选项卡显示预测变量重要性图表，该图表显示评估模型时每个预测变量的相对重要性。通过这一点，我们看到收入水平在此个案中最显著，而其他唯一显著的因子是信用卡数量。目陶：Cp*«lFtrating员于51菴模型块中的“查看器”选项卡以树的形式显示相同的模型，每个决策点上都有一个节点。可使用工具栏上的缩放控件放大特定节点，或缩小节点以查看更完整的树。总计18466站吕善nSad4120e1D201孰辆58曲14441000002464E……归血询日|时INumbciorcrelitcardsAHJ.Fa=0m+S=38.56r.^l111U■©加HM；?■乜计13061?32?Numtwrofcr&drt?ard：5M]P«=0GOO.+^=193.113.tffelMe1•Sad13^465-1■Cflode.G1£133e481+15829颊Bad5ti.Z2U4Z2查看树的上部分，第一个节点（节点0）为我们提供数据集中所有记录的摘要。数据集中超过40%的个案分类为不良风险。这是相当高的比例，因此让我们看看树是否能为我们提供哪些因子负责的任何线索。我们可以看到第一个分割是根据收入水平。收入水平位于低类别的记录被指定到节点2,并且看到此类别包含贷款拖欠人的最高百分比不足为奇。我们可以很明显地了解，此类别中的客户具有高风险。但是，此类别中的16%客户实际上没有拖欠，因此预测并非始终准确。没有模型能够预测每一个响应，但好的模型能够根据可用数据预测对每一个记录作出的最常见的响应。同样，如果我们查看高收入客户（节点1）,我们看到绝大部分（89%）是优良风险。但是在这些客户中10位中有超过1位也会拖欠。我们能精炼自己的贷款标准以便将此处的风险最小化吗？注意模型如何根据持有的信用卡数量，将这些客户分成两个子类别（节点4和节点5）。对于高收入客户，如果我们只向那些信用卡少于5张的客户贷款，则可以将我们的成功率从89%提高到97%--甚至更满意的结果。5ormoreHuiriLeroftraditcards1^=0.000.卡育dhl■fiad3.10610韦点1类初％nBad11.58390■Good03.41resr31.5347??^5桂駆％n■Sad1F.5B2血|总计匸/済4隔总讨ime昭M22但中等收入类别（节点3）中的那些客户是什么情况？他们更加均匀地划分为优良和不良评价。子类别（此情况中是节点6和7）仍然能帮助我们。这次，只向那些信用卡少于5张的中等收入客户贷款，可将优良评价的百分比从58%提高到85%,这是显著的改进。1Medium类别E53□Bad.9754765站25总计11珂Numb-erofcreditnds*41Ptt=o000,-it^=■(33.113,df=1因此，我们了解到输入此模型的每项记录都将被分配到一个特定节点，并且根据该节点最常见的响应分配优良或不良的预测值。为各个记录分配预测值的这一过程称为评分。通过对用于评估该模型的相同记录进行评分，可以评估该模型执行训练数据（我们知道结果的数据）的准确度。让我们看看如何做到这一点。评估模型我们浏览了模型以了解评分方式。但是，如果要评估模型的准确度，则需要对一些记录进行评分，并将模型预测的响应与实际结果进行比较。接下来对用于评估该模型的相同记录进行评分，以将观察到的响应与预测响应进行比较。要查看分数或预测值，请将表节点添加到模型块，然后双击“表”节点，并单击运行表在名为$R-Creditrating的字段中显示预测分数，该字段由模型创建。我们可以将这些值与包含实际响应的原始信用评价字段进行比较。按照惯例，在评分过程中生成的字段的名称基于目标字段，但是要加上标准前缀，例如$R-表示预测值，$RC-表示置信度值。不同的模型类型使用不同的前缀集。置信度值是模型自己的评估，尺度从0.0到1.0，表示每个预测值的精确程度。与预期的一样，预测值与大多数（并非全部）记录的实际响应相匹配。原因是每个CHAID终端节点均有混合响应。预期值与最常见的响应相匹配，但对于该节点中的其他响应，该预期值是错误的。（记住,16%的少部分低收入客户没有拖欠。）若要避免出现此情况，应继续将树分割为更小的分支，直到每个节点都是不含混合响应的100%纯节点为止一即全部为优良或不良。但是，这样的模型可能会非常复杂，并且不易推广到其他数据集。rr'jMimberuTcreditcarcteEdustiorCsrIzens3iR-Credtrstm5ormoreColegeMerelhan2Good0.5335ormoreColegeMerelhan2Bad0.HJ5J5ormoreH眇EcboolMoreihan2&0.9205ormoreColegcNeneor1BadO.K05armoreCnllggpMoreih?in2Goad0.9535armoreCnllegcMoreih?in2Goad0.9535讲moreColegeMaythan2Good0.3535ormoreHighschool"fee■七than26@日0.B205ormoreHighschaolMo■匕than2Efed0.B205ormoreC'Z'lCflDMereitian2d0.KESormoreCollcgDMcrettianSEftdO.Bffi5ormoreHchKbaolMcrettianSEftdO.BffiSormoreHchscbaolMerettian2Good0.9635ormoreCollegeNoneor1E^dO.Bffi5ormoreH绅schoolMcreihan2BadO.Bffi5ormoreMereitian2dO.Bffl5ormoreColegeMereihan2E刖0.B3ZI5ormoreColegeMereihan2Goud0.563EormoreColsgBMereihan2Goud0.5635ormoreCoilegBMerethan2□ood0.823［哼要查看具体有多少预测值正确，我们可通读表格，并计算预测字段$R-Creditrating的值匹配信用评价的值的记录数量。幸运的是，这里有更简单的方式一我们可使用分析节点，它自动进行此项操作。►将模型块连接到分析节点。►双击“分析”节点，然后单击运行。峥析Ortitrating分析表明，2464个记录中有1899个记录（超过77%）的模型预测值与实际响应相匹配。此结果受到评分的记录和用于评估模型的记录相同的事实的限制。在真实情况中，可使用分区节点将数据分割为培训和评估的单独示例。通过使用一个样本分区生成模型并使用另一个样本对模型进行检验，您会得到该模型推广到其他数据集的情况。通常分析节点，可以针对已知道其实际结果的记录来检验模型。下一阶段介绍如何使用模型对我们不知道结果的记录进行评分。例如，这可能包括当前不是银行客户的人员，但他们是促销邮寄的潜在目标。对记录评分之前，我们对用于评估模型的相同记录进行了评分，以评价模型准确程度。现在，我们要查看如何对和用于创建模型不同的记录集进行评分。这是使用目标字段进行建模的目标：研究已知道其结果的记录，以标识您可以从中预测未知结果的模式。可以更新Statistics文件源节点，使它指向其他数据文件，也可以添加一个新的源节点，从它读取要评分的数据。无论采用哪种方式，新数据集包含的输入字段必须与模型（年龄、收入水平、教育等）所使用的相同，但不包含目标字段信用评价。另外，也可以将模型块添加到包含预期的输入字段的任何流中。无论是读取文件还是数据库，只要字段名和类型与模型使用的相匹配，源类型都无关紧要。也可以将模型块保存为单独的文件、将模型导出为PMML格式以用于其他支持此格式的应用程序，或将模型存储到IBM®SPSS®CollaborationandDeploymentServices存储库中，这样可以在企业范围对模型进行部署、评分和管理。无论使用何种基础结构，模型自身都按相同的方式工作。表Dtree_credit.sav分析ScoringData.sav/无目标Creditrating摘要本示例演示创建、评估模型以及对模型评分的基本步骤。・建模节点通过研究已知道其结果的记录来评估模型，并创建模型块。这有时称为训练模型。・可将模型块添加到包含预期字段的任何流中，以对记录进行评分。通过对已知道其结果的记录（如现有客户）进行评分，可以评估模型的运行情况。・如果您对模型的运行情况感到满意，则可以对新数据（如准客户）进行评分，以预测他们的响应。・用于训练或评估模型的数据可以称为分析数据或历史数据；评分数据也可以称为操作数据。对客户响应建模（自动分类器）通过“自动分类器”节点，您可以为标志（例如某个客户是否很可能拖欠贷款或者是否会对特定的报价做出响应）或名义（集合）目标自动创建和比较大量的不同模型。在本例中，我们将查找标志（是或否）结果。在一个相对简单的流中，节点生成一组候选模型并对它们进行排序，选择最有效的模型，然后将它们合并为一个汇总（整体）模型。此方法将自动化操作的方便性与组合多个模型的优势融为一体，从而产生任何单一模型所不能带来的更为准确的预测。本示例以某虚构的公司为例，该公司希望通过为每个客户提供最适用的报价以获取更丰厚的收益。本示例使用安装在Streams目录下Demo文件夹中的流pm_binaryclassifier.str所使用的数据文件为pm_customer_trainl.sav分折pm_customer_train1.sresponse类型z^response文件pm_customer_trainl.sav的历史数据可跟踪过去的营销活动中为特定客户提供的报价，由campaign字段的值表示。Premiumaccount活动中的记录数最大。campaign字段的值在数据中实际编码为整数（例如2=Premiumaccount。稍后，您可为这些值定义标签以用于给出更有意义的输出。此文件还包含一个响应字段，该字段表明所提供的报价是否被接受（0=否，1=是）。这将是您希望预测的目标字段或值。此外，其中还包括若干包含每位客户的相关人口统计和财务信息的字段。这些字段可用于构建或“训练”一个可基于类似收入、年龄或每月交易次数等特征预测单个用户或用户群响应率的模型。添加指向pm_customer_trainl.sav的Statistics文件源节点，该文件位于IBM®SPSS®Modeler安装程序的Demos文件夹中。（您可以在文件路径中指定$CLE0_DEM0S/作为引用此文件夹的快捷方式。请注意，路径中必须使用正斜线而非反斜线，如上文所示。）添加类型节点，然后选择响应作为目标字段（“角色”为目标）。将此字段的“测量”设置为标志对于以下字段，应将角色设置为无：customer_idcampaign、response_date、purchasepurchase_date、product_ic、Rowid和X_randon。当您构建模型时，将忽略这些字段。►单击类型节点的读取值按钮以确保值获得实例化。从前文看出，我们的源数据包含有关四项不同活动的信息，每个活动针对不同类型的客户帐户。这些活动在数据中编码为整数，以方便记住每个整数所代表的帐户类型，让我们为每一个都定义标签。►在活动字段的行上，单击值列中的条目。►从下拉列表选择指定单击确定现在您可在输出窗口中显示标签而非整数了。►将表节点附加到类型节点。►打开“表”节点，然后单击运行►在输出窗口上，单击显示字段和值标签工具栏按钮以显示标签。►单击确定关闭输出窗口。IB表（刖个字段，2仁92□回齒诫文件◎主成S3表注解]customeridcampaignresponserespLmsedatepurchasepurchasedatAprodudjd17Premiumaccount0$null$0$null$爭null爭-213Premiumaccount0$null$0$null$SnullJ■315Premiumaccount0$null$0$n训爭爭null$416Premiumaccount12006-07-0500:00:000$null$183523Premiumaccount0JnullJ0$null$JnullJJ624Premiumaccount0JnullJ0$null$SnullJ申730Premiumaccount0$null$0$riull$$null$(S30Goldaccount0$null$0$null$$null$933PremiumaccountLI$null$LI$null$SnullJE1042GoldaccountLI$null$LI$null$SnullJ■:1142Premiumaccount0$null$0$null$$null$1252Premiumaccuiint0$null$0$null爭爭null*1357PremiumaccuuntLI$null$LI$null爭爭null爭1463Premiumaccount12006-07-1400;00;000$n训即1S31574Premiumaccount0$null$0$nul即JnullJ1674Goldaccount0$null$0$nul即JnullJ1775Premiumaccount0JnullJ0$null$SnullJ■1802Premiumaccount0$null$0$null$$null$j■19S3Goldaccuunt0$null$0$null$$null$2089PremiumaccuuntLI$null$LI$null爭爭null爭卜仙走尽管数据包含有关四项不同活动的信息，但每一次的分析应集中关注其中一项活动。由于Premiumaccount活动（在数据中编码为campaign=2）中的记录数最大，因此可以使用选择节点实现仅在流中包含这些记录。将要使用的模型数设置为3。这意味着在执行节点时将构建三个最佳模型。生成和比较模型附加一个自动分类器节点，然后选择总体精确性作为对模型进行排序的度量。棋型容称利润标淮仅对标志目标有数）◎酝◎甑提升标准仅对标志目标有斂）模型排序依据：总悴精确性*愎型排序方罠:茎便用的棋型數蚩:计算预渕吏捏重要性5.010.0區1.0丄◎固走£人确定■-■■>运行目S<取消，}h应用■-■■用于提升计算的百骨位救:在“专家”选项卡上，可从最多11种不同模型算法中进行选择。取消选择判别式和SVM模型类型。（这些模型需要花费更多时间培训这些数据，因此取消选中它们将可以加快示例的执行速度。如果您不介意稍等一下，也可以保留它们的选中状态。）由于在“模型”选项卡上将要使用的模型数设置为3,因此节点将计算余下九个算法的准确性，并构建包含三个最准确算法的单个模型块。respo门耗要掛行的惶型估计数:9使用的模型:是否使用？摸型类型摸型壷救摸型編号0囁C5默认値1丄團Logistic...默认値1團肚决策列裘默认値1團¥贝叶斯…默认値1B□默认値1團*ijKNN算法默认値1B慮■默认値1團酿C^R默认値1B金血刑…1I1CHAIDCC)1分钟将构建单个模型所花费的最大时间限制为正在i拿止规贝匚］传分■类成本…［确定］:［运行（司［—消应用在“设置”选项卡上，对于整体方法，请选择置信度加权投票。此选项确定如何为每条记录生成一个汇总得分。使用简单投票方式时，若三个模型中有两个模型均预测是，则是将以2比1的投票结果取胜。在使用置信度加权投票方式的情况下，将基于各预测的置信度值进行加权投票。因此，如果一个预测否的模型的置信度比两个预测是的模型合在一起的置信度还高，则否取胜。单击运行。几分钟后，将构建生成的模型块，并放到工作区和窗口右上角的“模型”选项板中。您可浏览模型块,或以多种其他方式将其保存或部署。打开模型块，它将列出在运行期间所创建的每个模型的详细信息。（实际情况中，由于大型数据集往往需要创建数百个模型，这可能会花费数小时的时间。）分折responsepm_customer_train1.s..类型z^response如果需要进一步探索任何单独的模型，可在模型列中双击此模型块图标，以向下浏览至单独模型结果,您可以从中生成建模节点、模型块或评估图表。在图形列中，可以双击缩略图生成标准大小的图形。默认情况下，模型会基于总体精确性排序，因为这是您在自动分类器节点“模型”选项卡中选择的度量。根据这一度量，C51模型的精确性最高，但C&R树和CHAID模型的精确性与之相差不大。您可以通过单击其他列的标题对该列进行排序，或者也可以从工具栏的排序方式下拉列表中选择所需的度量。基于这些结果，您可决定使用所有三个最准确的模型。通过结合多个模型的预测，可以避免单个模型的局限性，从而使整体准确性更高。在使用？列中，选择C51,C&R树和CHAID模型。在模型块后附加一个分析节点（“输出”选项板）。右键单击分析节点，然后选择运行以运行流目*P折pm_customer_train1.s..类型responserresponse由整体模型生成的汇总得分将显示在名为$XF-response的字段中。当根据训练数据度量时，预测值与实际响应（如原始响应字段中的记录所示）匹配的总体精确性为92.82%。尽管这不如本例中三个模型的最高精确性高（C51为92.86%），但它们之间的差距小得可以忽略不计。一般来说，整体模型应用到除训练数据之外的数据集中时，通常更有可能效果较好。摘要综上所述，您使用自动分类器节点比较了多种不同的模型，然后使用三个最准确的模型并将它们添加到位于一个整体自动分类器模型块内的流中。・基于总体精确性，“C51”、“C&R树”和CHAID模型对于训练数据效果最佳。・整体模型与最好的单个模型相比效果相差不大，而且当应用到其他数据集时可以起到更好的效果。如果您的目标是尽可能多地自动执行这一过程，您可以通过此方法获得在大多数情况下都很稳健的模型，而无需深入挖掘任意一个模型的细节。

                    本文档为【IBM SPSS Modeler 教程-(1)】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

IBM SPSS Modeler 教程-(1)

你可能还喜欢