发布日期:2024-08-26 09:24 点击次数:187
如今,业界齐在评论大型言语模子高出编码器、解码器、多头提神力层和数十亿(行将数万亿)的参数,东说念主们很容易敬佩好的东说念主工智能只是模子想象的效果。祸害的是,事实并非如斯。好的东说念主工智能需要的不单是是一个全心想象的模子。它还需要正确构建的查验和测试数据。在这篇著述中,我将先容以数据为中心的 AI 的看法,这是一个由 Snorkel AI 的东说念主领先创造的术语。我还将先容 Snorkel Flow,这是一个以数据为中心的 AI 平台,并展示奈何将其与 MinIO 聚拢使用,以创建高性能且不错彭胀到所需的任何 AI 责任负载的查验管说念。在界说以数据为中心的 AI 之前,让咱们先快速总结一下以模子为中心的 AI 的责任旨趣。以模子为中心的 AI以模子为中心的 AI 是一种东说念主工智能顺次,专注于提升 AI 模子自身的性能。此顺次优先优化和增强模子中使用的体绑缚构和技艺,以提升性能。以模子为中心的 AI 的重要方面包括:算法开采:创建和优化算法以提升模子的性能。架构鼎新:想象新的神经蚁集架构或修改现存架构以提升性能。参数融合:融合超参数以终了最好模子性能。查验技艺:接收先进的查验顺次,如迁徙学习、微调、集成学习或强化学习,来变嫌模子。让咱们界说以数据为中心的 AI。以数据为中心的 AI以数据为中心的 AI 是一种东说念主工智能开采顺次,专注于提升用于查验 AI 模子的数据的质料和着力。以数据为中心的 AI 不是主要专注于变嫌算法或模子架构,而是强调高质料、象征考究和种种化的数据集对提升模子性能的紧要性。以数据为中心的东说念主工智能的前提是,即使使用更通俗的模子,高质料的数据也不错表现提妙手工智能的性能。在处理数据不时嘈杂或抵御衡的践诺利用设施时,这种顺次特等灵验。以模子为中心的 AI 高出顺应为您提供已圆善象征的干净数据的场景。祸害的是,这仅在您使用世俗为训导方针而创建的闻名开源数据集时才会发生。在现实宇宙中,数据是原始的和未象征的。让咱们看一下一些实在宇宙的用例,这些用例需要比以模子为中心的 AI 顺次愈加存眷数据。实在的用例在本节中,我将总结一些通用用例,这些用例强调了对以数据为中心的 AI 顺次的需求。在寻查底下的种种有贪图时,请务必记着,所征询的数据高出原始,标的所以编程方式象征数据。这听起来可能很奇怪,并引出了一个问题——若是你有逻辑来象征数据,那么你为什么需要一个模子?只需使用您的“标签逻辑”进行瞻望即可。我将鄙人一节中径直征询这个问题,即标签功能和弱监督。就当前而言,简单的回应是,标签逻辑是不精准和嘈杂的,使用不精准标签的模子仍然比径直使用标签逻辑更好地进行瞻望。统计数据分析:世俗,紧要信息荫藏在包含紧要标签踪迹的文档中。举例,好意思国证券往返委员会 (SEC) 要求上市公司每年填写一份 10-K 默契。10-K 包含与财务功绩关联的信息:财务报表、每股收益和高管薪酬等。在加拿大,公司提交 SEC 表格 40-F 以提供近似信息。若是需要手动处理这些文档以索要模子查验所需的信息,那么这将是一个费劲且容易出错的过程。重要字分析:世俗,文档中的重要字即是象征文档所需的全部内容。举例,若是一个组织需要有意的公论来开展业务,那么它世俗会在互联网上监控其品牌。这些组织应该每天监控新闻,寻找对新闻不安靖的团体以至个东说念主。这需要处理新闻纲领,查找说起的公司称号【BLK-220】kira★kira BLACK GAL 留年5年目のお姉黒ギャル女子校生 生姦JK連続中出しハイスクール EMIRI,然后在文档中查找标明阵势的重要字。这可能就像寻找示意阵势的通俗词雷同通俗,举例“坏”、“可怕”、“伟大”和“真棒”——但也可能使用特定于限制的重要字。对主题行家的需求:详情标签所需的逻辑可能并不通俗。相背,可能需要对数据中悉数信息有细心了解的行家来详情正确的标签。计划需要医师专科常识才略详情正确会诊的医学图像和医疗纪录。数据查找:世俗,组织可能具有另一个利用设施或数据库,其中包含可用于详情正确标签的其他信息。计划一个包含每个客户的东说念主口统计数据的客户数据库。这可用于详情任因何客户为中心的数据集的标签,举例有针对性的告白和居品推选。基于上述假定示例,咱们不错进行一些不雅察。领先,若是上述标签必须手动完成,那么创建标签将高出不菲且耗时。当需要查找另一个系统何况需要主题行家时,尤其如斯。主题行家可能很难找到,何况可能忙于其他任务。更好的顺次是找到一种顺次,以编程方式完成上述内容,以拿获代码主题行家的专科常识。这即是标签功能和薄弱监督弘扬作用的方位。标签函数标签函数是一种拿获标签逻辑的顺次,以便不错通过编程方式利用它。举例【BLK-220】kira★kira BLACK GAL 留年5年目のお姉黒ギャル女子校生 生姦JK連続中出しハイスクール EMIRI,若是您出手手动象征数据集,您会提神到您正在对数据迫临的每札纪录(或文档)叠加践诺交流的操作。将其利用于咱们上头的场景;这可能是,从文档中网罗多个统计数据以详情标签,寻找交流的重要字-标签关联,查找其他系统以获取带外数据,以至被困在主题行家大脑中的高等逻辑世俗也不错用标签函数来抒发。Snorkel Flow 中的象征函数 (LF) 允许以编程方式拿获上述逻辑。LF 只是一个任性函数,它接管一个数据点并输出标签或弃权。您不错在 LF 中作念任何您思作念的事情。若是您能思到一种编程方式,以优于立时的精度象征数据的某些子集,那么请将其编码为 LF。这使您不错拿获您的限制常识。很多 LF 接收一种通用模样。关于这些常见的 LF,Snorkel Flow 提供了一个无代码模板库,您需要提供的只是完成它的限制常识块。举例,提供您正在寻找的特定重要字 - 从那儿,Snorkel Flow 将模板代码与您的信息块相聚拢,并创建一个可践诺的 LF。底下败露了一个示例。在某些情况下,您可能但愿抒发一种高出特定类型的信号,该信号还莫得相应的模板,或者使用只须您有权拜访的闭源库 - 在这种情况下,您不错使用 Python SDK 在 Snorkel Flow 集成笔记本中界说自界说 LF,如下所示。当今,咱们依然了解了标签函数高出不错使用的种种场景,让咱们看一下完整的端到端机器学习责任经过。将悉数内容与 MinIO 放在一齐底下败露了使用 MinIO 和 Snorkel Flow 的机器学习责任经过。原始数据:MinIO 是网罗和存储原始非结构化数据的最好惩办有贪图。此外,若是您不使用文档何况具有结构化数据,则不错在当代数据湖的陡立文中使用 MinIO。关联细心信息,请寻查咱们的当代数据湖参考体绑缚构。MinIO 还领有很多用于载入数据的出色用具。(这是在参考体绑缚构的引入层中完成的。标签和构建:标签和构建阶段创建标签函数。不管它们是通过模板创建的照旧由工程师手写的,它们齐将在此阶段进行汇总数准备。集成和经管:一朝您准备好了悉数 LF,就不错运行它们来生成标签。请计划手动象征一小部分数据。这种手动象征的数据称为大地实况,您不错将 LF 的效果与大地实况进行比拟,以揣测其性能。准备好络续进行模子查验后,应将新象征数据的副本保存回 MinIO 进行守护。查验和部署:取得齐全象征的数据集后,下一步是查验模子。您不错使用 Snorkel Flow 的模子查验界面,该界面与 Scikit-Learn、XGBoost、Transformer 和 Flair 等兼容。若是您称心,不错离线查验自界说模子,然后通过 Snorkel Flow SDK 上传瞻望进行分析。分析和监控:查验模子后,您需要使用顺应您的问题的方针(准确性、F1 等)来评估其性能。若是需要提升质料(在驱动实验中真的老是如斯),请寻查模子在哪些方面产生了乌有的瞻望。以编程方式生成的标签可能需要变嫌。这所以数据为中心的东说念主工智能。您领先通过变嫌数据来变嫌模子。只须当模子对正确象征的数据产生不正确的瞻望时,才应试虑对模子自身进行变嫌。性能饱胀后,即可部署模子。计划监视其随时刻推移的性能。跟着践诺条目的变化,模子性能会跟着时刻的推移而下落,这是很常见的。此时,迭代此过程以微调 LF 和模子。总结在这篇著述中,我界说了以模子为中心的 AI,并先容了以数据为中心的 AI。以数据为中心的 AI 并不成替代以模子为中心的 AI。以数据为中心的 AI 包含这么一个前提,即在尝试变嫌模子之前,您应该变嫌数据高出标签。若是你仔细思思,这是齐全有敬爱敬爱的。若是你试图在数据不好的时候变嫌你的模子,你将不消要隘旋转你的轮子。您的模子将尝试拟合不良数据和标签。您最终会得到一个专为不良数据想象的模子。更好的顺次是先缔造数据,然后使用考究的数据想象模子。我还简要先容了使用 Snorkel Flow 和 MinIO 的以数据为中心的 AI。将 Snorkel Flow 与 MinIO 聚拢使用,提供了一种使用或者保存无数原始数据和悉数实验效果的存储惩办有贪图进行数据实验的顺次。