新万博体育完整

实时计算框架Flink新方向打造「大数据+AI」未来更多可能

2020年6月19日

雷锋网 AI 开发者按:自 Flink 开源以来,越来越多的开发者加入了 Flink 社区。仅仅 2019 年,Flink 在 GitHub 上的 Star 数量翻了一倍,Contributor 数量也呈现出持续增长的态势。而它目前在 GitHub 上的访问量,也位居 Apache 项目中前三,是 Apache 基金会中最为活跃的项目之一。

Flink 发展如此之快,除了开源使得更多开发者与企业可以接触与使用之外,它在 AI 方面的部署也起着很大作用。看似 Flink 的主要应用场景还是数据分析,但它面向多个 AI 场景,已经提供了深度学习引擎协同等功能。而对于这一与时俱进的 Flink,我们也许可以看到更多可能的未来。

雷锋网原创文章,。详情见转载须知。

上海 外卖小哥赵洪武

近日,阿里云计算部门已在 GitHub 上发布了其 Alink 平台的「核心代码」,并上传了一系列算法库,支持批处理和流处理,有利于机器学习相关任务。

疫情期间,大多数人都“宅”在家里,外卖小哥却格外忙碌,送菜、送药、送餐……他们自身的安全如何防护,大家也很关心。记者采访了上海、重庆、银川的3名外卖小哥,请他们谈一谈疫情防控期间自己的防护情况和工作的感受。

虽然如此,偶尔还是有顾客“要求见面”。李熊有些不解,本以为对方不信任他。没想到,一个老人家当面送他两个口罩:“小伙子,我家口罩多,你们做好保护。”那天虽然是个阴天,李熊却笑得很灿烂。

“我是很注意的,从不超速行驶”,赵洪武说,这段时间骑车上路,身上的责任感变强了,“送的都是市民们吃的东西,保护自己的安全,也是对别人负责任。为了千家万户,我们不怕赶路!”

这段时间,站点相对安静。平日里,有100多名同事上班,现在只有大概30名同事,很多人都处在居家观察中。不过,李熊工作却更轻松些,因为订单也少了。平均每天大概20个订单,只有平时六成左右。以前,忙的时候,他要加班到深夜,现在晚上6点就能下班。“6点以后,商场基本都关门了,我们也没什么活干。”李熊说。

但由于 Alink 包含了非常多的机器学习算法,预计往 Flink 贡献或发布的时候整个过程耗时会比较长,所以 Alink 已经单独开源,大家如果有需要的可以先用起来。

在性能对比方面,Alink 和 Spark ML 在离线训练场景下的性能基本在一个水平线上。但 Alink 支持部分算法通过流式方法进行计算,更好地实现在线机器学习。

雷锋网 AI 开发者  雷锋网(公众号:雷锋网)

这是一套分布式、批流一体的机器学习算法库,它既非常好地利用了 Flink 批流一体的计算能力以及在机器学习基础设施上的一些优势,又结合了一些业务场景需求,在机器学习方面有很强的性能。

报道称,2015年,意大利人口达到6080万人的峰值后,社会出生率从连年下滑。国家统计局表示,目前人口出生率和死亡率差距越来越大,2019年出生率与死亡率的比值为67%,而2009年该比值则为96%。

另外,AI 部分的新项目——AI Flow 也值得关注。AI Flow 是大数据及 AI 的处理流程平台,在 AI Flow 中定义不同数据之间的关系以及元数据格式等就能够非常方便地搭建一套大数据及 AI 处理的流程。

整个 Workflow 并不绑定某一引擎或者平台,但是用户可以借助 Flink 批流一体的能力去搭建自己的大数据及 AI 解决方案。目前,AI Flow 项目正在准备中,预计将于明年的第一季度以与 Alink 相同的模式进行开源。

开发者和数据分析师可以利用开源代码来构建软件功能,例如统计分析、机器学习、实时预测、个性化推荐和异常检测。而 Alink 提供的一系列算法,可以帮助处理机器学习任务,例如 AI 驱动的客户服务和产品推荐。

药品订单比以前更多了

订单少了,赚得也少些。不过,公司考虑超市订单比较多,给员工发放重量补贴。比如,有的顾客一次购买很多蔬菜和饮料,只要超过5公斤,员工就能按重量领取补贴。

“刚过年那会儿,还能送到客户的家门口。”赵洪武说,随着疫情形势的变化,渐渐的一些小区采取了封闭式管理,菜品只能送到小区门口再通知客户来取,“一开始有挺多人不适应,觉得要多走路,有在电话里抱怨的。”但赵洪武觉得可以理解,“毕竟特殊时期,大家互相体谅吧。”

随着上海疫情防控措施的愈发严格,如今,上海所有的小区都进行了封闭式管理,送去的菜统统送到小区门口暂放,再由市民们自行来取。“有的小区还专门做了置物架,菜都安排得挺整齐的。”赵洪武说,不用送上楼,确实让自己轻松了许多,每天配送的单数也增加了,按工作量算工资,收入也增加了不少。不过他还是希望这场疫情赶紧过去,“希望大家都健健康康、平平安安的。”

药品订单比以前更多了,每天,李熊约有1/3的时间都在送药。现在药房管理更加严格,网络药品订单需要核实并登记顾客信息。

Flink 状态计算中的数据流

受疫情影响,最近,上海市民普遍宅家抗疫。想吃点新鲜蔬菜,线上点单配送到家成了热门选择。

报告指出,2019年,意大利社会人口总量减少了11.6万人,而移民出生率的上升填补了本地公民出生率的下降。随着人口老龄化加剧和居民预期寿命增加,意大利经济社会发展正在受到制约。

后面贡献进展比较顺利的情况下,Alink 应该能完全合并到 FlinkML,也就是直接进入 Flink 生态的主干,这时 FlinkML 就可以跟 SparkML 完全对应起来。

据相关数据显示,将 Alink 与主流的机器学习算法库进行对比,它不仅能够支持批式训练的机器学习场景,也能够支持在线的机器学习场景。

银川回暖的天气没停留几日,就又迎来新一轮降温。外卖骑手周鹏在小区前等待取餐的客人。离他约摸5米远的距离,放置着一大袋货物。等了不到10分钟,前来取货的小区住户在周鹏的注视下取走了购物袋,小区门前的志愿者对购物袋进行了消毒。周鹏也发动电动车,赶往站点配送下一单货物。

其核心是一个流式的数据流执行引擎,能够基于同一个 Flink 运行时,提供支持流处理和批处理两种类型应用。它在运行时的架构主要包含几个部分:Client、JobManager(master 节点) 和 TaskManger(slave 节点),是一个高效和分布式的通用数据处理平台。

 优化了集群调度策略使得 Blink 能够更好更合理地利用集群资源;  优化了 checkpoint 机制,使得 Blink 能够很高效地处理拥有很大状态的 job;  优化了 failover 的策略,使得 job 在异常的时候能够更快恢复,从而对业务延迟造成更少的影响;  设计了异步算子,使得 Blink 能够在即使被读取外部数据阻塞的同时还能继续处理其他 event,从而获得整体非常高的吞吐率。

周鹏外卖服上挂着的“安心卡”,标注着他的姓名、体温以及是否对餐箱等消毒的信息。周鹏告诉记者,“无接触安心送”服务避免了骑手和顾客的面对面接触。

而 Alink 在离线的机器学习场景下与主流的 Spark ML 的对比显示,其在功能集合上所有算法基本一致。

具体而言,Flink 擅长处理无边界和有边界的数据集。对时间和状态的精确控制使 Flink 的运行时能够在无限制的流上运行任何类型的应用程序。有界流由专门为固定大小的数据集设计的算法和数据结构在内部进行处理。

记者了解到,周鹏所在的外卖公司为骑手们制定了完善的保护措施。针对感染风险,公司统一为骑手提供免费保障方案,从检查、疑似、隔离、确诊以及治疗的每个阶段,都将给予骑手相应保障补助,最高可给予30万元特殊保障金。如骑手家人因感染新冠肺炎就医,也可获得相应补助及保障,包括生活关爱金、疾病慰问金、门急诊医疗费用报销以及最高10万元特殊保障金。

巨云鹏 刘新吾 禹丽敏

38岁的周鹏是地道的银川本地人,做外卖配送工作已经4年。“以前送餐的时候,总希望路上车少点、人少点,这样就不影响我送餐的速度了。”如今,银川的大小马路空旷了起来,周鹏反而怀念起从前热闹的街景。阵阵寒风中,周鹏对记者说:“我相信疫情很快会过去,我们的生活会像往日一般热闹!”

 在离线数据处理方面,希望 Flink 能够在流数据处理的基础之上进一步实现批与流的统一,提供统一的数据处理和分析的解决方案。  另一方面,朝着在线数据分析处理的方向演进,即利用 Flink 的核心优势、Event-Driven Function 的能力以及 Flink 自带的状态管理等特性实现在线的函数计算。

近年来,AI 场景发展得如火如荼,同时其计算规模也越来越大。这也让专注于数据处理的 Flink 有了较大的发展空间。

Flink 是欧洲的一个大数据研究项目,早期专注于批计算,再到后来 Flink 发展成为了 Apache 的顶级大数据项目。

保护自己安全也是对别人负责

疫情期间,每天大概送十几单,在送货种类上,也有了明显的区别。“以前顾客线上下单的主要是餐食外卖,但现在餐馆大多还在歇业,顾客们下单更多的是药品、超市的瓜果蔬菜以及一些日用品。”周鹏介绍。

李熊是重庆大渡口区的一名外卖骑手,疫情发生后,他一直坚守岗位,春节也没休息。每天上班,李熊“全副武装”,戴着口罩和头盔,将餐箱等工具消毒,佩戴“无接触安心送”卡片,上面记录着他今天的体温和餐箱消毒等信息。

马塔雷拉表示,意大利公民出生率的逐年下降,已成为关乎国家存亡的一件大事。他指出,意大利人口结构不断演变正在构成国家新的危机,政府必须采取有效措施来加以应对。

“往常我们每个配送员一天就是几十单。”赵洪武说,逢年过节最忙的时候,也不过七八十单。但现在,从早上7点忙到晚上9点,“菜这个东西,就是要新鲜,给客户越早送到越好。”

而 Alink 则是基于 Flink 的机器学习算法库,由阿里云机器学习 PAI 团队开发。除了支持阿里的平台外,还支持 Kafka,HDFS 和 HBase 等一系列开源数据存储平台。

对于 AI 算法的开发人员而言,目前主流的语言即为 Python。因此,Flink 对于 Python 的支持也尤为重要。

与此同时,意大利人的预期寿命仍在继续提高,女性的平均预期寿命为85.3岁,男性则为81岁,成为了欧洲平均预期寿命最长的国家,目前该国的社会平均年龄已接近45.7岁。(博源)

Blink 是阿里在 2018 年推出的内部改良 Flink,主要针对业务场景需求,做了如下几个优化:

为了防控疫情,这段时间,外卖平台悄然兴起“无接触配送”方式。过年之前,他所在的站点就提倡大家“无接触配送”。具体来说,就是快递员提前和顾客联系,将商品挂在门把手上或前台桌上,减少风险。现在,更严格了,在重庆,小区均已封闭,不让外人进入,市民防疫意识也比较强,一般不跟外来人接触。“已经形成默契,大家基本都选择不见面。”李熊说。

“不说了,我要忙了。”跨上电动车,载着鱼肉菜蔬,赵洪武又为几户人家送去了晚餐的食材……

周鹏面前的这辆配送车,车身上还有消毒液喷洒后留下的痕迹。疫情期间,周鹏所在的公司给外卖员制定了详尽的工作流程。“疫情发生之前,我们的常规工作是早晚消毒两次。疫情发生后,我们骑手每天9点钟到站点,先要测量体温,没有问题就给我们发口罩,每天两个。之后就开始车辆消毒,每次完成一单配送就要对餐箱进行消毒。每次送完餐返回站点,都要测量体温。此外,公司还会通过线上视频及线下检查,来监督我们口罩佩戴情况。”

同时,基于 ML Pipeline 这套 API 还能够自由组合组件来构建机器学习的训练流程和预测流程。

如今,Flink 的主要应用场景基本上还是数据分析,尤其是实时数据分析。Flink 本质上是一款流式数据处理引擎,覆盖的场景主要是实时数据分析、实时风控、实时 ETL 处理等。未来,社区希望 Flink 演化成为统一的数据引擎。

“您有一条新订单!”熟悉的声音响起,外卖小哥李熊又接到订单了,这是一个药房订单,顾客购买了消炎片和枇杷膏。

而对于 Alink,未来 Flink 社区希望使用新开发的 Alink 的算法,逐渐替换掉原有的一套机器学习算法库 FlinkML 的算法,并期待着 Alink 成为新一代版本的 FlinkML。

“从大年三十到现在,还没休息过。”在上海,线上生鲜配送平台的送菜小哥赵洪武,这段时间过得特别忙碌。

每天在外跑,对于“送菜小哥”们来说,疫情的防控风险要比宅在家里的人们更大。赵洪武坦言,远在安徽的家人也会担心他,每天晚上自己都和他们视频报平安。“公司对我们的防护做得挺好,发了口罩跟手套”,赵洪武说,现在每天到配送点上班的第一件事就是测体温,仓库每天消毒的频率也很高,说起这些,家里人也安心多了。

每天在马路上跑,赵洪武和他的同事们对疫情给城市带来的变化感受最直接:路上车少了、人少了,来来往往最多的就是配送员、快递员的电瓶车。为了让这些电瓶车安全行驶,在上海浦东等地,交警们还专门开设了交通安全宣传课。

除此之外,Flink 1.10 版本还重点支持了 Python UDF 特性。这个部分直接使用成熟的框架,Flink 社区与 Beam 社区之间开展了良好的合作,并使用了 Beam 的 Python 资源,比如:SDK、Framework 以及数据通信格式等。

这单药品订单顾客住在春晖路街道国瑞城小区。在小区外,李熊看到,一条鲜红的横幅十分亮眼——“勤洗手来多消毒,才能远离坏病毒”。一个小喇叭反复播放,提醒进出人群,“少出门、不聚集,戴口罩、讲卫生……”李熊与顾客电话沟通后,对方选择无接触取货,他将药品放在物管处,马不停蹄地赶往下一个小区。