我们已经准备好了,你呢?

2024我们与您携手共赢,为您的企业形象保驾护航!

↑↑↑关注“明星”

每日实用资讯,不容错过

干货信息

作者:朱翔宇,京东算法工程师、合伙人

写在前面

这个周末,从“数字中国建设峰会”回到北京后,一个人来到公​​司,回想这几年自己走过的路,感触良多。于是我拿起笔,写下了这几年来的经历、感悟和收获。我会给自己做一个定期的总结,也记录一下我是如何从“水暖建材行业的小孩”回到“计算机行业”,以及如何从一个“数据算法新人”一步步成长起来的。竞赛”并取得了一定的成绩。成就。

那么,让我先自我介绍一下。大家好,我是DOTA,我是朱翔宇。

阿里云地理位置_阿里云经纬度_阿里经纬度

2015:回归 |返回校园

2017:开始 |从今年夏天开始

2018:加入世贸组织 |加入京东第一年

2019:突破 |突破、拥抱变革

2020:挑战 |在成功的一年里继续前进

2015:回归 |返回校园

2015年对我来说是特别的一年。

今年,父亲去世了。

今年,我放弃了父亲留下的公司和水暖建材生意。

今年,本科毕业两年后,我选择重返校园。

就像朴树在《平凡的路》中唱的那样,我曾经拥有的一切,转眼间就如烟消云散了。但生活就是这样。我们总会遇到一些我们不愿意面对的事情。这就是成长的意义。

阿里云经纬度_阿里经纬度_阿里云地理位置

在北京科技大学读研究生期间,我有明确的目标和想要的东西。从研究生一年级在图书馆闲逛,到研究生二年级住在实验室,我抛弃了所谓的生活和社交,也没有参加最后的毕业典礼。在我当时看来,我需要的是时间来弥补我留下的空白,我需要的是提高我对这个领域的整体理解,我需要的是忙碌让我不再胡思乱想。 。整个过程看似极端,但对于处于空白状态的我来说,却是极其有效的。

同时,我也有幸遇到了一位好导师。从杨小龙教授身上,我学到了三件事,使我受益终生。首先,通过反复修改、注释、修改文章。在批注的过程中,我看到自己理解了自己逻辑中存在的问题,逐渐培养了掌控全局和细节的能力;其次,与散养模式相比,从进入实验室的那一刻起,每周都有周会进行分享、总结和呈现,培养了良好的自学和表达能力。在只有阶段性目标、无法掌控细节的实验室氛围中,有更多的时间思考和推测,实现目标有无数的可能性。 “只定目标,不做计划”这成了我至今依然前进的方式;第三,有一个阶段,我是一个非常消极的人,我经常对自己无法忍受的人和事感到消极。表达,但正如杨老师后来提醒我的那样,一个连情绪都无法控制的人,未来能走多远?

2017:开始 |从今年夏天开始

2017年夏天,一次偶然的机会,我接触到了数据竞赛。作为一名本科生,我参加了本科生数学建模竞赛。我对这种新形式的数据竞赛充满了好奇。于是,我怀着好奇和信心,参加了2017年“中国大学生计算机大赛-大数据挑战赛”。

阿里云经纬度_阿里经纬度_阿里云地理位置

赛题描述:鼠标轨迹识别目前广泛应用于多种人机验证产品中。不仅方便用户理解和记忆,还大大增加了暴力破解的难度。然而,攻击者可以利用黑色工具批量生成类人轨迹来绕过检测,并在对抗过程中不断升级自己伪造的数据,从而不断绕过同样升级的检测技术。我们期望利用机器学习算法来提高人机验证中各种机器行为的检测率,包括对对抗过程中出现的新攻击方式的检测。

在数据层面,给出了鼠标移动轨迹(x,y,t)、目标坐标(x,y)和类别标签:1-普通轨迹,0-机器轨迹。通过建模来预测某个轨迹是正常轨迹还是机器轨迹。

2017年,我在算法模型层面还是个新手。虽然经过两年的积累已经有了很多基础,但是面对真正的实际问题,你会发现以前所学的东西是多么的理想化。但有一件事我很清楚。特征决定了模型的上限,算法模型正在无限逼近这个上限。因此,我开始了自己的特征工程之路,从原始数据(x,y,t)中可视化xy,xt,yt。同时,我的特征设计理念是:特征描述“人”,而不是用特征​​描述“机器”。找出两者之间的差异,以达到泛化的目的。从三个角度突出特征提取各自特征的细节。

在模型层面,只选择了单模模型。未经交叉验证,决赛排名全国第六。这表明它在特征构建和对问题的理解方面仍然可以做得很好。如果你要问我为什么不做CV或者?那我只能告诉你了,因为我无知,当时我还是个新手。

阿里经纬度_阿里云地理位置_阿里云经纬度

现在回想起来,第一次参加数据竞赛的过程中,有不少值得回忆的片段。比如我们改了很多次队名,最后用这个ID是因为我们研究生宿舍三个人都玩DOTA;比如我们在比赛的时候批评了文超的开源,然后我们就像陌生人一样认识了他,我们通过一段时间的交流学到了很多东西;比如我遇到了清华大学的刘强老师,他是圈内很多玩家都熟悉的。正是因为刘老师的鼓励,我才没有中途放弃比赛,一路杀入决赛,兑现了对刘强的承诺。按照老师之前的约定,我去深圳领取清华百年纪念邮票。

2018:加入世贸组织 |加入京东第一年

竞争不仅能让自己保持战斗状态,还能结交志同道合的朋友。从深圳回到北京后,我来到京东,在本次大赛冠军潘坤的“忽悠”下开始了我的算法实习生之旅,毕业后留在这里。如果你问我为什么选择这个地方,那是我个人的选择。

首先,我选择团队,纯粹的工作氛围在我的选择中排在第一位。实习让我了解了团队的氛围。同时,在被社会狠狠打了两年之后,我觉得自己看人还算准。当然,事实也验证了我的判断。其次,我选择的方向是“扎根数据,贴近业务”,这是我对自己的定位,因为没有数据的算法只是一堆公式,没有业务背景的支持,算法只是自我的。帮助。最终,我选择相信自己。乱世之中,英雄辈出。我喜欢从0到1的过程。

阿里云地理位置_阿里经纬度_阿里云经纬度

工作成长——金融场景下的建议

今年我的主要工作是金融场景的推荐任务。经纬度算法团队之前没有推荐经验,也没有人带头,从数据采集、数据清洗、特征处理、算法建模开始探索整个流程。以当时算法工程师的能力和素质,现在回想起来,还好当时没人管,不然可能早就完蛋了。 “因祸得福,因祸得福”大概就是这样吧。

我们回过头来谈谈金融场景中的推荐问题。推荐在一定程度上可以简化为用户和物品的匹配问题,将正确的物品匹配到正确的用户。但没有业务背景只做算法模型是没有意义的。毕竟,推荐是一项与业务非常接近的技术。

因此,在基金推荐的任务中,经过与业务方的多次沟通,我们尽可能多地列出了可能影响用户认购行为的因素,并将其量化为算法模型可以识别的特征。同时确定建模目标,减少操作人员手动配置产品的工作量。通过向用户选择和推荐长、中、短期业绩较好的基金,让用户真正获得收益,并尽力引导偏爱非股权型基金而非股权型基金的用户增加业务收入。

特征方面,除了用户行为特征和属性特征外,还增加了市场热度特征维度,增加了alpha值来衡量用户获得超过市场平均水平的回报的能力,增加了beta值来衡量用户获得超过市场平均水平的回报的能力。用户获得市场平均利润的能力。

在召回阶段,基金产品与零售产品的区别在于理财产品的规模要小得多。与传统的多渠道召回方法相比,在基金推荐中,我们首先预测用户的基金类型偏好。同时,基于业务理解,我们增加了对“4433碱基选择方法”的回忆。这种选基方法注重基金的长、中、短期业绩,筛选标准非常严格。入选基金在盈利能力、市场表现、抗风险能力等方面表现突出。

在排序阶段,根据召回的基金类型偏好,对多个用户类型分别进行建模并使用LR+进行排序。

最终,与之前的线上模式和其他队伍并行PK相比,CTR水平提升了12%左右,GMV提升了70%左右。幸运的是,我的想法在网上产生了实际的效果。

突破瓶颈——亮剑深度学习

阿里云地理位置_阿里云经纬度_阿里经纬度

2018年,我开始了第一次使用深度学习的数据算法竞赛,因为在我的工作中,基于业务理解和特征工程水平的方法优化比深度模型的投资成本要好,同时考虑到业务可解释性和GPU的问题在建模环境下,如何快速有效地对业务进行建模,已经成为工作的主旋律。这也给了我一种危机感,所以在个人能力突破方面,我选择了NLP深度学习大赛来亮剑。

关于竞赛问题:

大观数据提供了一批长文本数据和分类信息。它结合最先进的NLP和人工智能技术,深度分析文本的内在结构和语义信息,构建文本分类模型,实现准确分类。

解决方案:

对于这个文本分类任务,即使模型不够好,即使是很小的操作实际上也可以获得非常高的分数。通过增强词向量,即利用与手套的差异,构建更鲁棒的词向量表示。我们来尝试一下+手套+的组合。对于我来说,效果不是很好。我认为可能的原因是 的相似度非常高,削弱了手套的向量表示。同时,我没有单独的手套词向量。我已经尝试过,你也可以尝试一下。模型方面,我们赛后开源了一个两层模型。

最终,首次使用纯深度学习模型构建的算法解决方案获得了第三名。通过这次比赛,我和Timo(何从清)成为了很好的朋友。同时,通过近年来的交流,我也从他身上学到了很多东西。

2019:突破 |突破、拥抱变革

2019年是动荡的一年。这一年我经历了两次组织架构调整。与此同时,除了我之外,其他同时加入团队的校招人员今年也都选择了离开。虽然也想过离开,但抱着拥抱变化的心态,继续奋斗。因为我刚进公司的时候就给自己立了一堵墙,就是未来三年无论发生什么,无论经历什么,我都会坚守三年的期限。只有那些在不断变化的环境中茁壮成长的人才是最强大的。当时,在这个过程中,我也认识了很多刚刚从事算法工程师工作的算法工程师。我不会对此发表评论,毕竟言语是被低估的。

工作成长——多目标任务的建议

阿里云经纬度_阿里经纬度_阿里云地理位置

在这些变化中,2019年工作中最大的收获就是完成了多目标任务场景的推荐。这也是一个场景挑战,我发现在算法建模层面非常有趣,以至于在问题的一开始,我认为这是一个伪命题。当然,在这个过程中,我也做了诸如推荐返利产品、推荐众筹产品、数据挖掘等工作,就不赘述了。

在这个多目标任务场景的推荐任务中,根据业务背景的特点,我使用了Walk和Deep Walk来进行核心指标的拆分,因为交叉转化的概念无法在模型层面进行建模,但是让我们换个思路,如何在A指标的基础上通过建模来提高B指标呢?我的解决方案是基于业务建模,通过对用户群体进行详细划分,对不同群体的特征进行逐步建模。具体实现形式不方便介绍,因为涉及的业务场景太多,但基本思想是“随机游走、分而治之”。

突破瓶颈——技术沉淀

阿里经纬度_阿里云经纬度_阿里云地理位置

这一年经历了很多负面的事情,这里不方便多说。毕竟杨老师的教诲我还深深的记得。十分之九的事情发生在他们不喜欢的人身上。但你仍然需要昂首挺胸,勇往直前。在第一次尝试深度学习之后,我决定继续走上成为专家的道路。毕竟,取得好成绩并没有什么意义。这可能只是运气好。

在我第一次尝试深度学习之后,我做了很多思考,比如每一层提取什么特征,它是如何工作的,以及我可以通过哪些其他方式提取特征表达。也正是基于这些想法,我悟出了一套炼丹方法,并逐渐形成了自己的炼丹笔记。

阿里云经纬度_阿里云地理位置_阿里经纬度

和第一次经历

后来参加了JDATA绝对语义识别挑战赛,预测广告口号是否违规。在这次比赛中,我也有了深刻的认识。

阿里经纬度_阿里云经纬度_阿里云地理位置

当序列较长时,RNN 在捕获序列的长期依赖性方面会变得较弱。从分析函数中,我们可以发现序列中的每个元素都会与其他元素进行比较。在此过程中,每个元素之间的距离为1。因此,我们在BI-GRU和Bi-LSTM模型中引入机制来灵活捕获全局和局部连接。

阿里云经纬度_阿里云地理位置_阿里经纬度

它是通过向量建模的。它使用矢量输出而不是标量输出来捕获空间结构信息。它最初由深度学习之父提出并应用于图像领域。由于NLP是通过词向量构建的,因此该方法在NLP领域具有独特的优势。本次比赛,我们将方法从图像领域迁移到NLP领域并应用和实践。因为它本质上是一个并行注意力模型,所以它可以将信息提取的注意力集中在更活跃的下一层上,而忽略那些不活跃的层。因此,我们使用RNN的输出作为低层,同时通过动态路由构造高层语义表示来获得高层,并将获得的空间特征作为后续Dense层的输入。

第一次使用 BERT 的经历

阿里经纬度_阿里云地理位置_阿里云经纬度

BERT是横扫各种NLP任务的利器,我在这次比赛中也做了相应的应用。

与其他最近的语言表示模型不同,BERT 旨在通过联合调节所有层中的上下文来预训练深度双向表示。因此,通过使用12层来捕获全局语义信息并通过next预测下一个句子,可以构建上下文的上下文词向量。预训练的 BERT 表示可以通过额外的输出层进行微调,适合为各种任务构建最先进的模型。

在本次比赛的最后答辩中,有参赛者提出BERT模型在使用时效果不如Bi-LSTM。这可能有两个原因。一是使用BERT模型在训练过程中没有收敛;而是直接应用原有模型,根据实际问题进行相应的优化和参数调整。

技术文章沉淀

结识了很多志同道合的朋友,这大概也是我参加数据竞赛的原因之一。 2019年,我和阿水成了朋友。他是一个英俊的年轻人,充满激情,想法很多。从很多方面来说,他都是我学习的榜样。同时,两年的工作和学习积累让我开始总结实战,逐渐养成了写技术文章的习惯。如果你对上面的方案感兴趣,可以看我之前分享的详细方案。链接如下:

2020:挑战 |在成功的一年里继续前进

2020年,新冠疫情改变了很多,也改变了很多工作和生活模式,也改变了我很多。和往常一样,今年我又经历了一次组织架构的变化,但幸运的是,无论是我离开的直属团队还是现在加入的直属团队都非常好,只是因为个人职业规划和部门职能的变化。我做出了自己的选择。

第一本书

阿里云经纬度_阿里云地理位置_阿里经纬度

2020年春节期间,一次偶然的机会,我和他们一起完成了国内第一本竞赛实践书籍:《阿里云天池竞赛题解析——机器学习》。这是我第一次写书。春节期间我完成了初稿。幕后还发生了一些小故事。我不仅感叹命运的奇妙,而且还顽强地向前走,这很好。

为了让更多人以更低的成本接入比赛,更快地参与比赛,天池团队开发了提供免费算力的DSW平台,并与比赛中的领先选手和机构合作,共享一系列免费算力学习视频课程。为了让大家更轻松地参与数据竞赛,天池团队对7年举办的200余场比赛的相关内容进行了沉淀、优化、再优化,最终与天池联合出版了国内第一本实战竞赛书籍。电子工业出版社. :《阿里云天池竞赛题解析-机器学习篇》。

本书包含四个经典竞赛案例,通过七个维度对每个竞赛题进行详细分析,让您清楚地了解这个竞赛题是关于什么的,为什么会有这个竞赛题,如何利用现有技术解决这个问题,以及如何解决这个竞赛题。来优化它。解答等内容,每个竞赛案例都包含N大知识点,涵盖了机器学习的全过程。你学到的不仅仅是技术,更是解决问题的思维方式。

从200余个竞赛中评选出最典型的四个竞赛——工业蒸汽预测、天猫用户重复购买预测、O2O优惠券预测和阿里云安全恶意软件检测。每场比赛都是从对赛题的理解和数据探索开始的。 、特征工程、模型训练、模型验证、特征优化和模型融合。 7个步骤逐级进行讲解和推进,分析竞赛内容和解决方案。

阿里经纬度_阿里云地理位置_阿里云经纬度

如果你想开始你的算法学习和比赛,如果你想在比赛中取得更好的成绩,如果你想了解普通选手和优秀选手的差距,如果你也想通过比赛获得更好的offer···新手,这是一本非常适合竞赛的入门书,也是一本很好的算法学习实用书;作为高手,你可以通过本书的实践内容来梳理自己的竞赛知识点和技能圈,并检查是否有遗漏。填补空白并进入新的水平。

数字中国创新大赛

阿里云地理位置_阿里云经纬度_阿里经纬度

由于疫情原因,原定于5月举办的数字中国建设峰会推迟至10月,让原本于3月结束的智能算法大赛得以在10月的数字中国创新大赛数字政府赛道总决赛的舞台上继续进行。 。

阿里云经纬度_阿里经纬度_阿里云地理位置

如果说这次比赛收获最大的,应该就是和玉老、杰少、林有溪、堂堂四人组队了。工作之余,他继续参加数据比赛。积极一点来说,他让自己保持在战斗状态和激情,说实话,应该是因为我是一个很无聊的人。告别Dota游戏后,我大部分的休息时间都在家度过,所以让自己忙碌起来似乎是研究生时期带来的惯性。但数据竞赛给我带来的最大乐趣,大概就是认识我的队友了。这可能与我个人的生活经历有关。

阿里云地理位置_阿里云经纬度_阿里经纬度

本次数字中国创新大赛,我们的方案分为四个部分。首先是数据基石部分,包括数据探索和特征工程。对收集到的数据进行分析、整理,提取有效信息;算法核心部分是系统的智能大脑,可以提供多种算法模型,如岗位类型预测、相似度预测等。度匹配、防碰撞预警等;工程骨架部分将算法核心与可视化平台关联起来,帮助实现算法封装和平台搭建;可视化平台部分以数据驱动、算法支撑,进行实时监管和智能决策,辅助海事人员进行海上作业。建设与管理。

阿里云经纬度_阿里经纬度_阿里云地理位置

在智能图表云系统的架构设计中,我们在构思整个系统解决方案时,坚持快速构建、多次迭代、小步走的模式,强调数据的多渠道采集,同时注重形成以海洋渔业场景为核心的智能系统。系统架构分为数据采集、数据存储、数据模型和智能应用四个部分。完整的系统架构有强大的技术支持。系统完成前后端分离设计,保证代码和数据安全。可视化部分利用GPU引擎,秒级完成百万轨迹点的前端渲染。

个人总结和感悟

(一)工作与学习齐头并进。任何时候都不要失去提升自己的机会。人们很懒。如果你不甘心平庸,那么你就必须努力。

(2)工作习惯的养成。无论是在读研究生还是刚参加工作时,我都有记笔记的习惯。只有善于总结,才能进步。给大家分享一下我的一些工作笔记。

阿里云地理位置_阿里经纬度_阿里云经纬度

(3)设定人生目标,每三年一个大目标,每年一个小目标。但我从不为自己制定具体计划,因为计划不会很快改变。当你有了目标,你所有的选择都会偏向你的目标。

(4) 勇于战斗——遇到敌人时总是使用你的剑。我最喜欢的战争题材电视剧中的台词之一是,遇到敌人必须拔剑。狭路相逢,勇者胜。倒在敌人刀下并不丢人。生活中有太多不如意的事情,所以不要自负。

(5)拥抱变化。工作之后,你会发现变化时刻存在,并学会拥抱变化、成长。

(6)志同道合的朋友。有陪伴的感觉真的很好。

给毕业生的建议

谢谢你们一路以来对我的信任。作为一名技术面试官,到目前为止我已经面试过超过60位候选人。对于社招我就不过多评论了。对于刚毕业的大学生,我给你一些建议。如果你没有受过项目培训,那么你应该有扎实的基本功,在基础知识之上你应该有一些自己的想法。大多数面试官都是在发现你的优势,这也是通过你的简历开始了解你的一种方式。该过程的初始分数为 50 分。每一次对问题的回答和理解都会为你加分或减分,所以要脚踏实地,展现出自己最好的一面,展现自己。最后,好好刷! ! !

主要的技术积累经验写在最后的话。

感谢一路走来帮助过我的所有朋友,也感谢这几年我陆续遇到的贵人,包括杨老师、兴东哥、光叔、雷哥、文文、芬姐、雪阿姨、雪姐等人。有聪明的朋友,也有无耻的朋友。谢谢。

还有坤、红林、从庆、阿水、杰少、玉老、尤溪、玉坤等人一起战斗过。路还很长,未来可期。

最后,完成毕业三年的总结,开始未来三到五年的目标。

未来见~

“好东西值得学习,连续学习三遍↓

二维码
扫一扫在手机端查看

本文链接:https://by928.com/7413.html     转载请注明出处和本文链接!请遵守 《网站协议》
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。

项目经理在线

我们已经准备好了,你呢?

2020我们与您携手共赢,为您的企业形象保驾护航!

在线客服
联系方式

热线电话

13761152229

上班时间

周一到周五

公司电话

二维码
微信
线