热点| 数据科学最重要的三个Projects分别是什么?

原标题:热点| 数据科学最重要的三个Projects分别是什么?

今天给大家介绍一下我们数据科学家训练营的三个精心设计的 Project 分别是什么?是做什么的?能学会什么?

NLP (Natural Language Processing) Project

电商网站用户评价商业价值挖掘

我们在电商平台购买商品时,通常会阅读其他购买人的评论来得知评价者对于商品的评价是好评还是差评。然而如何通过机器的自然语言识别自动识别一段文字的情感评价,实现从数据到结果的自动化分析输入?如何借此挖掘电商网站近20年用户评价的价值?如何将NLP的潜在商业价值转化为现实的商业收益?在我们的NLP项目中,我们会通过结合不同的机器学习算法设计一项产品来帮助我们实现这一功能。我们将要设计的产品不仅仅可以实现对评论的情感评价,同时也会对其中的关键词进行高亮,并且通过简单的展示页面实现产品与用户操作上的交互。

通过抓取真实 Amazon Review Dataset 作为模型训练数据源,利用自然语言处理概念和流程对以万计的数据进行预处理,比如,词语切分(Tokenization)将句子拆分成为一个个单词,对拆分后的词语进行正则化(Normalization),利用 stemming 及 lemmatization 的技术将词语回复原型,也就是词干化。构建词袋特征(bag of words)并计算句子相似性。在以上预处理的过程中能体会并实践到怎么用NLP的思维去处理文本类的数据。

在接下来的过程中,将使用多种机器学习的算法统计模型(比如,logistic regression,naive bayes,SVM等)以及深度学习的框架对处理好的数据进行批量训练。在基于深度学习(Deep Learning)的NLP模型(LSTM)训练中,学习用 Tensorflow,Keras 等框架进行更有效率的情感计算和情感语义的分类。

最终我们会将训练好的模型在测试之后,使用一系列网页框架对于我们的产品实现交互界面并且展示产品,目的旨在于实现对每一条新进来的评论进行情感的评价。

在2018年NLP内容飞速发展的阶段,文本,语言,内容信息对于我们去分析数据,提供决策起着至关重要的作用。各个行业,产品都需要NLP的支持。地理地图信息,电影音乐推荐等等。

如果你初识数据科学和NLP领域,逢人自称“小白”,通过这次项目的学习和实践,你可以深度理解作为一个21世纪最性感职业 -- 数据科学家的逻辑以及需要的技能。基于实际数据和场景产出自己完整的作品,拥有属于自己的项目体验。如果你已混迹“数据科学”一两年头,此次项目将为您解锁数据科学更多可能性,利用NLP的学习让技术落地。skr skr!

Game Recommendation System Project

游戏推荐系统

推荐系统近几年发展十分火热,几乎所有的电子商务、社交网络、购物平台等都在不同程度上使用了推荐系统,在游戏平台中,推荐系统也是不可缺少的部分。在我们的游戏推荐系统项目中,我们基于Steam平台,对用户过去的游戏信息进行分析,根据游戏的受欢迎程度设计了推荐系统,为用户进行游戏推荐。用户同时也可以通过选择感兴趣的类别对结果进行过滤,对推荐结果进行进一步优化。学员将从产品定义、数据爬取、数据导入、数据分析、推荐系统平台设计、效果评估等方面,完成一系列完整的高水准产品研发过程。

通过使用 Request 以及 BeautifulSoup 工具包,实现对Steam游戏平台以及其他公开数据源的数据抓取,获得丰富的原始数据,并进行处理与存储。在这个过程中,能够增强同学们在对于原始数据的获取能力,夯实同学们作为一个数据科学家的重要基础。

在抓取了丰富原始数据之后,为了能够最大程度地从原始数据中得到有效信息,一个非常重要的步骤就是对这些数据进行特征处理和筛选。在这个过程中,同学们将会涉及到处理 300 多项特征的处理与筛选。这种大强度的数据特种处理会大幅度提高同学们对于不同特征的理解与影响。

在备好了所需的原材料,也就是处理后的数据,我们接下来的任务就是训练模型,从而能够充分的利用这些数据把相应的内容推荐给合适的用户。在这个环节,老师会教给同学们三种不同的模型,并且会带领大家上手实际去实现这三种模型。其中比较简单的一种就是同学们都非常熟悉的 Popularity-Based Algorithm,这个算法能够推荐给用户现在最热门的一些游戏,是我们比较基础的一个模型。至于其他还有什么高级的模型,就可以通过咱们的课程去进一步的了解了。

最终,我们有了产品数据,有了推荐结果和用户,那么最后一步就是把我们的结果呈现给用户,通过我们优化的推荐去刺激用户产生购买行为。那么在这一步我们会使用 Flask 搭建一个完整的应用构架来帮助我们呈现模型所输出的结果,这里的框架搭建会让同学们的数据科学家之路更为完整,产品的最终展示不仅仅能够帮助数据科学家完整地把结果展现出来,也能够在用户端实际地影响用户,是帮助公司盈利的一项重要技能。

随着电子商业的发展,各种各样的产品层出不穷,电影,电视,以及日常用品,逐个浏览海量商品越来越变得不切实际,这个时候就需要更加有效快速的推荐系统来帮助你根据你的历史信息筛选你所感兴趣的产品。这就需要作为数据科学家的我们实现出的推荐系统来帮助用户更快速的得到合适的产品信息, Yo~

FinTech (Financial Technology) Project

Fintech智能投资顾问

通常情况下,Lending Club (美国P2P借款机构)中包含了成百上千的贷款项目,让投资人难以进行选择。在我们的FinTech项目中, 我们会使用过去所学的知识来设计一款智能投资顾问的数据产品,通过机器学习技术帮助投资人在 Lending Club 中鉴别项目的价值,以确定最优项目来进行投资。当新的贷款项目进入平台后,我们的产品会自动分析项目的各项指标,从而筛选出最佳的投资项目。我们还会设计简单的产品展示页面,实现产品与用户操作上的交互功能。

在这个项目中我们会从lending club 的官网上得到公开的历史数据,并且会逐条了解每个特征的意义,从而能够更加充分的利用这些特种中的信息,同时我们也会通过 API call 得到Lending Club 的最新数据,并且对其进行分析,所以是一个真正意义上的基于实际的项目。在超过1,320,000 条以及超过 100 个不同特征的大量的数据中,我们会对其中的特征进行分析进而筛选出适合我们使用的特征。

通过数据处理过程,我们的模型将会得到优质可用的数据。在这个基础上,我们训练几个不同的机器学习模型对我们的数据进行分析和预测,如果同学们对机器学习很感兴趣,那么这将会是一个可遇不可求的机会去在实际生产实践中去部署一个聪明的机器学习模型来对实际的商业内容产生输出。在这个过程中,我们会接触到一个目前在工业街上已经被广泛使用的高级模型,叫做 Gradient Boosted Regression Trees ( GBRT ) 的算法,至于老师还会给同学们介绍什么其他的适合我们这个项目的机器学习算法,同学们可以通过上课去了解更多的信息。

在我们的智能投资顾问,也就是我们的机器学习模型,成型了之后,我们会将这个投资顾问部署到一个基于 Flask 架构的网页应用当中,从而将其完善成一个完整的应用,能够真正的投入到实际的使用之中。在部署这个应用的过程中,同学们会学习到如何使用 Flask 这个工具。学好这个工具也能够帮助同学们在今后的生产生活学习中将其他同学们感兴趣的内容部署成一个实际可以发布的网页应用。

在同学们部署好之后,同学们就已经拥有一个可以帮助你预测每一笔借贷请求的智能投资顾问,将能够对 Lending Club 平台下的项目进行评估与最佳投资项目的选择。

是不是心动了!

快来报名我们的数据科学训练营

如果你想要扎实数据科学的基础,提升数据科学的建模能力,想要学习高效算法,请老师讲解最厉害的面试题,这一次机会你不能放弃了,数据科学家训练营动力起航,我们给你最完备的教学计划。

课程周期:16周

课程形式:

Online Webinar

直播课堂 实时互动

提供 video 回看复习整理

课程时间:

Lecute:

Saturday & Sunday 17:00 - 19:00 PT

Homework:

Saturday 15:00 - 16:30 PT

Interview Class:

Saturday: 13:00 - 15:00 PT

TA Office Hour:

Wednesday 17:00 – 19:00 PT

Friday 15:00 – 17:00 PT

Week Main Topic
Week 1 Introduction to Data ApplicationBasic Linux OperationAnalytics Foundation
Week 2 Project 1Statistical FoundationsData Processing (SQL)Machine Learning Ecosystem
Week 3 Project 2Machine Learning Algorithm 1CS Algorithm (Python) 1Supervised Learning 1
Week 4 Project 3Machine Learning Algorithm 2CS Algorithm (Python) 2Supervised Learning 2
Week 5 DS Interview Class 1Project 4 - Kaggle Demo 1Data VisualizationAdvanced VisualizationA/B Testing
Week 6 DS Interview Class 2Project 5 - Data VizData Processing & Data FrameSpark SQLUnsupervised Learning 1
Week 7 DS Interview Class 3Project 6 - Kaggle Demo 2Deep LearningUnsupervised Learning 2
Week 8 Project 7 - PySparkMachine Learning
Week 8 - 10 Kaggle 1Kaggle 2Kaggle 3
Week 11 - 13 Capstone Project 1 - FinTech
Week 14 - 16 Capstone Project 2 - Recommendation System
Week 13 - 16 Capstone Project 3 - NLP

如何报名?

Option 1扫描左侧二维码添加小姐姐/本文留言/后台留言进行个性化咨询&简历测评

Option 2点击阅读原文,进入报名页面

Option 3 直接登陆官网

https://www.dataapplab.com/course/dscn/

Option 4咨询电话 / Email

1-800-485-7918

datascience@DataAppLab.com返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
免费获取
今日搜狐热点
今日推荐