摘要:基于大量的數(shù)據(jù)統(tǒng)計(jì),網(wǎng)球是一種很好的預(yù)測類體育項(xiàng)目。數(shù)據(jù)科學(xué)家根據(jù)歷史數(shù)據(jù)和玩家信息來構(gòu)建預(yù)測模型,并將結(jié)果與博彩公司的評(píng)估進(jìn)行比較。目標(biāo)是找出機(jī)器學(xué)習(xí)模型與博彩公司評(píng)估之間的差距,從而有機(jī)會(huì)獲勝。這是一個(gè)很好的實(shí)際數(shù)據(jù)科學(xué)項(xiàng)目。
作者:chen_h
微信號(hào) & QQ:862251340
微信公眾號(hào):coderpai
簡書地址:https://www.jianshu.com/p/56c...
數(shù)據(jù)科學(xué)家是目前最有吸引力的職業(yè)之一,但是如何進(jìn)入這個(gè)領(lǐng)域卻是一個(gè)不容易的事。因?yàn)槟阈枰?jīng)驗(yàn)才能得到這份工作,但是你需要這份工作才能獲得經(jīng)驗(yàn)。是不是感覺這是一個(gè)惡性循環(huán)?
Statsbot 的數(shù)據(jù)科學(xué)家 Denis Semenenko 寫了這篇文章,用來幫助大家做出第一個(gè)簡單但是具有一定說明性的科學(xué)數(shù)據(jù)項(xiàng)目,這個(gè)項(xiàng)目需要的時(shí)間可能不到一周。
這意味著你需要定制一個(gè)問題,設(shè)計(jì)解決方案,查找數(shù)據(jù),掌握一些分析技術(shù),然后構(gòu)建一些機(jī)器學(xué)習(xí)模型,最后評(píng)估模型質(zhì)量,并將其包裝成簡單的UI。這比 Kaggle 比賽或者 Coursera 課程更加的多樣化。
如果你對這種項(xiàng)目感興趣,那么你可以繼續(xù)閱讀。
分類垃圾郵件垃圾郵件在我們生活的各個(gè)信息角落都存在。其中之一的經(jīng)典數(shù)據(jù)項(xiàng)目就是垃圾郵件分類。你可以訓(xùn)練一個(gè)模型來檢測一個(gè)郵件是否是垃圾郵件,以便來減少垃圾信息對用戶的騷擾。
一個(gè)簡單的機(jī)器學(xué)習(xí)模型基于在郵件中看到 “sale” 或者 “buy” 這樣的,來定義一個(gè)郵件是不是垃圾郵件。因此,你可以在一個(gè)星期內(nèi)做出一個(gè)垃圾郵件的原型。
問題定義:?文本分類
算法:?樸素貝葉斯,線性分類器,樹分類等等分類器
技術(shù)工具:?sklearn,?nltk,?scrapy
數(shù)據(jù)集:?sms spam dataset,?e-mail spam dataset?,?youtube comments spam dataset
展示方式:?網(wǎng)頁頁面
參考指南:AdBlock,?Adguard
閱讀指南:?How To Build a Simple Spam-Detecting Machine Learning Classifier,?Getting Started: Building a Chrome Extension
Not Hotdog 是一個(gè)來自硅谷系列的應(yīng)用程序,可以識(shí)別照片中的熱狗和非熱狗。
你可以通過使用社交網(wǎng)絡(luò)或者谷歌圖像來收集數(shù)據(jù)集,以此來作為你的模型的訓(xùn)練集。
從頭開始訓(xùn)練一個(gè)模型需要大量的訓(xùn)練樣本和訓(xùn)練時(shí)間,因此最好我們使用一個(gè)經(jīng)過預(yù)訓(xùn)練的網(wǎng)絡(luò)模型,這樣可以縮短訓(xùn)練時(shí)間。
問題定義:?圖像分類,?image classification,?transfer learning
算法:?卷積神經(jīng)網(wǎng)絡(luò)
技術(shù)工具:?keras,?lasagne,?Instagram API(or external libraries e.g.Instabot)
數(shù)據(jù)集:?使用 Instagram API 來收集數(shù)據(jù)
展示方式:?APP
參考指南:?Not hotdog
閱讀指南:?Transfer learning using Keras,?Building powerful image classification models using very little data
推薦系統(tǒng)對于像 Google 或者 Facebook 這樣的大型公司是必須的,因?yàn)閺氖杖牒陀脩酎c(diǎn)擊率來看,推薦系統(tǒng)都是非常有價(jià)值的。
如果我們在這個(gè)子領(lǐng)域能夠得到實(shí)踐,那么對于以后的數(shù)據(jù)分析發(fā)展是非常有利的。
問題定義:?推薦系統(tǒng)
算法:?降低維度,協(xié)同過濾,分類算法
技術(shù)工具:?sklearn,?vowpal wabbit
數(shù)據(jù)集:?Netflix prize dataset,?MovieLens dataset
展示方式:?網(wǎng)頁展示
參考指南:?Jinni,?MovieLens
閱讀指南:?Quick Guide to Build a Recommendation Engine in Python
如果你比較喜歡處理圖像,那么你可以嘗試創(chuàng)建自己自定義的 Snapchat 鏡頭。任何社交網(wǎng)絡(luò)都喜歡這樣的東西,包括 Instagram,F(xiàn)acebook 和 Snapchat。
鏡頭檢測面部的關(guān)鍵點(diǎn),用來顯示嘴唇,眼睛,鼻子和臉部的邊界。然后你可以使用一些框架來重新構(gòu)建面部。
問題定義:?圖像識(shí)別,面部檢測
算法:?卷積神經(jīng)網(wǎng)絡(luò),面部關(guān)鍵點(diǎn)檢測
技術(shù)工具:?dlib,?openface,?keras,?openCV
數(shù)據(jù)集:?Facial keypoints detection dataset
展現(xiàn)方式:?APP
參考指南:?Snapchat,?Instagram
閱讀指南:?Facial landmarks with dlib, OpenCV, and Python,?Build a Simple Camera App
很多公司都會(huì)在互聯(lián)網(wǎng)上面監(jiān)控客戶的行為數(shù)據(jù),以此來對消極的客戶做出相應(yīng)的調(diào)整。例如,T-Mobile 和 Verizon 需要對消極的推文進(jìn)行快速響應(yīng),并找出問題并且解決。
每個(gè)人都可以使用 Twitter API 和情緒分類算法來進(jìn)行這個(gè)項(xiàng)目。
問題定義?情感分析
算法:?情感分析
數(shù)據(jù)集:?Twitter API
技術(shù)工具:?nltk,?spaCy
展現(xiàn)方式: APP
參考指南:?Twilert,?Tweetreach
閱讀指南:?Twitter sentiment analysis using Python and NLTK
專業(yè)的投注者總是在尋找有利可圖的賭注。基于大量的數(shù)據(jù)統(tǒng)計(jì),網(wǎng)球是一種很好的預(yù)測類體育項(xiàng)目。數(shù)據(jù)科學(xué)家根據(jù)歷史數(shù)據(jù)和玩家信息來構(gòu)建預(yù)測模型,并將結(jié)果與博彩公司的評(píng)估進(jìn)行比較。
目標(biāo)是找出機(jī)器學(xué)習(xí)模型與博彩公司評(píng)估之間的差距,從而有機(jī)會(huì)獲勝。這是一個(gè)很好的實(shí)際數(shù)據(jù)科學(xué)項(xiàng)目。
問題定義:?分類
算法:?分類算法
數(shù)據(jù)集:atpworldtour.com
技術(shù)工具:?sklearn,?scrapy
展現(xiàn)方式: APP
參考指南:olbg.com, verifiedbets.com
閱讀指南:?Machine Learning for the Prediction of Professional Tennis Matches
機(jī)器學(xué)習(xí)模型還善于處理的一個(gè)領(lǐng)域是時(shí)間序列預(yù)測。一個(gè)數(shù)據(jù)處理引擎可以預(yù)測匯率和股票的波動(dòng),所以交易員或者程序可以根據(jù)這些數(shù)據(jù)進(jìn)行交易。
如果你選擇這個(gè)項(xiàng)目,你會(huì)很容易得到數(shù)據(jù)和實(shí)踐。這個(gè)領(lǐng)域是從計(jì)量經(jīng)濟(jì)學(xué)和經(jīng)典機(jī)器學(xué)習(xí)中得出來的,所以你應(yīng)該準(zhǔn)備好探索統(tǒng)計(jì)學(xué)方法。
問題定義:?時(shí)間序列預(yù)測
算法:?ARIMA, regression
數(shù)據(jù)集:?Quandl
技術(shù)工具:?sklearn,?prophet,?scrapy
展示方式:?APP
參考指南:?financeboards.com
閱讀指南:?An Introduction to Stock Market Data Analysis with Python
我希望你能從這些簡單數(shù)據(jù)項(xiàng)目中獲得一些啟發(fā),開啟你的數(shù)據(jù)分析之路。
作者:chen_h
微信號(hào) & QQ:862251340
簡書地址:https://www.jianshu.com/p/56c...
CoderPai 是一個(gè)專注于算法實(shí)戰(zhàn)的平臺(tái),從基礎(chǔ)的算法到人工智能算法都有設(shè)計(jì)。如果你對算法實(shí)戰(zhàn)感興趣,請快快關(guān)注我們吧。加入AI實(shí)戰(zhàn)微信群,AI實(shí)戰(zhàn)QQ群,ACM算法微信群,ACM算法QQ群。長按或者掃描如下二維碼,關(guān)注 “CoderPai” 微信號(hào)(coderpai)。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://hztianpu.com/yun/41130.html
摘要:本文與大家分享一些編程語言的入門書籍,其中不乏經(jīng)典。全書貫穿的主體是如何思考設(shè)計(jì)開發(fā)的方法,而具體的編程語言,只是提供一個(gè)具體場景方便介紹的媒介。入門入門容易理解而且讀起來幽默風(fēng)趣,對于編程初學(xué)者和語言新手而言是理想的書籍。 本文與大家分享一些Python編程語言的入門書籍,其中不乏經(jīng)典。我在這里分享的,大部分是這些書的英文版,如果有中文版的我也加上了。有關(guān)書籍的介紹,大部分截取自是官...
摘要:我強(qiáng)烈推薦這本書給初學(xué)者,因?yàn)楸緯鴤?cè)重于統(tǒng)計(jì)建模和機(jī)器學(xué)習(xí)的基本概念,并提供詳細(xì)而直觀的解釋。關(guān)于完善簡歷,我推薦以下網(wǎng)站和文章怎樣的作品集能幫助我們找到第一數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)方面的工作簡歷是不夠的,你還需要作品集的支撐。 showImg(https://segmentfault.com/img/bVblJ0R?w=800&h=533); 作者 | Admond Lee翻譯 | Mik...
摘要:數(shù)據(jù)科學(xué)任務(wù)主要是數(shù)據(jù)分析領(lǐng)域,數(shù)據(jù)科學(xué)家要負(fù)責(zé)分析數(shù)據(jù)并建模,具備統(tǒng)計(jì)預(yù)測建模機(jī)器學(xué)習(xí)等方面的經(jīng)驗(yàn),以及一定的使用或語言進(jìn)行編程的能力。監(jiān)控運(yùn)行時(shí)性能指標(biāo)信息。 Spark Spark 背景 什么是 Spark 官網(wǎng):http://spark.apache.org Spark是一種快速、通用、可擴(kuò)展的大數(shù)據(jù)分析引擎,2009年誕生于加州大學(xué)伯克利分校AMPLab,2010年開源,20...
閱讀 1506·2021-09-02 10:19
閱讀 1182·2019-08-26 13:25
閱讀 2189·2019-08-26 11:37
閱讀 2513·2019-08-26 10:18
閱讀 2758·2019-08-23 16:43
閱讀 3207·2019-08-23 16:25
閱讀 873·2019-08-23 15:53
閱讀 3439·2019-08-23 15:11