您的位置:首頁>正文

適合入門的8個趣味機器學習項目

摘要:還在為找不到機器學習入門練手項目而感到無奈嗎?本指南中,將給大家帶來8個適合初學者學習的有趣的機器學習項目,簡單易學,相信會增添大家學習機器學習的信心。

談到機器學習,相信很多除學者都是通過斯坦福大學吳恩達老師的公開課《Machine Learning》開始具體的接觸機器學習這個領域,但是學完之後又不知道自己的掌握情況,缺少一些實際的項目操作。對於機器學習的相關競賽挑戰,有些項目的門檻有些高,參加後難以具體的實現,因此造成自己對機器學習的熱情逐漸衰減。大部分都經歷過這個過程,一直想找一些練手的專案,最典型的練手專案比如手寫體識別等,但這類的專案成熟得不能再成熟了,參考別人的網路模型跑一下實驗,結果的準確率都快達到100%,學習調參的機會比較少,因此都想找一些適合初學者的項目練手。那麼在本指南中,將給大家帶來8個適合初學者學習的有趣的機器學習項目。

將自己的時間花在項目上是最好的一種投資方式,在專案中你會享受學習、保持積極性並取得更快的進展。沒有任何理論可以代替實踐,雖然教材和課程能讓你掌握一些基本原理,但在嘗試應用時,你會發現具體操作起來比較困難。因此專案有助於提高應用機器學習的技巧,此外在找工作中也會給自己增添一些籌碼。

以下將具體介紹這8個專案,其中的任何一個專案都能在一個週末完成,如果你喜歡的話,可以對其進行相關的擴展。

本文目錄

機器學習的角鬥士 扮演“點球成金” 預測股票價格教會神經網路閱讀的筆跡調查安然事件從Scrath開始寫機器學習演算法挖掘社交情緒改善衛生保健

1.機器學習的角鬥士

這個項目被稱為“機器學習的角鬥士”,但它不是新的。這是圍繞機器學習建立實際直覺最快的一種方式。目標是將現成模型應用到不同的資料集。本項目主要有3個原因令人感歎:

首先,你會根據直覺為問題找到對應的模型。該模型是否對資料丟失具有魯棒性、該模型適合處理哪種類別特徵?這都可以通過挖掘教材找到答案,但如果通過實踐的話能學習得更好。

其次,本專案將教會你快速設計初始模型的技能。在實際應用中,如果不簡單嘗試的話難以知道哪些模型表現最好。

最後,這個練習可以幫助你掌握建模的流程。例如:

導入資料資料清洗將資料集拆成訓練/測試或交叉驗證集預處理變換特徵工程

因為使用現成的模型,這促使你有更多的機會專注於學習上述的這些關鍵步驟。

通過以下教程可以練習回歸、分類和聚類演算法。

教程

——sklearn資料包官方教程 ——用於訓練機器學習模型的分步教程——線上研討會

資料來源

——350多個可檢索資料集,幾乎涵蓋每一個主題。——Kaggle社區上的100多個資料集。——由美國政府發佈的開放資料集。

2.扮演“點球成金”

在這本書中,奧克蘭通過善於分析球員的球探,建立了一個有競爭力的陣容,但只需要支付只有1 / 3的紐約洋基隊支付的工資。

首先,如果你還沒讀過這本書,你應該看看。

幸運的是,體育界有很多的資料可以玩,這些資料(球隊、比賽、成績和球員資訊)都是可以免費獲取。

有很多有趣的機器學習項目適合初學者。例如:

體育博彩——在每場球賽之前根據給出的資料預測得分;人才搜索——利用高校統計資料預測哪些球員會擁有最好的職業生涯;一般管理——基於球員各自的優勢創建集群,建立一個全面的團隊。

也是一個很好的實踐資料視覺化和探索性分析的領域,你可以使用這些技巧來幫助你決定在你的分析中應包含哪些類型的資料。

資料來源

——體育運動和歷史資料包含許多專業的體育比賽等,從網路上非常容易抓取這些資訊。——另一種體育統計資料庫。更雜亂的介面,但個別表可以匯出為CSV檔。——國際棒球和IPL板球比賽的資料,IPL和T20國際比賽的CSV檔可以被獲取。

3.預測股票價格

股票市場對於任何資料科學家們都很感興趣。

首先,你有很多類型的資料,比如價格、全球宏觀經濟指標、波動率指數等。

其次,資料是非常精細的。你可以很容易地花費很少時間就能得到每一個公司的資料,這允許你可以創造性地思考交易策略。

最後,金融市場普遍存在回饋週期短的特點。因此,可以快速驗證新的資料。

一些對於初學者友好的機器學習項目如下所示:

定量的價值投資——根據公司的季度報告預測6個月的價格走勢。預言——對三角洲之間的隱含和實際波動率建立時間序列模型,甚至遞迴神經網路。統計套利——基於價格變動及其它因素尋找相似的股票,並尋找價格分歧的時機。

免責聲明:構建交易模型在實踐中的機器學習是簡單的,但使他們的盈利是非常困難的。入市需謹慎,投資有風險。

教程

——將機器學習應用於投資的系列視頻。——對於R定量金融學詳細的課堂筆記。

資料來源

——資料市場,提供免費的金融和經濟資料。——定量金融社區,開發交易演算法提供了一個免費的平臺。——5000多家美國公司5年的基本資料。

4.教會神經網路閱讀筆跡

神經網路和深度學習是現代人工智慧的成功故事,他們促使了圖像識別的重大進展,文本自動生成甚至自動駕駛汽車等。

MNIST手寫體數字分類的挑戰是經典的切入點,該資料集對於初學者是友好的,並且足夠小以至於適合在大多數的電腦完成這個挑戰。

首先,建議閱讀下面的教程第一章。它會教你如何建立一個神經網路,並以高精度的結果完成MNIST挑戰。

教程

——第1章如何從零開始使用Python編寫神經網路完成MNIST數位分類。

資料來源

——包含70000個標記的手寫體數位圖像。

5.調查安然事件

造成有史以來最大的公司破產。在2000年度,安然是美國最大的能源公司,然而被揭露舞弊後,它在一年內就破產了。

幸運的是,我們已經有安然的電子郵件資料庫,它包含150名前安然員工之間的50萬封電子郵件,主要是高級管理人員。這也是唯一的大型公共的真實郵件資料庫,這使得它更有價值。

事實上,資料科學家已經使用這個資料集進行多年的教育和研究。

初學者可以嘗試的機器學習項目例子包括:

異常檢測——按照小時發送和接收的電子郵件分佈嘗試檢測異常行為導致公眾醜聞的異常行為。社交網路分析——建立員工之間的網路圖模型來尋找關鍵人物。自然語言處理——結合電子郵件中繼資料分析正文消息,並根據其目的對電子郵件進行分類。

資料來源

——這是由CMU歸檔的安然的電子郵件。——安然電子郵件資料的探索性分析可以幫助你打好基礎。

6.從Scratch開始寫機器學習演算法

從Scratch開始寫機器學習演算法的原因主要有兩個:

首先,沒有更好的辦法來建立對其機制的真正理解。你將不得不考慮每一步,從而真正掌握這些機制。

其次,你將會學到如何將數學指令工作翻譯成公眾代碼。

開始時,建議你選擇一種不太複雜的演算法;在適應構建簡單的演算法後,儘量擴展他們以獲得的功能;最後,如果你的演算法不比那些現有的資料包快,不要氣餒,因為這些資料包是多年的發展成果!

教程

Python:從Scratch開始Logistic回歸Python:從Scratch開始k-近鄰法R:從Scratch開始Logistic回歸

7.挖掘社交情緒

由於大量使用者生成的內容,社交化媒體已經幾乎成為“大資料”的代名詞。挖掘這些豐富的資料可以發現輿論、前沿和公眾情緒的趨勢。

雖然有許多流行的社交媒體平臺,但推特是練習機器學習經典的切入點。

使用推特資料,你會得到一個有趣的混合資料(推特內容)和中繼資料(位置、標籤、用戶、轉發等),因此有很多方式對其進行分析。

教程

——如何在推特資料進行情感分析——短而甜蜜的情感分析教程

資料來源

——推特API是流媒體資料的經典來源。——Stock Twits是一個社交投資平臺,類似於一個交易者和投資者之間的推特,可以通過將時間戳記和股票代碼符號加入到中擴展此資料集。

8.改善衛生保健

由於機器學習而經歷快速變化的另一個行業是全球健康與保健。

在大多數國家,成為一個醫生需要多年的教育,這是一個要求很高的領域,長時間、高風險以及一個很高的門檻。

因此近年來,在機器學習的幫助下減輕了醫生的工作量,提高了醫療系統的整體效率。

用例包括:

預防保健——預測對個人和社區層面的疾病爆發。診斷服務——圖像資料的自動分類,如掃描、X射線等。保險——根據公開的風險因素調整保險費。

隨著醫院患者的病例現代化的發展,當我們收集更多的健康資料時,資料科學家將會有很大的可能去改善現存的醫療體系。

教程

——微軟研究院的優秀演講

資料來源

——大型健康資料集的收集——由美國政府提供的醫療保健相關的資料集。——由世界銀行提供的全球健康、營養和人口統計資料。

作者資訊

,一個關於資料科學和機器學習的博客網站。

本文由北郵@愛可哥-愛生活老師推薦,組織翻譯。

文章原標題《8 Fun Machine Learning Projects for Beginners》,作者: EliteDataScience,譯者:海棠,審閱:阿福

同類文章
喜欢就按个赞吧!!!
点击关闭提示