機器學(xué)習(xí)
1.什么是機器學(xué)習(xí)
機器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計算機具有智能的根本途徑。它的應(yīng)用已遍及人工智能的各個分支,如專家系統(tǒng)、自動推理、自然語言理解、模式識別、計算機視覺、智能機器人等領(lǐng)域。其中尤其典型的是專家系統(tǒng)中的知識獲取瓶頸問題,人們一直在努力試圖采用機器學(xué)習(xí)的方法加以克服。
學(xué)習(xí)能力是智能行為的一個非常重要的特征,但至今對學(xué)習(xí)的機理尚不清楚。人們曾對機器學(xué)習(xí)給出各種定義。H.A.Simon認為,學(xué)習(xí)是系統(tǒng)所作的適應(yīng)性變化,使得系統(tǒng)在下一次完成同樣或類似的任務(wù)時更為有效。R.s.Michalski認為,學(xué)習(xí)是構(gòu)造或修改對于所經(jīng)歷事物的表示。從事專家系統(tǒng)研制的人們則認為學(xué)習(xí)是知識的獲取。這些觀點各有側(cè)重,第一種觀點強調(diào)學(xué)習(xí)的外部行為效果,第二種則強調(diào)學(xué)習(xí)的內(nèi)部過程,而第三種主要是從知識工程的實用性角度出發(fā)的。
機器學(xué)習(xí)在人工智能的研究中具有十分重要的地位。一個不具有學(xué)習(xí)能力的智能系統(tǒng)難以稱得上是一個真正的智能系統(tǒng),但是以往的智能系統(tǒng)都普遍缺少學(xué)習(xí)的能力。例如,它們遇到錯誤時不能自我校正;不會通過經(jīng)驗改善自身的性能;不會自動獲取和發(fā)現(xiàn)所需要的知識。它們的推理僅限于演繹而缺少歸納,因此至多只能夠證明已存在事實、定理,而不能發(fā)現(xiàn)新的定理、定律和規(guī)則等。隨著人工智能的深入發(fā)展,這些局限性表現(xiàn)得愈加突出。正是在這種情形下,機器學(xué)習(xí)逐漸成為人工智能研究的核心之一。它的應(yīng)用已遍及人工智能的各個分支,如專家系統(tǒng)、自動推理、自然語言理解、模式識別、計算機視覺、智能機器人等領(lǐng)域。其中尤其典型的是專家系統(tǒng)中的知識獲取瓶頸問題,人們一直在努力試圖采用機器學(xué)習(xí)的方法加以克服。
2.機器學(xué)習(xí)的研究與發(fā)展
機器學(xué)習(xí)的研究是根據(jù)生理學(xué)、認知科學(xué)等對人類學(xué)習(xí)機理的了解,建立人類學(xué)習(xí)過程的計算模型或認識模型,發(fā)展各種學(xué)習(xí)理論和學(xué)習(xí)方法,研究通用的學(xué)習(xí)算法并進行理論上的分析,建立面向任務(wù)的具有特定應(yīng)用的學(xué)習(xí)系統(tǒng)。這些研究目標相互影響相互促進。
自從1980年在卡內(nèi)基梅隆大學(xué)召開第一屆機器學(xué)習(xí)研討會以來,機器學(xué)習(xí)的研究工作發(fā)展很快,已成為中心課題之一。隨著機器學(xué)習(xí)的蓬勃發(fā)展,人們在工作中累積了大量可供測試算法的數(shù)據(jù)集或者超大數(shù)據(jù)集,機器學(xué)習(xí)工作者在此基礎(chǔ)上可以進行更精準的研究,例如ICCV2011年馬爾獎:相對屬性的數(shù)據(jù);AOL-user-ct-collection數(shù)據(jù)集;科雷爾圖片特征數(shù)據(jù)集(UCI);植被型數(shù)據(jù)集(UCI)等等。
學(xué)習(xí)是人類具有的一種重要智能行為,但究竟什么是學(xué)習(xí),長期以來卻眾說紛紜。社會學(xué)家、邏輯學(xué)家和心理學(xué)家都各有其不同的看法。
比如,Langley(1996) 定義的機器學(xué)習(xí)是“機器學(xué)習(xí)是一門人工智能的科學(xué),該領(lǐng)域的主要研究對象是人工智能,特別是如何在經(jīng)驗學(xué)習(xí)中改善具體算法的性能”。(Machine learning is a science of the artificial. The field's main objects of study are artifacts, specifically algorithms that improve their performance with experience.')
Tom Mitchell的機器學(xué)習(xí)(1997)對信息論中的一些概念有詳細的解釋,其中定義機器學(xué)習(xí)時提到,“機器學(xué)習(xí)是對能通過經(jīng)驗自動改進的計算機算法的研究”。(Machine Learning is the study of computer algorithms that improve automatically through experience.)
Alpaydin(2004)同時提出自己對機器學(xué)習(xí)的定義,“機器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗,以此優(yōu)化計算機程序的性能標準?!保∕achine learning is programming computers to optimize a performance criterion using example data or past experience.)
盡管如此,為了便于進行討論和估計學(xué)科的進展,有必要對機器學(xué)習(xí)給出定義,即使這種定義是不完全的和不充分的。顧名思義, 機器學(xué)習(xí)是研究如何使用機器來模擬人類學(xué)習(xí)活動的一門學(xué)科。稍為嚴格的提法是:機器學(xué)習(xí)是一門研究機器獲取新知識和新技能,并識別現(xiàn)有知識的學(xué)問。這里所說的“機器”,指的就是計算機,電子計算機,中子計算機、光子計算機或神經(jīng)計算機等等。
機器能否象人類一樣能具有學(xué)習(xí)能力呢?1959年美國的塞繆爾(Samuel)設(shè)計了一個下棋程序,這個程序具有學(xué)習(xí)能力,它可以在不斷的對弈中改善自己的棋藝。4年后,這個程序戰(zhàn)勝了設(shè)計者本人。又過了3年,這個程序戰(zhàn)勝了美國一個保持8年之久的常勝不敗的冠軍。這個程序向人們展示了機器學(xué)習(xí)的能力,提出了許多令人深思的社會問題與哲學(xué)問題。
機器的能力是否能超過人的,很多持否定意見的人的一個主要論據(jù)是:機器是人造的,其性能和動作完全是由設(shè)計者規(guī)定的,因此無論如何其能力也不會超過設(shè)計者本人。這種意見對不具備學(xué)習(xí)能力的機器來說的確是對的,可是對具備學(xué)習(xí)能力的機器就值得考慮了,因為這種機器的能力在應(yīng)用中不斷地提高,過一段時間之后,設(shè)計者本人也不知它的能力到了何種水平。
機器學(xué)習(xí)是人工智能研究較為年輕的分支,它的發(fā)展過程大體上可分為4個時期。
第一階段是在50年代中葉到60年代中葉,屬于熱烈時期。
第二階段是在60年代中葉至70年代中葉,被稱為機器學(xué)習(xí)的冷靜時期。
第三階段是從70年代中葉至80年代中葉,稱為復(fù)興時期。
機器學(xué)習(xí)的最新階段始于1986年。
機器學(xué)習(xí)進入新階段的重要表現(xiàn)在下列諸方面:
(1) 機器學(xué)習(xí)已成為新的邊緣學(xué)科并在高校形成一門課程。它綜合應(yīng)用心理學(xué)、生物學(xué)和神經(jīng)生理學(xué)以及數(shù)學(xué)、自動化和計算機科學(xué)形成機器學(xué)習(xí)理論基礎(chǔ)。
(2) 結(jié)合各種學(xué)習(xí)方法,取長補短的多種形式的集成學(xué)習(xí)系統(tǒng)研究正在興起。特別是連接學(xué)習(xí)符號學(xué)習(xí)的耦合可以更好地解決連續(xù)性信號處理中知識與技能的獲取與求精問題而受到重視。
(3) 機器學(xué)習(xí)與人工智能各種基礎(chǔ)問題的統(tǒng)一性觀點正在形成。例如學(xué)習(xí)與問題求解結(jié)合進行、知識表達便于學(xué)習(xí)的觀點產(chǎn)生了通用智能系統(tǒng)SOAR的組塊學(xué)習(xí)。類比學(xué)習(xí)與問題求解結(jié)合的基于案例方法已成為經(jīng)驗學(xué)習(xí)的重要方向。
(4) 各種學(xué)習(xí)方法的應(yīng)用范圍不斷擴大,一部分已形成商品。歸納學(xué)習(xí)的知識獲取工具已在診斷分類型專家系統(tǒng)中廣泛使用。連接學(xué)習(xí)在聲圖文識別中占優(yōu)勢。分析學(xué)習(xí)已用于設(shè)計綜合型專家系統(tǒng)。遺傳算法與強化學(xué)習(xí)在工程控制中有較好的應(yīng)用前景。與符號系統(tǒng)耦合的神經(jīng)網(wǎng)絡(luò)連接學(xué)習(xí)將在企業(yè)的智能管理與智能機器人運動規(guī)劃中發(fā)揮作用。
(5) 與機器學(xué)習(xí)有關(guān)的學(xué)術(shù)活動空前活躍。國際上除每年一次的機器學(xué)習(xí)研討會外,還有計算機學(xué)習(xí)理論會議以及遺傳算法會議。