1. <tt id="5hhch"><source id="5hhch"></source></tt>
    1. <xmp id="5hhch"></xmp>

  2. <xmp id="5hhch"><rt id="5hhch"></rt></xmp>

    <rp id="5hhch"></rp>
        <dfn id="5hhch"></dfn>

      1. 《數學之美》讀書筆記

        時間:2021-04-16 09:30:09 讀書筆記 我要投稿

        《數學之美》讀書筆記

          讀完一本名著以后,大家一定對生活有了新的感悟和看法,是時候寫一篇讀書筆記好好記錄一下了。想必許多人都在為如何寫好讀書筆記而煩惱吧,下面是小編精心整理的《數學之美》讀書筆記,僅供參考,希望能夠幫助到大家。

        《數學之美》讀書筆記

          《數學之美》讀書筆記1

          讀完本書,第一感受:次奧!原來數學如此多的原理模型概念都可以用去解決各種IT技術問題啊。特別是語言識別和自然語言處理這類問題完全就是建立在數學原理之上的?傊,這本書就是用非常深入淺出的話去說明如何用數學方法去解決計算機的各種工程問題。這是一本講道,而不是術的書。 要完全讀懂這本書,我覺得至少需要掌握這三門課:高等數學,離散數學,還有概率論與數理統計。唉我當初數學學得太水了,還掛了高數啊。有好的概念沒看懂,以后有時間在好好看吧。如果想搞計算機研究的話,數學基礎必不可少,別總在抱怨各種數學課上的東西一輩子都用不著。

          發現作者對人類自然發展的認識非常深,其從語言,文字,數學的產生發展,信息的傳播記錄得出了這個結論:信息的產生傳播接收反饋,和今天最先進的通信在原理上沒有任何差別。就算是科學上最高深的技術,那也是模擬我們生活中的一些基本原理。

          我們今天使用的十進制,就是我們扳手指扳了十次,就進一次位。而瑪雅文明他們數完了手指和腳指才開始進位,所以他們用的是二十進制。實際上阿拉伯數字是古印度人發明的,只是歐洲人不知道這些數字的真正發明人是古印度,而就把這功勞該給了“二道販子”阿拉伯人。

          語言的數學本質

          任何一種語言都是一種編碼方式,比如我們把一個要表達的意思,通過語言一句話表達出來,就是利用編碼方式對頭腦中的信息做了一次編碼,編碼的結果就是一串文字,聽者則用這語言的解碼方法獲得說話者要表達的信息。

          自然語言處理模型

          計算機是很笨的,他們唯一會做的就是計算。自然語言處理在數學模型上是基于統計的,說一個句子是否合理,就看看他出現的可能性大小如何,可能性就是用概率來衡量,比如一個句子,出現的概率為1/10^10,另一個句子出現的概率為1/10^20,那么我們就可以說第一個句子比第二個句子更加合理。當然這要求有足夠的觀測值,他有大數定理在背后支持。

          最早的中文分詞方法

          這句話:“同學們呆在圖書館看書”,如何分詞?應該是這樣:同學們/呆在/圖書館/看書。最先的方法是北航一老師提出的查字典方法,就是把句子從左道右掃描一遍,遇到字典里面出現的詞就標示出來,遇到復合詞如(北京大學)就按照最長的分詞匹配,遇到不認識的字串就分割成單個字,于是中文的分詞就完成了。但是這只能解決78成的分詞問題,但是“像發展中國家”這種短語它是分不出來的。后來大陸用基于統計語言模型方法才解決了。

          隱含馬可夫模型(沒這么看懂)

          一直被認為是解決打多數自然語言處理問題最為快速有效的方法,大致意思是:隨機過程中各個狀態的概率分布,只與他的前一個狀態有關。比如對于天氣預報,我們只假設今天的氣溫只與昨天有關而與前天沒有關系,這雖然不完美,但是以前不好解決的問題都可以給出近視值了。

          一個讓我印象深刻的觀點:

          小學生和中學生其實沒有必要花那么多時間去讀書,其覺得最主要的是孩子們的社會經驗,生活能力,和那時候樹立起來的志向,這將幫助他們一生。而中學生階段花很多時間比同伴多讀的課程,在大學以后可以用非常短的時間就可以讀完。因為在大學階段,人的理解能力要強很多,比如中學要花500小時才能搞明白的內容,大學可能花100小時就搞定了。學習和教育是一個人一輩子的事情,很多中學成績好的人進入大學后有些就表現不太好了,要有不斷學習的動力才行。

          余弦定理和新聞分類

          我在新浪干過一年多新聞,這篇認真看了一篇,很吃驚原理cos x與新聞分析也有關系啊。google的新聞服務是由計算機自動整理分類的。而傳統的媒體如門戶網站是讓編輯讀懂新聞,找到主題,再分類分級別的,真苦逼啊。計算機自動分類原理是這樣:如一篇新聞有10000個詞,組成一個萬維向量,這個向量就代表這篇新聞,可以通過某種算法表達這個新聞主題的類型,如果兩個向量的方向一致,說明對應的新聞用詞一致,方向可用夾角表示,夾角可用余弦定理表示,所以當夾角的余弦值接近于1時,這兩篇新聞就可以歸為一類了。

          沒看懂的東西:

          布爾代數:布爾代數把邏輯學和數學合二為一,給了我們一個全新的視角看世界。

          網絡爬蟲的基本原來是利用了圖論的廣度優先搜索和深度優先搜索。

          搜索引擎的結果排名用了稀疏矩陣的計算。

          地圖最基本的計算是利用了有限狀態機和圖論的最短路徑。

          密碼學原理,最大熵模型,拼音輸入法的數學模型,布隆過濾器,貝葉斯網絡等等。

          任何事物都有它的發展規律,當我們認識了規律后,應當在生活工作中遵循規律,希望大家透過IT規律的認識,可 以舉一反三的總結學習認識規律,這樣有助于自己的境界提升一個層次。

          任何問題總是能找到相應的準確數學模型,一個正確的數學模型在形式上應當是簡單的,一個好的方法在形式上應當也是簡單的。簡單才是美。

          《數學之美》讀書筆記2

          最近看了這本《數學之美》,不得不感嘆一句,可惜早已身不在起點。

          我讀書的時候,數學成績一直都很好,雖然離開學校已經10多年,自覺當初的知識還是記得很多,6~7年前再考線性代數和概率論,還是得到了很高的分數。不過我也和大部分人一樣,覺得數學沒有太多用處,特別是高中和大學里面學的,那些三角函數,向量,大數定律,解析幾何,除了在考試的題目里面用一下,平時又有什么地方可以用呢?

          看了《數學之美》,驚嘆于數學的浩瀚和簡單,說它浩瀚,是因為它的分支涵蓋了科學的方方面面,是所有科學的理論基礎,說它簡單,無論多復雜的問題,最后總結的數學公式都簡單到只有區區幾個符號和字母。

          這本書介紹數學理論在互聯網上的運用,平時我們在使用互聯網搜索或者翻譯功能的時候,時常會感嘆電腦對自己的了解和它的聰明,其實背后的原理就是一個個精美的算法和大量數據的訓練。那些或者熟悉或者陌生的數學知識(聯合概率分布,維特比算法,期望最大化,貝葉斯網絡,隱形馬爾可夫鏈,余弦定律,etc),一步步構建了我們現在所賴以生存的網上世界。

          之所以覺得自己早已身不在起點,是因為上面這些數學知識,早已經不在我的知識框架之內,就算曾經學過,也不過是囫圇吞棗一樣的強記硬背,沒有領會過其中的真正意義。而今天想重頭在來學一次,其實已經不可能了。且不說要花費多少的精力和時間,還需要的是領悟力。而這一些,已經不是我可以簡單付出的。

          不像物理、化學需要復雜的實驗來驗證,很多數學的證明,幾乎只要有一顆聰明的頭腦和無數的草稿紙,可是光是這顆聰明的頭腦,就可以阻攔掉很多人。有人說多讀書就會聰明,我不否認,書本的確會提供很多知識,可是不同的人讀同一本書也會有不同的收貨,這就限制于每個人的知識框架和認知水平。就如一個數學功底好過我的人,看這本書,就會更容易理解里面的公式和推導出這些公式的其他運用點,而我,只能站在數學的門口,感嘆一句,它真的好美吧。

          當然,我暫時無法在實際生活中運用這些數學公式,可是書中提到的一些方法論,還是很有幫助的

          1)一個產業的顛覆或者創新,大部分來自于外部的力量,比如用統計學原理做自然語言處理。

          2)基礎知識和基礎數據是很重要性,只有足夠多和足夠廣的數據,才可以提供有效的分析,和驗證分析方法的好壞。

          3)先幫用戶解決80%的問題,在慢慢解決剩下的20%的問題;

          4)不要等一個東西完美了,才發布;

          5)簡單是美,堅持選擇簡單的做法,這樣會容易解釋每一個步驟和方法背后的道理,也便于查錯。

          6)正確的模型也可能受噪音干擾,而顯得不準確;這時不應該用一種湊合的修正方法加以彌補,而是要找到噪音的根源,從根本上修正它。

          7)一個人想要在自己的領域做到世界一流,他的周圍必須有非常多的一流人物。

          《數學之美》讀書筆記3

          《數學之美》是一本領域相關的數學概念書,生動形象地講解了關于數據挖掘、文本檢索等方面的基礎知識,可以作為數據挖掘、文本檢索的入門普及書。另外,就像作者吳軍老師提到的,關鍵是要從中學到道————解決問題的方法,而不僅僅是術。書中也啟發式的引導讀者形成自己解決問題的道。

          下面記錄一下自己讀這本書的一些感想:

          第一章《文字和語言vs數字和信息》:文字和語言中天然蘊藏著一些數學思想,數學可能不僅僅的是一門非常理科的知識,也是一種藝術。另外,遇到一個復雜的問題時,可能生活中的一些常識,一些簡單的思想會給你帶來解決問題的靈感。

          第二章《自然語言處理————從規則到統計》:試圖模擬人腦處理語言的模式,基于語法規則,詞性等進行語法分析、語義分析的自然語言處理有著很大的復雜度,而基于統計的語言模型很好的解決了自然語言處理的諸多難題。人們認識這個過程,找到統計的方法經歷了20多年,非常慶幸我們的前輩已經幫我們找到了正確的方法,不用我們再去苦苦摸索。另外,這也說明在發現真理的過程中是充滿坎坷的,感謝那些曾經奉獻了青春的科學家。自己以后遇到問題也不能輕易放棄,真正的成長是在解決問題的過程中。事情不可能一帆風順的,這是自然界的普遍真理吧!

          第三章《統計語言模型》:自然語言的處理找到了一種合適的方法———基于統計的模型,概率論的知識開始發揮作用。二元模型、三元模型、多元模型,模型元數越多,計算量越大,簡單實用就是最好的。對于某些不出現或出現次數很少的詞,會有零概率問題,這是就要找到一數學方法給它一個很小的概率。以前學概率論的時候覺的沒什么用,現在開始發現這些知識可能就是你以后解決問題的利器。最后引用作者本章的最后一句話:數學的魅力就在于將復雜的問題簡單化。

          第四章《談談中文分詞》:中文分詞是將一句話分成一些詞,這是以后進一步處理的基礎。從開始的查字典到后來基于統計語言模型的分詞,如今的中文分詞算是一個已經解決的問題。然而,針對不同的系統、不同的要求,分詞的粒度和方法也不盡相同,還是針對具體的問題,提出針對該問題最好的方法。沒有什么是絕對的,掌握其中的道才是核心。

          第五章《隱馬爾科夫模型》:隱馬爾科夫模型和概率論里面的馬爾科夫鏈相似,就是該時刻的狀態僅與前面某幾個時刻的狀態有關。基于大量數據訓練出相應的隱馬爾科夫模型,就可以解決好多機器學習的問題,訓練中會涉及到一些經典的算法(維特比算法等)。關于這個模型,沒有實際實現過,所以感覺好陌生,只是知道了些概率論講過的原理而已。

          第六章《信息的度量和作用》:信息論給出了信息的度量,它是基于概率的,概率越小,其不確定性越大,信息量就越大。引入信息量就可以消除系統的不確定性,同理自然語言處理的大量問題就是找相關的信息。信息熵的物理含義是對一個信息系統不確定性的度量,這一點與熱力學中的熵概念相同,看似不同的學科之間也會有著很強的相似性。事務之間是存在聯系的,要學會借鑒其他知識。

          第七章《賈里尼克和現代語言處理》:賈里尼克是為世界級的大師,不僅在于他的學術成就,更在于他的風范。賈里尼克教授少年坎坷,也并非開始就投身到自然語言方面的研究,關鍵是他的思想和他的道。賈里克尼教授治學嚴謹、用心對待自己的學生,對于學生的教導,教授告訴你最多的是“什么方法不好”,這很像聽到的一句話“我不贊同你,但我支持你”。賈里克尼教授一生專注學習,最后在辦公桌前過世了。讀了這章我總結出的一句話是“思想決定一個人的高度”。

          在這章中對于少年時的教育,以下幾點值得借鑒:

          1、少年時期其實沒有必要花那么多時間讀書,他們的社會經驗、生活能力以及在那時樹立起的志向將幫助他們一生。

          2、中學時花大量時間學會的內容,在大學用非常短的時間就可以讀完,因為在大學階段,人的理解力要強很多。

          3、學習(和教育)是一個人一輩子的過程。

          4、書本的內容可以早學,也可以晚學,但是錯過了成長階段卻是無法補回來的。

          第八章《簡單之美————布爾代數和搜索引擎的索引》:布爾是19世紀英國的一位中學教師,但他的公開身份是啤酒商,提出好的思想的人不一定是大師。簡單的建立索引可以根據一個詞是否在一個網頁中出現而設置為0和1,為了適應索引訪問的速度、附加的信息、更新要快速,改進了索引的建立,但原理上依然簡單,等價于布爾運算。牛頓的一句話“(人們)發覺真理在形式上從來是簡單的,而不是復雜和含混的”。做好搜索,最基本的要求是每天分析10—20個不好的搜索結果,積累一段時間才有感覺。有時候,學習、處理問題,可以從不好的方面入手,效果可能更好。

          第九章《圖論和網絡爬蟲》:圖的遍歷分為“廣度優先搜索(Breadth—FirstSearch,簡稱BFS)”和“深度優先搜索(Depth—FirstSearch,簡稱DFS);ヂ摼W上有幾百億的網頁,需要大量的服務器用來下載網頁,需要協調這些服務器的任務,這就是網絡設計和程序設計的藝術了。另外對于簡單的網頁,沒必要下載。還需要存儲一張哈希表來記錄哪些網頁已經存儲過(如果記錄每個網頁的url,數量太多,這里可以用后面提到的信息指紋,只需要一個很多位的數字即可),避免重復下載。另外,在圖論出現的很長一段時間里,實際需求的圖只有幾千個節點,那時圖的遍歷很簡單,人們都沒有怎么專門研究這個問題,隨著互聯網的出現,圖的遍歷一下子有了用武之地,很多數學方法就是這樣,看上去沒有什么用途,等到具體的應用出來了一下子開始派上大用場了,這可能就是世界上很多人畢生研究數學的原因吧。一個系統看似整體簡單,但里面的每個東西都可能是一個復雜的東西,需要很好的設計。

          第十章《PageRank————Google的民主表決式網頁排名技術》:搜索返回了成千上萬條結果,如何為搜索結果排名?這取決與兩組信息:關于網頁的質量信息以及這個查詢和每個網頁的相關性信息。PageRank算法來衡量一個網頁的質量,該算法的思想是如果一個網頁被很多其他網頁所鏈接,說明它收到普遍的承認和信賴,那么它的排名就高。谷歌的創始人佩奇和布林提出了該算法并用迭代的方法解決了這個問題。PageRank在Google所有的算法中依然是至關重要的。該算法并不難,可是當時只有佩奇和布林想到了,為什么呢?

          第十一章《如何確定網頁和查詢的相關性》:構建一個搜索引擎的四個方面:如何自動下載網頁、如何建立索引、如何衡量網頁的質量以及確定一個網頁和某個查詢的相關性。搜索關鍵詞權重的科學度量TF—IDF,TF衡量一個詞在一個網頁中的權重,即詞頻。IDF衡量一個詞本身的權重,對主題的預測能力。一個查詢和該網頁的相關性公式由詞頻的簡單求和變成了加權求和,即TF1*IDF1+TF2*IDF2+。+TFN*IDFN?此茝碗s的搜索引擎,里面的原理竟是這么簡單!

          第十二章《地圖和本地搜索的最基本技術——有限狀態機和動態規劃》:地址的解析依靠有限狀態機,當用戶輸入的地址不太標準或有錯別字時,希望進行模糊匹配,提出了一種基于概率的有限狀態機。通用的有限狀態機的程序不是很好寫,要求很高,建議直接采用開源的代碼。圖論中的動態規劃問題可以用來解決兩點間的最短路徑問題,可以將一個“尋找全程最短路線”的問題,分解成一個個尋找局部最短路線的小問題。有限狀態機和動態規劃問題需要看相關的算法講解,才能深入理解,目前對其并未完全理解。

          第十三章《GoogleAK—47的設計者——阿米特·辛格博士》:辛格堅持選擇簡單方案的一個原因是容易解釋每一個步驟和方法背后的道理,這樣不僅便于出了問題時查錯,而且容易找到今后改進的目標。辛格要求對于搜索質量的改進方法都要能說清楚理由,說不清楚理由的改進即使看上去有效也不會采用,因為這樣將來可能是個隱患。辛格非常鼓勵年輕人要不怕失敗,大膽嘗試。遵循簡單的哲學。

          第十四章《余弦定理和新聞的分類》:將新聞根據詞的TF—IDF值組成新聞的特征向量,然后根據向量之間的余弦距離衡量兩個特征之間的相似度,將新聞自動聚類。另外根據詞的不同位置,權重應該不同,比如標題的詞權重明顯應該大點。大數據量的余弦計算也要考慮很多簡化算法。

          第十五章《矩陣運算和文本處理中的兩個分類問題》:將大量的文本表示成文本和詞匯的矩陣,然后對該矩陣進行奇異值SVD分解,可以得到隱含在其中的一些信息。計算余弦相似度的一次迭代時間和奇異值分解的時間復雜度在一個數量級,但計算余弦相似度需要多次迭代。另外,奇異值分解的一個問題是存儲量大,而余弦定理的聚類則不需要。奇異值分解得到的結果略顯粗糙,實際工作中一般先進行奇異值分解得到粗分類結果,在利用余弦計算得到比較精確地結果。我覺得這章講的SVD有些地方不是很清楚,已向吳軍老師請教了,等待回信。

          第十六章《信息指紋及其應用》:信息指紋可以作為信息的唯一標識。有很多信息指紋的產生方法,互聯網加密要使用基于加密的偽隨機數產生器,常用的算法有MD5或者SHA—1等標準。信息指紋可以用來判定集合相同或基本相同。YouTobe就用信息指紋來反盜版。128位的指紋,1。8*10^19次才可能重復一次,所以重復的可能性幾乎為0。判定集合是否相同,從簡單的逐個比對到利用信息指紋,復雜度降低了很多很多。啟發我們有時候要用變通的思想來解決問題。

          第十七章《由電視劇《暗算》所想到的——談談密碼學的數學原理》:RSA加密算法,有兩個完全不同的鑰匙,一個用于加密,一個用于解密。該算法里面蘊含著簡單但不好理解的數學思想。信息論在密碼設計中的應用:當密碼之間分布均勻并且統計獨立時,提供的信息最少。均勻分布使得敵人無從統計,而統計獨立能保證敵人即使知道了加密算法,也不能破譯另一段密碼。

          第十八章《閃光的不一定是金子——談談搜索引擎反作弊問題》:把搜索反作弊看成是通信模型,作弊當做是加入的噪聲,解決噪聲的方法:從信息源出發,增強排序算法的抗干擾能力;過濾掉噪聲,還原信息。只要噪聲不是完全隨機并且前后有相關性,就可以檢測到并消除。作弊者的方法不可能是隨機的,且不可能一天換一種方法,及作弊是時間相關的。因此在搜集一段時間的作弊信息后,就可以將作弊者抓出來,還原原有的排名。一般作弊都是針對市場份額較大的搜索引擎做的,因此,一個小的搜索引擎作弊少,并不一定是它的反作弊技術好,而是到它那里作弊的`人少。

          第十九章《談談數學模型的重要性》:早期的行星運行模型用大圓套小圓的方法,精確地計算出了所有行星運行的軌跡。但其實模型就是簡單的橢圓而已。一個正確的數學模型應該在形式上是簡單的;一個正確的模型可能開始還不如一個精雕細琢過的錯誤模型來的準確,但是,如果我們認定大方向是對的,就應該堅持下去;大量準備的數據對研發很重要;正確的模型可能受到噪聲干擾,而顯得不準確,這是不應該用一種湊合的修正方法來彌補它,要找到噪聲的根源,這也許能通往重大的發現。

          第二十章《不要把雞蛋放在一個籃子里——談談最大熵模型》:對一個隨機事件預測時,當各種情況概率相等時,信息熵達到最大,不確定性最大,預測的風險最小。最大熵模型的訓練非常復雜,需要時查看資料做進一步的理解。

          第二十一章《拼音輸入法的數學原理》:輸入法經歷了以自然音節編碼,到偏旁筆畫拆字輸入,再回歸自然音節輸入的過程。任何事物的發展,螺旋式的回歸不是簡單的重復,而是一種升華。輸入法的速度取決于編碼的場地*尋找這個鍵的時間。傳統的雙拼,記住編碼太難,尋找每個鍵的時間太長,并且增加了編碼上的歧義。根據香農第一定理可以計算理論上每個漢字的平均最短碼長。全拼不僅編碼平均長度較少,而且根據上下文的語言模型可以很好的解決歧義問題。利用統計語言模型可是實現拼音轉漢字的有效算法,而且可以轉換為動態規劃求最短路徑問題。如今各家輸入法的效率基本在一個量級,進一步提升的關鍵就在于建立更好的語言模型?梢愿鶕總用戶建立個性化的語言模型。輸入的過程本身就是人和計算機的通信,好的輸入法會自覺或者不自覺的的遵循通信的數學模型。要做出最有效的輸入法,應該自覺使用信息論做指導。

          第二十二章《自然語言處理的教父馬庫斯和他的優秀弟子們》:將自然語言處理從基于規則到基于統計,貢獻最大的兩個人,一個是前面介紹的賈里尼克教授,他是一個開創性任務;另一個是將這個方法發揚光大的米奇·馬庫斯。馬庫斯的貢獻在于建立了造福全世界研究者的賓夕法尼亞大學LDC語料庫以及他的眾多優秀弟子。馬庫斯的影響力很大程度上是靠他的弟子傳播出去的。馬庫斯教授有很多值得欽佩的地方:給予他的博士研究生自己感興趣的課題的自由,高屋建瓴,給學生關鍵的指導;寬松的管理方式,培養各有特點的年輕學者;是一個有著遠見卓識的管理者。他的學生為人做事風格迥異,但都年輕有為,例如追求完美的邁克爾·柯林斯和尋求簡單美的艾克爾·布萊爾。大師之所以能成為大師,肯定有著一些優秀的品質和追求。

          第二十三章《布隆過濾器》:判斷一個元素是否在一個集合當中時,用到了布隆過濾器,存儲量小而且計算快速。其原理是:建立一個很長的二進制,將每個元素通過隨機數產生器產生一些信息指紋,再將這些信息指紋映射到一些自然數上,最后在建立的那個很長的二進制上把這些自然數的位置都置為1。布隆過濾器的不足之處是它可能把不在集合中的元素錯判成集合中的元素,但在某些條件下這個概率是很小的,補救措施是可以建立一個小的白名單,存儲那些可能誤判的元素。布隆過濾器背后的數學原理在于完全隨機的數字其沖突的可能性很小,可以用很少的空間存儲大量的信息,并且由于只進行簡單的算術運算,因此速度非?!毒幊讨榄^》中第一章的那個例子就是布隆過濾器的思想。開闊思維,尋找更好更簡單的方法。

          第二十四章《馬爾科夫鏈的擴展——貝葉斯網絡》:貝葉斯網絡是馬爾科夫鏈的擴展,由簡單的線性鏈式關系擴展為網絡的關系,但貝葉斯網絡仍然假設每一個狀態只與它直接相連的狀態相關。確定貝葉斯網絡的拓撲結構和各個狀態之間相關的概率也需要訓練。在詞分類中,可以建立文章、主題和關鍵詞的貝葉斯網絡,用來得到詞的分類。貝葉斯網絡的訓練包括確定拓撲結構和轉移概率,比較復雜,后者可以參考最大熵訓練的方法。貝葉斯網絡導出的模型是非常復雜的。

          第二十五章《條件隨機場和句法分析》:句法分析是分析出一個句子的句子結構,對于不規則的句子,對其進行深入的分析是很復雜的,而淺層的句法分析在很多時候已經可以滿足要求了。條件隨機場就是進行淺層句法分析的有效的數學模型。條件隨機場與貝葉斯網絡很像,不用之處在于,條件隨機場是無向圖,而貝葉斯網絡是有向圖。條件隨機場的訓練很復雜,簡化之后可以參考最大熵訓練的方法。對于條件隨機場的詳細參數及原理還不理解。

          第二十六章《維特比和他的維特比算法》:維特比算法是一個動態規劃算法,凡是使用隱馬爾科夫模型描述的問題都可以用它來解碼。維特比算法采用逐步漸進的方法,計算到每步的最短距離,到下步的最短距離只用接著本步的計算即可,相比窮舉法,大大縮短了計算的時間,并且基本可以實現實時的輸出,這看似簡單,但在當時確是很了不起的。維特比并不滿足停留在算法本身,他將算法推廣出去,并應用到了實際中,創立了高通公司,成為了世界上第二富有的數學家。高通公司在第二代移動通信中并不占很強的市場地位,而其利用CDMA技術霸占了3G的市場,可見遠見的洞察力是多么的重要。

          第二十七章《再談文本分類問題——期望最大化算法》:該章講的其實就是K均值聚類問題,設置原始聚類中心,然后不斷迭代,直至收斂,將每個點分到一個類中。其實隱馬爾科夫模型的訓練和最大熵的訓練都是期望最大化算法(EM)。首先,根據現有的模型,計算各個觀測數據輸入到模型中的計算結果,這個過程稱為期望值計算過程,或E過程;接下來,重新計算模型參數,以最大化期望值,這個過程稱為最大化的過程,或M過程。優化的目標函數如果是個凸函數,則一定有全局最優解,若不是凸函數,則可能找到的是局部最優解。在以后的一些問題求解過程中,應該考慮其是否是EM問題,也可以考慮參考這種思想,不斷迭代以優化目標的過程。

          第二十八章《邏輯回歸和搜索廣告》:雅虎和百度的競價排名廣告并不比谷歌的根據廣告的預估點擊率來客觀的推送廣告收入多。點擊預估率有很多影響因素,一種有效的方法是邏輯回歸模型,邏輯回歸模型是一種將影響概率的不同因素結合在一起的指數模型。其訓練方法和最大熵模型相似。同樣不是很理解其具體內涵。

          第二十九章《各個擊破和Google云計算的基礎》:分而治之,各個擊破是一個很好的方法,Google開發的MapReduce算法就應用了該方法。將一個大任務分成幾個小任務,這個過程叫Map,將小任務的結果合并成最終結果,這個過程叫Reduce,該過程如何調度、協調就是工程上比較復雜的事情了?梢姶罅坑玫降、真正有用的方法往往簡單而又樸實。

          附錄《計算復雜度》:計算機中復雜度是以O()來表示的,如果一個算法的計算量不超過N的多項式函數,則稱算法為多項式函數復雜度的(P問題),是可以計算的。若比N的多項式函數還高,則是非多項式問題,實際上是不可計算的。非多項式問題中一種非確定的多項式問題(簡稱NP),是科學家研究的焦點,因為現實中好多問題都是NP問題。另外還有NP—Complete問題(NP問題可以在多項式時間內規約到該問題)和NP—Hard問題,對于這兩種問題,需要簡化找到近似解。

          整體上,《數學之美》這本書讓我了解了很多文本處理,數據挖掘相關的知識,學到了很多。其中,簡單美以及一些科學家的大師風范讓我印象深刻!書中提到的一些思想(即道)讓我受益匪淺!

        【《數學之美》讀書筆記】相關文章:

        《數學之美》讀書筆記感觸10-19

        教育之美論文10-31

        職場儀表之美12-19

        動畫設計之美09-23

        職高語文《淡之美》說課稿11-25

        英語新聞的翻譯之美08-15

        茶湯中的意境之美11-11

        托?谡Z模板之美劇臺詞11-29

        動畫設計之美有哪些09-29

        堅守承諾的高尚之美職場故事06-22

        国产高潮无套免费视频_久久九九兔免费精品6_99精品热6080YY久久_国产91久久久久久无码

        1. <tt id="5hhch"><source id="5hhch"></source></tt>
          1. <xmp id="5hhch"></xmp>

        2. <xmp id="5hhch"><rt id="5hhch"></rt></xmp>

          <rp id="5hhch"></rp>
              <dfn id="5hhch"></dfn>