‌‎‌c‎‌h‍a‌‍p‍‎t‌‎‌e‍r‍‎ ‌‍3‍‌5‍_‍‍时‎间‍‎平‌‍移‎‎爱‎情‍法‍‍‎则‎ ‎‍-‌‍‎ ‎摩‍‌比‎小‌說‍‍網‍‎‌

〔加入書籤〕

從進公司後就無所事事的韓念初，終於回到了原來時空的工作狀態。

跟專家的會議時間定在半個月後，有意向的投資人和股東都會到場，會議的核心主題將決定人工智慧未來的研究發展發向，是繼續研究語法樹，還是興起不久的深度學習研究。

秘書的事務已無暇顧及，何謹修倒沒說什麼，讓hr再借調一個人手過來。

韓念初幾乎都泡在實驗室裡，跟周嚴果討論，寫程式碼，劉銘親自坐鎮，也要了張辦公桌，和他們一起辦公。

周嚴果站在白板前說：“在現有語料庫的基礎上，假設我們把狀態價值函式和動作價值函式定義好，加入現有的程式碼模組，實現有監督的學習。”

劉銘問:“具體怎麼實現？”

周嚴果說：“這就是今天討論的目的，集思廣益，討論出這個方法的可行性。”

何謹修捏著筆，不知為何，他的目光轉向了韓念初。

韓念初走到周嚴果旁邊，接過他的筆，在白板上寫滿了公式，轉身說道：“用貝爾曼方程迭代計算獎懲。”

眾人一愣。

韓念初接著說道：“具體一點，先定義狀態價值函式，用來評估狀態優劣。行為或動作價值函式用於評估下一個字或詞的優劣。完成定義後，進一步定義出累計獎勵函式，就可以評價出一整句回答的優劣。”

“獎勵函式怎麼定義？這個函式接受的變數怎麼從人傳給機器？這個變數給了函式以後，函式怎麼去調整它的輸出？答好要加多少分？答不好要扣多少分？那個獎勵函式怎麼解？”周嚴果一口氣問出了一連串的問題。

未載入完，嘗試【重新整理網頁】or【關閉小說模式】or【關閉廣告遮蔽】。

使用【Firefox瀏覽器】or【Chrome谷歌瀏覽器】開啟並收藏！

移動流量偶爾打不開，可以切換電信、聯通網路。

收藏網址：www.mobvista.cc

(＞人＜；)

chapter 35