A place for study and research

Essay-Express-01 果蠅與自然語言處理

|

anthor: Anderson

Description:

這是本網站第一個專欄,主要介紹或分享筆者讀到的一些比較有趣的論文,並整合網路上的相關看法與自己對該篇論文的理解,如有相關專業研究者發現內容有錯誤,歡迎提issue,我們可以一同討論並修改內容。

本次介紹的論文是在機器學習大會 ICLR 2021中出現的一篇基於果蠅腦內蘑菇體結構的神經網路研究,並對其進行自然語言處理的效能與準確度進行分析,發現其準確度與常規神經網路不相上下,而且能耗比相當良好,難道以生物神經網路發展的機器學習模型,其最優解其實就在生物體上?且讓我們一探究竟。

Abstract

相信大部分人工智慧專業的研究者們,都知道現今大部分的神經網路模型,主要依靠大規模的參數設置,及強大的電腦硬體效能,然而深度學習的算力需求,和硬體運算能力的換代速度,漸漸拉開了差距,對此,一些研究者們正在專注於常規架構的效率提升,也有一些研究者把目光轉向於常規電腦體系之外,如光電計算、類腦計算,以及量子計算等方向。

而本篇則是在神經網路中研究最深的果蠅大腦,尤其是稱為蘑菇體的部分。該部分能夠分析氣味、溫度、濕度和視覺數據等感官輸入,以便於果蠅學會區分友好刺激和危險刺激。果蠅大腦的這一部分是由一組稱為Projection neurons的細胞組成,這些細胞將感官輸入傳遞給2000 個稱為Kenyon細胞的神經元,Kenyon細胞連接在一起形成能夠學習的神經網絡。這讓果蠅在學習接近食物、潛在伴侶等時候,學會避免潛在的有害感官輸入(例如危險的氣味和溫度)

該團隊首先使用電腦程式重建蘑菇體所依賴的網絡,大量神經元將數據提供給大約 2000 個 Kenyon 細胞。然後研究者訓練了該網路以識別文本中詞之間的相關性。該任務基於的思想是:一個詞可以通過其語境或通常在其附近出現的其他詞來表徵。該想法首先從一個文本語料庫開始,然後面向每一個詞,分析出現在該詞前後的其他詞,也就是所謂的Word embedding。

Introduction

果蠅腦蘑菇體核心由一群 Kenyon 細胞組成。這些細胞接受來自多種感官方式的輸入,被伽馬氨基丁酸能神經元(Anterior Paired Lateral Neurons)抑制,從而創造了輸入的稀疏高維表徵。

具體而言,其主要感知方式是嗅覺,但也有來自感知溫度、濕度、視覺的神經元的輸入。這些輸入通過一組突觸權重傳遞給大約 2000 個 Kenyon 細胞。 Kenyon 細胞通過 APL 神經元相互連接,後者會發送一個強大的抑制信號到 Kenyon 細胞。這個循環網絡形成了 Kenyon 細胞之間的主要激活細胞的放大效應,並讓一小部分主要激活神經元之外的所有神經元都失聲了。

在這項論文中,研究者將該網絡模體(motif)進行了數學化建模,並將其應用於一項常見的NLP 任務:學習非結構化文本語料庫中的詞與上下文之間的相關結構。

Conclusions

  1. 受果蠅神經網路的啟發,研究者提出了一種算法,使得為單詞及其上下文生成binary (相對於連續) 詞嵌入成為可能,並系統評估了該算法在詞彙相似性任務、詞義消歧和文本分類等任務上的表現。
  2. 與連續 GloVe 嵌入相比,本文的 binary 嵌入能產生更緊密和更好分離的概念集群,並且符合 GloVe 的 binarized 版本的集群特性。
  3. 研究者發現,訓練果蠅網路所需要的計算時間比訓練傳統的 NLP 架構(如 BERT)所需要的計算時間要少一個數量級,但是在分類準確率上有所降低。

相關實驗數據請至原文查詢

Can a Fruit Fly Learn Word Embeddings?

Essay Authors: Yuchen Liang, Chaitanya Ryali, Benjamin Hoover, Saket Navlakha, Leopold Grinberg, Mohammed J Zaki, Dmitry Krotov

Keywords: neurobiology, neuroscience, fruit fly

Comments