南京大學(xué)自然語(yǔ)言處理研究組(NJUNLP)是國內最早從事NLP領(lǐng)域科研工作的團隊之一,先后承擔國家科技攻關(guān)項目、863項目、國家自然科學(xué)基金、江蘇省自然科學(xué)基金等20項,獲國家七五科技攻關(guān)重大成果獎1次、教育部科技進(jìn)步獎2次、江蘇省科技進(jìn)步二等獎、三等獎各一次;近3年在自然語(yǔ)言處理和人工智能頂級會(huì )議上(ACL、AAAI、IJCAI、EMNLP等)發(fā)表論文四十余篇,累計發(fā)表論文200+篇;多次參與自然語(yǔ)言處理相關(guān)的比賽和評測,并獲得第一(情感分析CCF-BDCI2018、分詞NLPCC12、命名實(shí)體識別SIGHAN06)。
研究組開(kāi)展的本科生NLP Summer Camp活動(dòng)旨在為本科生提供了解自然語(yǔ)言處理及運用自然語(yǔ)言處理技術(shù)解決實(shí)際問(wèn)題的平臺。該活動(dòng)設置若干自然語(yǔ)言處理領(lǐng)域的前沿課題,每個(gè)課題由本組優(yōu)秀博士生負責。在報名開(kāi)始時(shí),同學(xué)們可以自愿選擇感興趣的課題。在報名結束后,研究組將根據課題方向組織面試選拔,優(yōu)秀的同學(xué)能夠正式參與活動(dòng)。完整參與活動(dòng)的學(xué)員在活動(dòng)結束后將獲得結題證書(shū),后期申請保研至NLP研究組時(shí)也會(huì )被優(yōu)先考慮。
一、項目計劃
舉辦形式:本次夏令營(yíng)采用線(xiàn)上模式。
項目周期:6月26日-8月7日,為期6周,前2周集中培訓,后4周自主學(xué)習,并跟隨組長(cháng)進(jìn)行項目實(shí)戰。
項目?jì)热荩汗灿?個(gè)課題,后期設有通識講座、基礎課程以及學(xué)術(shù)論壇。
招募人數:計劃每個(gè)課題招募3-5名學(xué)員。
* 注意:該夏令營(yíng)與計算機系以及人工智能學(xué)院的推免夏令營(yíng)無(wú)關(guān)。
二、項目要求
申請對象:原則上僅限大三及以下的在校本科生報名,優(yōu)先考慮具有自然語(yǔ)言處理或機器學(xué)習基礎知識的大一、大二在校本科生。
時(shí)間安排:本次夏令營(yíng)是為期六周的全程跟進(jìn)學(xué)習,請有意參加夏令營(yíng)的同學(xué)提前安排好時(shí)間,避免出現安排沖撞、時(shí)間精力不足以及中途退出等情況。
三、申請流程
網(wǎng)上申請
即日起,可登錄:https://wj.qq.com/s2/12303068/e305/,填寫(xiě)報名信息,申請截止時(shí)間為:5月30日23:59。
資格初審
申請截止后,工作小組對申請者提供的報名信息進(jìn)行資格初審,面試名單,預計在6月2日以公眾號以及郵箱形式發(fā)布。面試時(shí)間初定于:6月3日-6月4日。
結果發(fā)布
面試結束后,工作小組結合學(xué)員信息以及面試情況,確定夏令營(yíng)入圍名單,預計在6月5日公布。
以上項目流程公布日期均為擬定,具體時(shí)間以后續通知為準,請對夏令營(yíng)感興趣的同學(xué)按照初步擬定的日期安排規劃好自己的時(shí)間,并在此期間及時(shí)關(guān)注自己的郵箱以及我們的公眾號,避免出現錯過(guò)通知的情況。
四、課題名稱(chēng)
深度神經(jīng)網(wǎng)絡(luò )局部解釋算法的質(zhì)量評估
近年來(lái),深度神經(jīng)網(wǎng)絡(luò )(DNNs)在廣泛的任務(wù)中取得了最先進(jìn)的性能。然而,可解釋性方面的限制阻礙了它們在現實(shí)世界中的應用。局部解釋算法是一系列旨在回答以下問(wèn)題的技術(shù):為什么模型會(huì )做出這個(gè)特定的預測?這個(gè)特定的特征值對預測有什么影響?
目前已有的工作提出了一系列局部解釋算法為模型在單個(gè)樣本上的預測生成解釋。然而,目前沒(méi)有一個(gè)良好的指標用于評估不同算法生成的解釋的質(zhì)量和可信度,以及這些解釋與人類(lèi)理解的相關(guān)性。針對以上問(wèn)題,本課題將帶領(lǐng)營(yíng)員復現主流的局部解釋算法,從人類(lèi)理解的角度上對比不同算法之間的差異,評估不同算法的解釋能力。
非自回歸神經(jīng)機器翻譯
目前神經(jīng)機器翻譯模型大多采用自回歸(Autoregressive)的解碼方式,在解碼時(shí)自左向右逐詞輸出。雖然自回歸解碼方式具備優(yōu)異的解碼性能,但逐詞解碼也會(huì )產(chǎn)生較高的解碼時(shí)延,進(jìn)而降低了解碼效率。
為此,研究人員提出了基于非自回歸(Non-Autoregressive)解碼方式的翻譯模型,在解碼時(shí)并行輸出所有詞,大幅提高了解碼效率。然而,伴隨著(zhù)解碼速度的提升,模型解碼質(zhì)量也有著(zhù)一定程度的下滑。因此,目前研究人員致力于在保持高效解碼的前提下,改善非自回歸解碼質(zhì)量,以達到“更快,更好”的目標。在本次夏令營(yíng)中...將帶領(lǐng)營(yíng)員回顧并復現近年來(lái)具有代表性的增強非自回歸解碼質(zhì)量的幾類(lèi)方案,評估比較不同方案之間的優(yōu)劣差異,理解非自回歸解碼目前存在的問(wèn)題。
社交媒體計算與分析
社交媒體已經(jīng)深入到了我們生活的方方面面,網(wǎng)絡(luò )語(yǔ)言在社交領(lǐng)域的溝通中得到了越來(lái)越廣泛的應用,而數據的實(shí)時(shí)性、形式的多樣性及復雜的關(guān)聯(lián)也帶來(lái)了不少機遇與挑戰。本課題通過(guò)結合語(yǔ)言學(xué)、社會(huì )學(xué)、傳播學(xué)、心理學(xué)等多學(xué)科,探索將計算和分析方法運用在社會(huì )科學(xué)領(lǐng)域的問(wèn)題中,研究方向包括語(yǔ)言行為(例如抱怨、吹牛、冒犯等)、謠言檢測、心理健康等。在社交媒體中,如何結合社會(huì )理論,量化指標,對數據進(jìn)行分析與應用將是本課題重點(diǎn)探討的問(wèn)題。
結合大語(yǔ)言模型的個(gè)性化文本生成
個(gè)性化文本生成旨在通過(guò)分析用戶(hù)需求、喜好和行為特征,為用戶(hù)提供量身定制的文本生成服務(wù)。盡管ChatGPT此類(lèi)基于大規模語(yǔ)言模型的對話(huà)系統近期為用戶(hù)帶來(lái)了顛覆性的體驗,但其在個(gè)性化生成方面仍有所欠缺,難以滿(mǎn)足不同用戶(hù)在各種場(chǎng)景下的需求。事實(shí)上,關(guān)于大規模語(yǔ)言模型個(gè)性化生成能力的研究仍然非常有限。本課題擬回顧并復現近年來(lái)在個(gè)性化文本生成領(lǐng)域的代表性成果,探索當前開(kāi)源的大規模語(yǔ)言模型在個(gè)性化文本生成上的潛力,并嘗試進(jìn)行一些改進(jìn)。
分子表征學(xué)習
分子表征是人工智能交叉生命科學(xué)的熱點(diǎn)研究領(lǐng)域,主要關(guān)注如何將分子的結構和性質(zhì)信息表示為適合深度學(xué)習模型處理的形式。在這個(gè)任務(wù)中,通常需要從分子結構中提取有意義的特征,并將這些特征轉換為數值或向量形式以便在藥物設計、材料科學(xué)等領(lǐng)域進(jìn)行預測和分析?,F有的分子表征手段主要有三種維度:基于1D smiles序列輸入的序列模型、基于2D分子圖的圖神經(jīng)網(wǎng)絡(luò )模型以及基于3D結構坐標的模型。如何在深度學(xué)習模型的基礎上充分利用結構信息進(jìn)行分子表征學(xué)習是大家探究的難點(diǎn)。本課題將帶領(lǐng)營(yíng)員復現各種最前沿的分子表征方案,系統的對比不同表征方法之間的差別,探索分子表征過(guò)程中遇到的困難與問(wèn)題以及體會(huì )人工智能交叉生命科學(xué)的意義。
探究AI作畫(huà)模型的推理能力
推理能力是人類(lèi)智能的核心之一,對于一段文本,人類(lèi)可以很容易從中推斷出文本中沒(méi)有顯示表達的知識。例如,人類(lèi)可以很容易從描述“一種黑白相間、喜歡吃竹子的中國特有哺乳動(dòng)物”中推斷出描述對象是熊貓。本課題提出這樣的問(wèn)題:現有AI作畫(huà)模型是否具備人類(lèi)這種推理能力?具體而言,本課題將重點(diǎn)關(guān)注上述例子中展示的基于屬性的推理能力,即輸入針對某一特定類(lèi)別標簽的描述性文本,觀(guān)察AI作畫(huà)模型是否可以生成合理的圖片。構建數據集、量化評價(jià)指標將是本課題的研究重點(diǎn)。
多模態(tài)信息指導的開(kāi)放世界小樣本圖像識別
傳統的小樣本圖像識別模型大多基于封閉世界的假設,即目標域測試集必屬于訓練類(lèi)別。但是,實(shí)際應用場(chǎng)景往往不服從這個(gè)假設,在開(kāi)放世界的假設下,模型需要處理測試集中的未知樣本(例如小樣本開(kāi)放集識別和小樣本類(lèi)別增量式識別等)。在測試階段,模型需要偵測出未知類(lèi)別的樣本,同時(shí)也要正確區分已知類(lèi)別的樣本,甚至再進(jìn)一步學(xué)習未知類(lèi)別的樣本。如何利用多模態(tài)數據(圖像,文本等)提升模型對未知類(lèi)別樣本的偵測能力和對已知類(lèi)別樣本的區分能力,同時(shí)避免災難性遺忘是本課題探究的重點(diǎn)問(wèn)題。
五、聯(lián)系方式
如有任何疑問(wèn),請聯(lián)系郵箱:見(jiàn)官網(wǎng)
原標題:2023南大NLP夏令營(yíng)招募公告
文章來(lái)源:https://mp.weixin.qq.com/s/QmuYVNNsqqfZ66pG6VvB0A