助力水稻研究與智能育種
種業大語言模型“豐登·水稻”向全球開放網站

全球首個專為水稻生物育種打造的大語言模型“豐登·水稻”近日正式向全球開放網站(https://seedllm.org.cn/),該模型深度融合水稻生物學知識圖譜,率先構建了全球最大規模的水稻科研語料庫和全球首個水稻多組學知識圖譜,在信息檢索與知識理解等方面展現出顯著優勢,為構建智能決策育種技術體系奠定了基礎。
崖州灣國家實驗室和上海人工智能實驗室聯合中國農業大學在2024年發布了中國首個種業大模型“豐登”(SeedLLM),率先嘗試將大模型應用於農業育種研究,著力構建一個真正理解作物生物學、具備專業推理能力的智能模型,以實質性提升生物育種研究的效率與質量。作為“豐登”的后續學術成果,2025年5月科研團隊發表相關論文,以水稻為例,詳細解釋了“豐登”的技術和實現原理,系統展示了最新的研究成果,並正式向全球開放了網站。
“豐登”科研團隊率先構建了全球最大規模的水稻科研語料庫,系統整合了全球超過140萬篇中英文文獻,覆蓋該領域超過98%的公開發表成果。在此基礎上,科研團隊以阿裡發布的通義千問模型為基礎,通過持續訓練與精調流程,成功開發了豐登水稻種業大語言模型。為全面評估模型能力,科研團隊構建了一個大模型自動生成的水稻知識問答數據集SeedBench,共包含1975對問答樣本,涵蓋問答生成、摘要提取、語言理解與多項選擇等10類任務。自動化評估結果顯示,豐登模型在准確率等指標上均顯著優於通義千問等主流通用模型。
此外,研究團隊還聯合水稻領域專家,設計了一個高質量人工評測數據集HumanDesignRiceQA,包含253道專業問題,聚焦基因功能、傳統雜交育種、分子設計育種等核心主題。評測由326名評審參與完成,其中83人為水稻研究領域的資深專家。結果表明,豐登模型在答題質量上全面超越OpenAI GPT4及人類本科生平均水平,展現出其在農業垂直領域中的領先能力。
為進一步提升模型的科研實用性,“豐登”科研團隊構建了全球首個水稻多組學知識圖譜,整合了1879篇關於水稻轉錄組和蛋白質組的文獻數據,系統匯聚基因表達水平、蛋白豐度與基因組功能注釋信息。圖譜包含超過40萬個節點與157萬條邊,覆蓋水稻研究中的關鍵知識單元與生物關系。
“豐登”科研團隊有關負責人透露,大語言模型憑借強大的語言理解與知識推理能力,有望成為支撐水稻研究與智能育種的關鍵工具。“豐登”服務實現了圖譜協同推理,能夠跨越純文本的表達局限,調用結構化圖譜執行精准查詢、整合多維証據。
分享讓更多人看到
- 評論
- 關注