生成式人工智能(Generative AI)是一種基于海量訓練數據和生成算法模型,創造性地產出內容的人工智能。區別于機械式執行既定指令,生成式人工智能實現了從“復制”向“創造”的飛躍,使其能夠“像人類一樣思考”。2022年11月底,美國人工智能公司OpenAI推出一款生成式AI——ChatGPT,一經問世便在短時間內突破億級用戶增長,迅速在全球掀起一股熱潮。人們驚嘆于ChatGPT在處理信息、生成文本時的高效智能,以及其與人類極度相似的語言風格,認為這將對現有的文本創作模式產生顛覆性的影響。
事實上,AI發展至今,文本處理是人工智能研發最為成熟的幾項功能之一。而法律行業作為文本絕對主導的一大領域,毫無疑問將成為生成式AI接下來主要的應用場景。具體而言,法律行業天然和這種大型語言模型Large Language Model(LLM)相匹配。作為一個典型的文本輸入/輸出的場景,法律行業的數據以文本為主,并且多為絕對事實和真實案件,很適合大型語言模型學習。此外,法律工作的強知識性和邏輯性也使得大語言模型能夠在更多法律工作環節中提供價值。在LLM出現之前,法律科技企業的主要業務方向多在于電子簽名、合同管理等邊緣環節,現在則轉向研發能夠提高工作效率的工具,例如法律領域的生成式AI。
HarveyAI就是一款新近推出的,專為律師事務所打造的定制LLM。它由ChatGPT的母公司OpenAI支持研發,并獲得了由Sequoia紅杉資本領投的2100萬美金A輪融資,發展前景良好。今年年初,HarveyAI先后與安理國際律師事務所(Allen & Overy)、普華永道(PwC)等行業龍頭建立全球合作伙伴關系,為其旗下律師及法律專業人員提供包括合同分析、數據處理在內的多項服務。紅杉資本在其官方網站表示,目前有1.5萬家律師事務所“正在排隊使用”HarveyAI這一產品。根據研發團隊的介紹,HarveyAI在研發過程中接受了三種數據類型的訓練。首先以ChatGPT模型為基礎,輸入一般互聯網數據;其次接受一般法律數據庫的訓練,包括判例法及其他法律相關文獻、資料;最后,各個律所可以根據需求,針對特定業務、特定客戶對其進行微調。研發團隊同時強調,考慮到數據隱私問題,一旦HarveyAI開始在某家特定律所開始接受訓練,其生成的語言模型就將成為這家律所獨有的產品,不會再被應用到其他律所當中。
HarveyAI不是唯一面向法律領域的生成式AI。律商聯訊(LexisNexis)、湯森路透(Thomson Reuters)、Litera等知名法律技術服務商都通過數據預訓練、微調等方式推出了自己旗下的AI產品,并與Dentons、里德·史密斯(Reed Smith)、歐華(DLA Piper)等知名律師事務所展開合作??梢哉f,生成式AI在法律領域的大規模應用已然是大勢所趨。
然而,伴隨生成式AI的應用實踐,有關它的爭議也從未停止。由于生成式AI提供的回答是以大規模訓練數據為基礎,AI從投喂給它的大量數據中學習并生成內容,而訓練數據本身的錯誤、偏見、立場等最終都可能反映在其生成的內容中。除了不當的訓練數據,算法設計者主觀認知偏見、算法設計過程中的技術漏洞、信息甄別和過濾機制的缺乏,都可能影響AI生成內容的可靠性,甚至其有時提供的答案并非基于任何現實世界的數據,而是模型自己想象的產物,也就是所謂的“AI幻覺”(AI hallucination)。從此點來看,將其全面引入法律領域似乎值得三思。但是,如果將目光聚焦于投融資、并購重組與資本市場等非訴領域的法律服務場景時,生成式AI對大量文本的處理和反饋能力將在此領域發揮極大的作用。
首先,律師完全可以通過HarveyAI這類法律生成式AI進行指令明確的文本整理工作。舉例來說,當一位中國大陸律師需要為其美國客戶準備一份英文法律備忘錄時,可以通過先行起草初始版本,再要求生成式AI進行修改校對。為此,我們只需要明確下達指令,要求其以“美國律所的語言風格”進行修改,以精進文稿本身中可能存在用詞、語法等問題。也就是說,在生成式AI的協助下,原本橫亙在不同法域間的語言壁壘將更容易被打破,這將進一步提升律師的工作效率。
在向生成式AI輸入足夠體量的協議文本、公司信息等數據資料的情況下,現有的AI技術完全可以使其完成文本校對及基礎法律文件起草等工作。同時,在此過程中律師并未向生成式AI尋求任何開放性答案,而是在嚴格限定上下文條件和適用范圍的情況下向其下達指令,因此產生“AI幻覺”或誤讀的概率也將大幅度降低。此點也在HarveyAI的實際使用中獲得了印證。
生成式AI在起草法律文本、提高律師工作效率等方面有著巨大潛力。但發揮此功能的前提是AI模型本身需要被輸入大量的數據資料并加以訓練、調試,以便該模型能從海量的交易文件中學習法律思維、文本風格和交易習慣。美國證券交易委員會(SEC)在其數據庫中公布了大量公司協議文本,這些公開數據成為ChatGPT和其他類似AI模型的豐富養料,使其能從中學習、模仿,最終自主生成類似協議草案。
由于我國當前并不要求上市公司披露其交易文件,交易協議多作為商業秘密而存在,這就使得我國的生成式AI難以獲得所需的數據資料。同樣以飛機租賃為例,公司會在中國證監會官方網站上披露交易公告,公告內容涉及交易雙方信息、交易概況、合同標的、交易影響、相關董事會決議等,但不會公布協議文本,無法成為AI的數據來源。4國內也有許多非官方數據庫,如百度文庫等,其中有海量的交易協議模板,但由于缺乏對上傳者的限制門檻,其中的文件質量、數量都遠不能與SEC數據庫中近20年的數據信息相比。
因此,要想使得生成式AI在我國法律行業發揮更大作用,需要建立一個向公眾開放的可信賴的法律文件數據庫。我國可以效仿SEC的做法,考慮由上市公司向證監會提交相關交易協議,并在隱去商業秘密等敏感信息后向公眾披露,最終建立起一個可靠且真實的數據庫,成為生成式AI訓練與調試的數據來源。
總之,隨著生成式AI地興起,其在法律行業中的巨大潛力也逐漸浮現。為了能在未來的人工智能競爭中保有一席之地,國際頂尖律所、法律服務機構等各大巨頭紛紛入彀,將這一工具引入日常工作。21世紀是技術革新的時代,對我國而言,要想在快速增長的人工智能領域保持競爭力,就需要不斷開發其在各個領域的應用場景??紤]其行業特性,法律服務領域便是生成式AI的一處絕佳落腳之地,重視生成式AI在法律領域,尤其是公司法領域的研發和應用,使其與國際接軌,推動我國實現人工智能驅動未來的重大飛躍。

域名頻道具有ISP許可證,可以為獨立服務器的客戶網站進行免費備案服務。
服務器運行需要在一個不斷電、不斷網的環境中運行,但普通企業一般無法提供這一環境。
虛擬主機 配置靈活、安全可靠、海量存儲空間、滿足用戶大數據的網站空間。適合于廣大企業用戶方便管理。
域名頻道獨立服務器租用送服務器產權,上海電信機房,超實惠的進入搶購http://www.tom51.com/server/ai-server.asp
域名頻道IDC知識庫