關于中央廣播電視總臺在AIGC技術研發與內容生產方面的內容分為三部分,一是總臺5G+4K/8K+AI發展進程;二是總臺AIGC技術發展情況;三是結合實際應用,介紹AIGC技術賦能總臺內容生產。
2019年,總臺確立了從傳統技術路線向“5G+4K/8K+AI”技術路線轉變,積極發展5G、4K/8K超高清、AI人工智能技術,加快推動新技術在內容創作上的應用。5G方面,發布了5G媒體應用白皮書,研發了便攜式5G移動背包,在北京冬奧會上支撐高鐵5G節目直播;4K/8K超高清方面,發布了總臺超高清制播規范,研發了一系列超高清制播設備,建立了全IP化超高清制播體系,在央視春晚等均得到很好的應用。
AI方面,研發了AI虛擬切換伴隨制作技術、AI語音轉寫與合成、AI智能剪輯、AI視頻修復增強技術等。這些AI技術的應用,極大地提高了總臺在內容創作方面的效率,同時優化了制播流程,節約了制作成本。
與5G、4K/8K超高清相比,總臺在AI研發方面相對偏少一些,但是,隨著AIGC技術的發展,總臺從去年開始快速跟進,加大了AI人工智能在媒體領域的科研力度,積極推動生成式AI技術在節目中制作應用。
總臺作為國家級媒體,在AIGC技術發展方面,具有獨特的優勢:一是能夠依托國家重點實驗室的研發基礎,聯合國內頭部企業,建立AIGC技術“產學研用” 一體化發展體系;二是擁有多知識、高質量、多模態媒體語料數據,視頻248萬小時,獨立音頻65萬小時,可實現語料數據資源共享,降低大模型訓練和研發成本,引領人工智能賦能媒體行業發展;三是具有豐富的媒體制播應用場景,可將大模型能力與媒體垂直領域相結合,為媒體行業賦能,形成大模型行業示范效應。
2023年7月,總臺聯合上海人工智能實驗室發布了“央視聽媒體大模型”,以“書生通用大模型體系”為底座,充分融合了“書生?多模態”、“書生?浦語”等開源通用大模型技術特點,合作打造了面向視聽領域的生成式大模型。該模型全面覆蓋了分類、目標檢測、語義分割、深度估計等關鍵任務,可通過持續學習更加精準地識別圖像,在圖像標桿任務上性能取得了顯著的提升,可為視聽媒體行業科研創新提供支持,為視聽媒體產業應用賦能。
在2023年世界人工智能大會上,總臺牽頭與上海人工智能實驗室等10家單位聯合發起大模型語料數據聯盟,為大模型發展提供高質量、大規模、安全可信語料數據資源,保障大模型科研攻關及相關產業生態發展。總臺積累了大量的視音頻和文稿等訓練數據,可助力大模型語料數據聯盟打造多知識、多模態、標準化的高質量語料數據集,通過鏈接模型訓練、數據供給,探索可持續運行的激勵機制,打造開放型的大模型語料數據生態圈。
今年2月,為了加快AIGC核心技術研究和創新應用開發,總臺成立了人工智能工作室,全面統籌總臺人工智能發展規劃、技術研發、系統建設和節目應用等工作。工作室一方面對接全臺各節目中心欄目和總臺廣播電視和新媒體媒資平臺,將節目制作需求轉化為“央視聽媒體大模型”能力需求;另一方面對接大模型算法和算力平臺,按照節目個性化需求對大模型進行遷移學習和訓練微調,從而快速形成適配特定業務的視聽節目創作大模型。同時,為加快推進大模型研發應用,總臺牽頭發起成立“央視聽媒體大模型”研發共同體,與國內一流的科研機構、高校和企業加強合作,秉持開放共享、積極創新、協作共贏的原則,在科研攻關、需求應用、安全發展、產業生態等方面聯動產業鏈上下游,為視聽媒體科研創新提供支持。
為規范總臺人工智能技術合理、安全、高效應用,今年3月,總臺制定并發布了人工智能使用規范。規范包括4章24條,其目的是鼓勵總臺各部門積極探索人工智能的賦能作用,梳理節目制作需求和相關視聽數據,支持“央視聽媒體大模型”研發、訓練及迭代,并引入國內科研機構共同打造的人工智能媒體平臺,支撐總臺節目制作,充分發揮人工智能技術優勢,重構總臺節目制播流程,提升制作效率,降低制作成本。
在深圳舉辦的“ 2024中國AI盛典”晚會上,總臺在發布了《人工智能發展白皮書》,明確提出了人工智能發展的四項基本原則,積極探索、推動應用,規范使用、確保安全,科技引領、提質增效,開放包容、合作共贏;科學規劃人工智能在賦能媒體制播、引領媒體創新、重構媒體生態等三方面舉措。為推動總臺人工智能媒體應用,總臺已制定了人工智能技術系統建設規劃,包括IT基礎資源支撐平臺、多模態語料供給平臺、多模態語料治理平臺、多模態媒體大模型研發平臺和多模態媒體大模型應用平臺。
總臺運用央視聽媒體大模型,完成了中國首部文生視頻AI系列動畫片《千秋詩頌》的制作,提升了動畫創作效率,擴展了視覺創意空間。“央視聽媒體大模型” 利用總臺動畫類大數據對片中詩詞涉及到的人物、場景和器物進行中國審美風格的美術算法訓練,將中華古典詩詞的博大精深與現代視聽藝術完美結合,通過唯美的國風動畫形式,讓更多的人尤其是青少年,創新感受中華文脈的勃勃生機和獨有魅力,在內心深處根植深厚的文化自信。動畫片《千秋詩頌》2月26日播出,取得了良好的傳播效果。
總臺在2019年就開始研發通過AI技術對視頻和圖像進行修復增強技術,并在建黨百年《偉大征程》和北京冬奧會上得到應用,近年來,AI視頻增強系統開始利用生成式AI技術來提升AI修復增強的能力和性能,特別是彌補判別式AI模型所不具備的圖像細節生成能力,支持AIGC視頻超分和人臉增強等功能,對有價值的低質量語料進行修復增強,具備將標清、高清素材修復增強為超高清素材,同時可與總臺現有判別式超分、插幀進行級聯,提升圖像清晰度和質量,同時,構建面向真實應用具有國產化特色的視頻數據集,可用于各種視頻生成模型的訓練和測試,并提供VQA視頻質量評價模型。
在今年4月成都湯尤杯羽毛球賽事中,“央視聽媒體大模型” 研發的體育技戰術分析模型,通過在賽場內設置多個特定角度的機位采集比賽視頻信號,完全基于視頻內容對運動員動作以及球的運動軌跡進行捕捉、對比和分析。徹底摒棄了傳統的依賴于穿戴式硬件來進行測量與動作跟蹤的方法,并實時進行三維重建和虛擬3D測量,做到了“零穿戴、零感知”地獲取比賽關鍵參數信息,如羽毛球的最大過網速度、最大網前過網角度、運動員最大起跳高度、移動距離等。實時計算出羽毛球比賽中關鍵參數并以圖文、視頻渲染等多元化方式呈現在電視屏幕上,為賽事直播以及賽后技戰術分析提供有力數據支撐,滿足廣大電視觀眾智慧觀賽的需求。
在剛剛結束的巴黎奧運會,我們對央視聽媒體大模型體育模塊進行了優化升級,采用最新算法并完全基于OBS 公共信號進行計算分析,技術人員無需去巴黎賽事前方,通過回傳總臺后方節目信號即可完成遠程制作,,與總臺前方人工智能制作系統形成了差異化互補,共同打造了總臺全方位、多角度、立體化AI 體育轉播盛宴。一是技戰術分析模型,運用單視頻空間虛擬測量和3D重建技術從巴黎前方傳回的公共信號畫面中自動精準識別并抽取有效的技戰術分析視頻,準確分析出球的過網速度以及高度、吊球角度、球員位移、落點預測估計及壓線質量等關鍵技戰術參數。成功應用于網球、羽毛球等賽事節目制作。二是時間切片模型,運用自主研發的智能圖像分割和拼接技術對視頻信號中的運動鏡頭進行分析并實時完成時間切片場景重建,大幅降低現場硬件設備部署成本。三是風格化轉繪模型,運用中國傳統藝術風格等自定義轉繪風格,將賽事圖片、視頻用AIGC 技術轉繪成不同畫風的素材,多次應用于CGTN 英語頻道奧運獎牌榜、央視頻巴黎奧運中國40 金轉繪回顧等場景。
在今年的世界人工智能大會上,總臺聯合北京新影聯影業公司發布動畫電影《團圓令》的啟動儀式,《團圓令》大電影是以大熊貓團團圓圓為原型,以促進青少年文化交流為宗旨的原創動漫IP,電影將由新影聯作為發行單位,由總臺牽頭,依托央視聽媒體大模型,為負責電影制作的北京灌木公司提供AIGC技術支持。影片制作將顛覆以往電影生產模式,開創全新的AI動畫電影生產流程,實現從角色設計、場景構建到動畫渲染全鏈路的高效創作。
最近,我們在建設總臺AIGC內容生產平臺,主要是在央視聽媒體大模型的基礎上,聯合大模型研發共同體的合作企業,從媒體內容制作的角度,梳理采編播流程,,在文本創作、圖像創作、視頻編創方面深入引入AIGC內容創作,計劃月底開始在總臺內部提供測試使用。
總臺在人工智能媒體應用平臺中將建設基礎資源支撐平臺、多模態語料供給平臺、多模態語料管理與治理平臺、大模型研發平臺和大模型應用平臺,構建語料供給-語料治理-大模型訓練-賦能媒體制播-語料再生成的閉環體系,全流程實現生成式人工智能從語料訓練到大模型落地的實際應用。
最后,做一個簡單總結,一是總臺積極研發AIGC技術,完善央視聽媒體大模型功能模塊,尤其在動畫制作、影視譯制、體育轉播和智能編輯方面提供內容創作和實際應用;二是依托總臺人工智能工作室,推動總臺AIGC內容高效創作,賦能總臺節目生產;三是以總臺豐富的媒體制播場景為試驗基礎,以媒體行業應用為導向,重構媒體生態加快形成新質生產力;四是以總臺多知識、高質量、多模態媒體語料數據為基礎,形成統一語料集,形成資源共享,促進我國人工智能產業升級。(作者系中央廣播電視總臺超高清視音頻制播呈現國家重點實驗室副主任)