英偉達ChatRTX迎0.3版本更新新增照片搜尋、AI語音識別等功能

發佈日期 2024-05-02 21:09:48

原文網址 https://www.3dmgame.com/news/202405/3894115.html

英偉達今日宣佈，旗下AI聊天機器人ChatRTX進行0.3版本更新，此次更新不僅增加了對谷歌的Gemma、ChatGLM3和OpenAI的CLIP等多種人工智慧模型的支援，還首次整合了先進的Whisper語音識別系統，為使用者帶來前所未有的智慧互動體驗。

英偉達今年三月曾公開AI聊天機器人ChatRTX，使用者可以在有著英偉達RTX技術支援的Windows PC和工作站上，與儲存在本地端的資料互動。ChatRTX利用檢索增強生成、英偉達TensorRT-LLM軟體與英偉達RTX加速等技術，將聊天機器人功能帶至有著RTX技術支援的Windows PC和工作站上。在LLM的支援下，使用者可以透過ChatRTX查詢他們的筆記和檔案，且由於ChatRTX在使用者裝置本機端執行，能夠快速生成相關回應。

英偉達表示，最新版本加入支援其他LLM，包括由谷歌訓練出最新的開放式、可在本地端執行的Gemma。Gemma是Google使用與自家Gemini模型相同的研究和技術，專為負責任AI開發而打造的模型。ChatRTX現在也支援基於通用語言模型框架的開放式中英雙語ChatGLM3大型語言模型。

英偉達指出，由於支援OpenAI的對比語言和影像預訓練技術，使用者能與影像資料進行互動。經過訓練和細化後的CLIP神經網路，從自然語言監督中學習視覺概念。也就是說，這個模型會辨識在影像集裡「看到」的東西。因ChatRTX支援CLIP，使用者可透過單字、術語和短語，與裝置本機端的相片和影像進行互動，無需使用複雜的詮釋資料標記。

另外，新版本的ChatRTX還讓使用者可以用自己的聲音與資料進行聊天。由於有支援使用AI處理口語的自動語音識別系統Whisper，使用者可以在應用程式上用語音進行查詢，ChatRTX將以文字加以回應。這意味著使用者不再侷限於鍵盤輸入，而是可以透過簡單的語音指令來與機器人互動，查詢本地資料，享受更為自然和高效的溝通方式。