英伟达ChatWithRTX最新版安装过程全记录!

ChatWithRTX是由NVIDIA开发的大型语言模型聊天机器人,刚发布那阵子,我安装过一次。

但当时还是beta,最近去看了一眼,好像又更新过了。所以我准备重新装一次,做一个完整的记录。

重点提示,这个版本可以做到比较彻底离线使用。另外,准备把切换中文模型这个攻略给补上!

为了照顾到第一次接触这个东西的人,开始之前做一点小介绍。

 

ChatWithRTX是什么?

ChatWithRTX是英伟达给大家做的演示程序。

这个程序结合大语言模型(LLM)来进行基于本地文档的检索和问答。

使用了检索增强生成(RAG)、TensorRT-LLM 和 RTX 加速等技术。

可以独立在个人电脑或者工作站上使用,不依赖在线接口,主打一个安全和快速!

Chat with RTX 支持各种文件格式,包括文本、pdf、doc/docx 和 xml。只需将应用程序指向包含文件的文件夹,它就会在几秒钟内将它们加载到库中。

 

为什么要用ChatWithRTX?

强大的大语言模型现在已经非常之多,比如GPT4,Gemini,还有最近很火的Kimi。他们能力都很强,都能对文档进行分析。为啥还要装个ChatWithRTX这样的东西?

简单来说,主要是基于以下几点:

  • 快速
  • 安全
  • 自主可控~~哈哈
  • 可以DIY

云端产品用起来是爽啊,但是除了要不断充值 ,还完全不可控。

本地搞一个,爱咋咋滴,爽得很。

充分发挥去中心化思想“ALL IN PC”。

对喜欢研究技术的人来说,当然是可以自己拿来玩一下,自己装的就是特别香啊。

 

ChatWithRTX怎么用?

前面的内容,只是为了让文章不那么晦涩难懂,下面就直接上干的了!

接下来就完整记录下安装过程,说一说注意点。

另外强调一下这个版本的软件,可以无ti安装,最多设置一个PIP镜像就可以了,其他东西都可以做到完全离线。

 

1.获取软件压缩包

安装软件自然要先获取软件,获取方式很简单,直接到官方主页去下载。

主页地址:

https://www.nvidia.com/en-in/ai-on-rtx/chat-with-rtx-generative-ai/

下面是我下载已经下载的三个版本。

文件有点大,基本在35G左右,可以用IDM或者迅雷之类辅助一下。

目前最新的版本是35结尾那个。

2.解压

使用任意解压软件解压,推荐使用7z,解压过程无需C盘缓存。

解压后发现文件夹名称里有3_27的标识,估计是3月27日发布的意思。

解压完的文件也巨大,记得准备足够的空间。

3.安装

解压完成之后,直接点击setup.exe开始安装。

安装过程非常简单,点几下就好了。

为啥推荐CWR,主要是安装真的很简单。

整体感觉和安装驱动差不多。

显示系统检测(System Check)

点击同意并继续(Agree and Continue)

然后下一步到安装选项。

这里需要勾选一下Mistral 7B INT4 这个模型,点击下一步(NEXT)。如果你的显存大于16,这里应该还有一个Llama可以勾选。

设置安装路径。

由于文件比较大,最好不要装C盘,选择一个比较大的空间。点击下一步。

等待安装。

接下来就是全自动安装,你只要等就好了。

我看了一下安装过程,大概有如下操作。

  • 缓存文件
  • 安装miniconda
  • 创建虚拟环境
  • 安装 cuda-toolkit
  • 联网下载依赖并安装
  • 安装Mistral 7B INT4模型
  • 构建Mistral 7B INT4引擎

安装成功后界面如下:

我第一次安装失败了,不清楚原因。后来重新装了一次成功了,并没有做任何多余操作。

这一步消耗的时间大概在10分钟左右,中途会联网,但是并不需要魔法工具。

考虑到要联网安装pip依赖,所以最好是本地配置一下pip镜像。

 

4.使用

点击Close关闭安装界面之后,桌面会多一个快捷方式,并自动运行软件。

运行软件之后会自动读取配置文件,并启动webui,打开浏览器。

打开之后界面如下:

默认选择模型是① Mistral 7B int4,模式为本地检索②,路径为本地一个文件夹③

选择或者输入一个问题④,点击Send⑤,就可以使用大模型,根据提问来快速检索本地文件里的内容了。

界面上还有一些刷新,回撤,删除,关闭的按钮。

③处比较关键,这里指定了本地文档的路径。软件默认指向了自带的一个dataset文件夹,文件夹里放了几十个英文文件。

我们可以修改这个路径,指向我们自己的文档所在的文件夹,比如mydataset。修改路径后,会有一个生成vector_embedding的过程,生成之后会保存在一个叫mydataset_vector_embedding的文件夹里面。

你每次修改了本地文档之后,记得点击一下右上角的刷新,重新生成这个文件夹。

当然,除了检索功能之外,也可以切换为单纯的对话模式。

观察发现,在线分析youtube视频内容的选项已经没了。

 

5. 安装Llama2

 

另外,可以看到,这里的模型只有一个。其实本身应该有两个,还有一个Llama2。

因为我的电脑显卡显存只有12G,所以没有给我装上了。

如果你也是12G显存,但是想要用Llama,

可以修改一下llama13b.nvi这个文件。

就是把图片中红色圈中的内容,修改为12即可。

修改完成之后,重新点击setup安装一次,就搞定了。

到这里ChatWithRTX的安装就完了。

安全完成之后,只要点击快捷方式启动软件,启动之后就能快速使用了。

大语言模型加持下,做完全离线的本地检索非常不错。

这种搜索方式明显要强于谷歌百度的传统检索关键词检索模式(太辣鸡了)。

可以根据自己的数据库,做出基于语义的检索,获取精准和简练的回答。

这就相当于,自己电脑上有个小号GPT,并且有个小而强的搜索引擎了。

当然,这里还有一个问题,默认的两个大语言模型为英文模型,这对中文用户非常不友好!

所以,换一个中文模型非常有必要。

我之所以在那么多天后重新写这篇文章,就是为了把这一点补充完整。

限于篇幅,单独起一篇!

下次见!

关于软件,下载有困哪的,可以给公众号“托尼不是塔克”发送消息“cwr” ,直接从网盘获取!
 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================