开源了 Chatfiles,上传你的文件,然后与之对话!构建自己的语料库!

讨论 未结 34 39
ligz
ligz 会员 2023年4月6日 01:33 发表
<p><img alt="chatfiles" class="embedded_image" loading="lazy" referrerpolicy="no-referrer" rel="noreferrer" src="https://github.com/guangzhengli/ChatFiles/raw/main/doc/chatfiles.png"></p> <p>目前已实现的功能:</p> <ul> <li><input disabled type="checkbox"> 与 GPT-3.5 对话。</li> <li><input disabled type="checkbox"> 与你上传的文件对话。</li> <li><input disabled type="checkbox"> 文件支持 TXT,PDF,Epub...后续陆续加上更多支持。</li> </ul> <p>目前还没有公开使用的网站,我怕我的账单爆掉。构建语料库比较消耗 token ,大家可以用 5M 以下的文档试试看。</p> <p>所以需要大家本地启动,使用起来比较简单,下载仓库,然后修改环境变量,<code>docker compose up</code> 即可!!</p> <p>目前项目还在初期,大家可以多多提提 bug 。项目地址: <a href="https://github.com/guangzhengli/ChatFiles" rel="nofollow">https://github.com/guangzhengli/ChatFiles</a></p> <p>附:不要再聊鸭头的事了....</p>
收藏(0)  分享
相关标签: 灌水交流
注意:本文归作者所有,未经作者允许,不得转载
34个回复
  • LavaC
    2023年4月6日 02:05
    第一个想到的用途是把某群友的黑历史记录输进去然后给群机器人自由发挥
    0 0
  • LavaC
    2023年4月6日 02:05
    上一个注册的账号免费额度 4 月 1 就到期了,想升级 plus 发现不支持澳村的信用卡和借记卡,搞得有点没兴致。
    0 0
  • ligz
    ligz 会员 (楼主)
    2023年4月6日 02:05
    能干的还是比较多的,例如上传书籍和文档,让它帮你总结或者你向它提问一些文档的内容。后续打算再加上多个文件构建同一个语料库的功能,看看能不能按照套路写作之类的。
    0 0
  • bkmi
    2023年4月6日 02:05
    与文件对话是什么意思,是不是我把某个项目的使用文档喂给它,就可以问他项目相关的问题了
    0 0
  • d873139022
    2023年4月6日 02:05
    上次看到这个鸭头就觉得很有意思,一眼认出楼主
    0 0
  • ligz
    ligz 会员 (楼主)
    2023年4月6日 02:05
    是的,上传文档构建系统创建 embeddings ,然后可以问它文档相关的内容。
    0 0
  • NicholasZhan
    2023年4月6日 04:33
    可以让 chatgpt 基于上传的内容进行二次创作吗?感觉现在基本都是问答的模式
    0 0
  • cheng6563
    2023年4月6日 04:33
    请问语料库是什么?有什么资料参考吗?
    0 0
  • justin2018
    2023年4月6日 04:33
    大佬 请教下 同一文档 后期增加内容了 是不是只用投喂新增的内容就行 还是得重新在喂一次
    0 0
  • ligz
    ligz 会员 (楼主)
    2023年4月6日 04:33
    对,因为现在创建出来的 embeddings 还是差点意思,所以大多是问答模式,后续看看怎么优化。
    0 0
  • ligz
    ligz 会员 (楼主)
    2023年4月6日 04:33
    语料库就是你自己的材料,比如你上传一本书的内容,可以问 ChatGPT 这本书写了什么
    0 0
  • ligz
    ligz 会员 (楼主)
    2023年4月6日 04:33
    还需要重新投喂,生成新的 embedding 。并且最好换个名字,因为现在是按照文件名创建的 embedding 。后续这个也可以优化。
    0 0
  • metalvest
    2023年4月6日 05:04
    File: Error: PyPDF2 is required to read PDF files: `pip install PyPDF2`
    0 0
  • metalvest
    2023年4月6日 05:04
    EPUB 也是要手动安装,是不是都加到 requirements.txt 里比较好?
    0 0
  • ligz
    ligz 会员 (楼主)
    2023年4月6日 05:04
    不好意思,应该是我最后清理依赖的时候删掉了,已加。谢谢提醒🙏
    0 0
  • zhengxiaowai
    2023年4月6日 05:34
    支持下代理呀!!!!!封号那么严重直接本地跑不是 gg 了
    0 0
  • ZSeptember
    2023年4月6日 09:05
    效果咋样,有朋友试过这个思路,好像效果不行
    0 0
  • cheng6563
    2023年4月6日 10:05
    > 语料库就是你自己的材料,比如你上传一本书的内容,可以问 ChatGPT 这本书写了什么 主要问题是 API 接口的 Tokens 不是只有 4097 个吗,直接发一个 PDF 过去肯定不够的吧。一直搞不懂这些分析大文件的场景是怎么完成的。
    0 0
  • B1ock
    2023年4月6日 10:05
    之前看到的思路:先把大文件分块做 embedding, 查询的时候本地会先在 embedding 向量数据库里检索,相关的分块内容再带到 GPT 的上下文里提问。
    0 0
  • nyakoy
    2023年4月6日 10:05
    先 start ,公司有需求场景。
    0 0
  • Wenbobobo
    2023年4月6日 10:35
    那请教下,楼主说的“这本书写了什么” 这样的问题,是怎么检索提问的
    0 0
  • winglight2016
    2023年4月6日 10:35
    如果只是问答模式,那种在 context 里有答案的可以不使用 chatgpt 的模型,这就省了一笔 另外,lz 能支持一下其他模型吗?现在开源了好多 fine-tuning 的 llama 模型,这就再省一笔了
    0 0
  • B1ock
    2023年4月6日 13:03
    可能取决于 embedding 匹配到的分块情况吧...毕竟整本书全文代入上下文也不现实。(我猜有可能匹配到书的“序言”部分
    0 0
  • rui2k
    2023年4月6日 13:03
    今天把 langchain 的 documents 喂了进去,消耗了 209 万个 token 做 embedding (好在是用 ada 模型,比较便宜,花了 0.8 刀)。尝试问答了一下,感觉效果一般。可能还是跟 embedding 的效果有关系。特别是,它居然给不出任何代码。。。
    0 0
  • rui2k
    2023年4月6日 13:03
    text-embedding-ada-002-v2, 57 requests 1,677,758 prompt + 0 completion = 1,677,758 tokens "name": "langchain 文档", "messages": [ { "role": "user", "content": "langchain 能实现哪些功能?" }, { "role": "assistant", "content": "langchain 可以实现多种功能,包括模型集成、提示管理、记忆、索引、链式调用和代理。它还支持个人助手、问答、聊天机器人、查询表格数据、与 API 交互、信息提取、摘要和评估等多种应用场景。" }, { "role": "user", "content": "使用 langchain 搭建个人助手的方法,请给我一个 demo 代码" }, { "role": "assistant", "content": "很抱歉,我无法提供代码示例,因为您的问题需要更多的上下文和详细信息。请参考 LangChain 的官方文档和示例,以了解如何使用 LangChain 构建个人助手应用程序。" },
    0 0
  • Mixwind
    2023年4月6日 17:02
    请问一个 pdf 上下文超过 4097 token 这个是怎么解决的?前面好像也有人问。
    0 0
  • MarlonFan
    2023年4月6日 17:32
    通过文章切句, 拿到非常多的小段文本。再把文本调用 openai 的 embedding 接口, 拿到向量。 当用户有问题的时候, 把用户的问题转成 embedding, 通过 cosin 之类的函数计算相似的 embedding 语料。然后把相关语料作为上下文传给 chatgpt-turbo-3.5, 然后用自然语言给你返回答案。
    0 0
  • avenger
    2023年4月6日 18:32
    想训练一个自己的电商客服机器人,导入过去 5 年的聊天记录,目前用官方的 fine-tuning 测试,几乎不可用,正准备试 gpt-index ,请问您这个项目适用于这个场景吗?谢谢
    0 0
  • lxxxv5
    2023年4月7日 00:04
    还没细看,想先问问,喂给他的材料是不是都传给了 openai 公司,会有泄漏资料的风险吗,还是说这些资料只是在本地就被消化了
    0 0
  • Wenbobobo
    2023年4月7日 01:05
    只是在 openai 的模型那里转了两圈,中间环节不出问题就是安全的,embedding 数据的检索是在本地
    0 0
  • Wenbobobo
    2023年4月7日 01:05
    我一直觉得这种方式最适合的就是电商客服,问题的相关性比较大
    0 0