3 lines
1.5 KiB
XML
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>设计方案 on FastGPT</title><link>https://doc.tryfastgpt.ai/docs/development/design/</link><description>Recent content in 设计方案 on FastGPT</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><atom:link href="https://doc.tryfastgpt.ai/docs/development/design/index.xml" rel="self" type="application/rss+xml"/><item><title>数据集</title><link>https://doc.tryfastgpt.ai/docs/development/design/dataset/</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://doc.tryfastgpt.ai/docs/development/design/dataset/</guid><description>文件与数据的关系 link在 FastGPT 中,文件会通过 MongoDB 的 FS 存储,而具体的数据会通过 PostgreSQL 存储PG 中的数据会有一列 file_id关联对应的文件。考虑到旧版本的兼容以及手动输入、标注数据等我们给 file_id 增加了一些特殊的值,如下:
manual: 手动输入 mark: 手动标注的数据 注意file_id 仅在插入数据时会写入,变更时无法修改。
文件导入流程 link 上传文件到 MongoDB 的 FS 中,获取 file_id此时文件标记为 unused 状态 浏览器解析文件,获取对应的文本和 chunk 给每个 chunk 打上 file_id 点击上传数据:将文件的状态改为 used并将数据推送到 mongo training 表中等待训练 由训练线程从 mongo 中取数据,并在获取向量后插入到 pg。</description></item></channel></rss>