FastGPT/docs/development/design/index.xml

<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>设计方案 on FastGPT</title><link>https://doc.tryfastgpt.ai/docs/development/design/</link><description>Recent content in 设计方案 on FastGPT</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><atom:link href="https://doc.tryfastgpt.ai/docs/development/design/index.xml" rel="self" type="application/rss+xml"/><item><title>数据集</title><link>https://doc.tryfastgpt.ai/docs/development/design/dataset/</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://doc.tryfastgpt.ai/docs/development/design/dataset/</guid><description>文件与数据的关系 link在 FastGPT 中，文件会通过 MongoDB 的 FS 存储，而具体的数据会通过 PostgreSQL 存储，PG 中的数据会有一列 file_id，关联对应的文件。考虑到旧版本的兼容，以及手动输入、标注数据等，我们给 file_id 增加了一些特殊的值，如下：
manual: 手动输入 mark: 手动标注的数据 注意，file_id 仅在插入数据时会写入，变更时无法修改。
文件导入流程 link 上传文件到 MongoDB 的 FS 中，获取 file_id，此时文件标记为 unused 状态 浏览器解析文件，获取对应的文本和 chunk 给每个 chunk 打上 file_id 点击上传数据：将文件的状态改为 used，并将数据推送到 mongo training 表中等待训练 由训练线程从 mongo 中取数据，并在获取向量后插入到 pg。</description></item></channel></rss>