向量化文档时是否需要chunk

根据workshop(https://gitee.com/oceanbase-devhub/ai-workshop-2024#2-安装依赖)

其中:

poetry run python embed_docs.py --doc_base . --table_name my_table --echo

看起来应该是一个md文章对应数据库一条 数据库表my_table中的一条记录。

2024-10-16 03:17:13,439 INFO sqlalchemy.engine.Engine
CREATE TABLE my_table (
        id VARCHAR(4096) NOT NULL,
        embedding VECTOR(1024),
        document LONGTEXT,
        metadata JSON,
        component_code INTEGER NOT NULL,
        PRIMARY KEY (id, component_code)
)
...

那么我想请教一下是不是就不再需要之前工具(dify、fastgpt、dbgpt等)的chunk成更小单元的过程了(如400个字)。是不是对于用户来说只需要把一篇文章(无论大小),全部放到表一条记录中即可

1 个赞

顶一下

1 个赞

谢 顶 :rofl:

1 个赞

顶一下

1 个赞

个人理解如果长度超过某个上限值,肯定是需要切片的。
你想,longtext 数据类型也是有长度上限的呀,哈哈~
以下是你贴出来的链接里的截图: