Document Reader 使用指南
Spring AI Alibaba 提供了丰富的 Document Reader 扩展实现,支持从各种数据源读取文档内容。本文档将详细介绍 Document Reader 的使用方法,并列出所有支持的扩展实现。
目录
概述
Document Reader 是 Spring AI 中用于从不同数据源读取文档的核心接口。Spring AI Alibaba 扩展了该接口,提供了多种数据源的实现,包括:
- 本地文件格式(Office 文档、PDF 等)
- 云存储服务(腾讯云 COS、阿里云 OSS 等)
- 数据库(MySQL、MongoDB、SQLite、Elasticsearch 等)
- 在线平台(GitHub、GitLab、语雀、Notion、Bilibili、YouTube 等)
- 其他数据源(邮件、归档文件等)
详细使用说明
POI Document Reader 示例
PoiDocumentReader 使用 Apache POI 库解析 Microsoft Office 文件,支持多种文件格式,包括:
- Word 文档:
.doc,.docx - PowerPoint 演示文稿:
.ppt,.pptx - Excel 电子表格:
.xls,.xlsx
依赖配置
使用 Maven 添加依赖:
<dependency>
<groupId>com.alibaba.cloud.ai</groupId>
<artifactId>spring-ai-alibaba-starter-document-reader-poi</artifactId>
<version>${version}</version>
</dependency>