别再死记硬背了！用Python和SQLAlchemy图解数据库的‘连接’与‘除’运算

张

张建站

2026/5/11 11:43:45

10分钟阅读

别再死记硬背了！用Python和SQLAlchemy图解数据库的‘连接’与‘除’运算

用Python和SQLAlchemy动态图解数据库连接与除法运算数据库理论中的关系代数概念常常让初学者感到抽象难懂。那些数学符号和集合运算在教科书上看起来冰冷生硬很难与实际应用建立直观联系。今天我们将打破这种学习障碍使用Python和SQLAlchemy来动态可视化这些核心操作。想象一下你不再需要死记硬背连接运算的定义而是可以运行一个脚本看到数据表如何一步步合并不再困惑于除法运算的筛选逻辑而是能观察每一行数据如何被评估和保留。这就是我们将要实现的——通过代码让数据库理论活起来。1. 环境准备与基础数据建模在开始之前我们需要搭建一个简单的实验环境。SQLAlchemy作为Python中最强大的ORM工具之一不仅能操作数据库还能帮助我们理解底层的数据关系。from sqlalchemy import create_engine, Column, Integer, String, ForeignKey from sqlalchemy.ext.declarative import declarative_base from sqlalchemy.orm import sessionmaker, relationship Base declarative_base() # 定义学生表模型 class Student(Base): __tablename__ students id Column(Integer, primary_keyTrue) name Column(String) courses relationship(Enrollment, back_populatesstudent) # 定义课程表模型 class Course(Base): __tablename__ courses id Column(Integer, primary_keyTrue) title Column(String) enrollments relationship(Enrollment, back_populatescourse) # 定义选课关系表 class Enrollment(Base): __tablename__ enrollments student_id Column(Integer, ForeignKey(students.id), primary_keyTrue) course_id Column(Integer, ForeignKey(courses.id), primary_keyTrue) student relationship(Student, back_populatescourses) course relationship(Course, back_populatesenrollments) # 创建内存数据库和表 engine create_engine(sqlite:///:memory:) Base.metadata.create_all(engine) Session sessionmaker(bindengine) session Session()我们创建了三张表学生(Student)、课程(Course)和选课关系(Enrollment)。这种经典的多对多关系将作为我们后续演示的基础。提示在实际项目中你可以使用session.add_all()批量添加测试数据但为了演示清晰我们将逐步插入记录。2. 连接运算的直观演示连接(Join)是关系代数中最常用也最容易混淆的操作之一。让我们通过代码来观察不同类型的连接如何工作。2.1 笛卡尔积连接的基础所有连接操作都始于笛卡尔积——两个表中所有行的组合。虽然实际中很少直接使用但理解它至关重要。# 添加测试数据 session.add_all([ Student(id1, nameAlice), Student(id2, nameBob), Course(id101, titleMath), Course(id102, titlePhysics) ]) session.commit() # 演示笛卡尔积 from sqlalchemy import select from sqlalchemy.sql import table, literal_column students session.query(Student).subquery() courses session.query(Course).subquery() cartesian session.query(students, courses).all() for s, c in cartesian: print(fStudent: {s.name} | Course: {c.title})输出结果将展示所有可能的组合(2学生×2课程4行)。这就是连接运算的原材料。2.2 内连接的实际应用内连接(Inner Join)是笛卡尔积加上匹配条件的筛选。让我们看看选课关系如何影响连接结果。# 添加选课记录 session.add_all([ Enrollment(student_id1, course_id101), # Alice选修Math Enrollment(student_id2, course_id102) # Bob选修Physics ]) session.commit() # 内连接查找每个学生选修的课程 inner_join session.query(Student.name, Course.title)\ .join(Enrollment, Student.id Enrollment.student_id)\ .join(Course, Enrollment.course_id Course.id)\ .all() print(\n内连接结果:) for name, title in inner_join: print(f{name} is taking {title})这个查询只返回实际存在的选课关系过滤掉了未选课的组合。2.3 外连接的差异对比外连接(Outer Join)保留了至少一个表中的所有记录即使它们在另一表中没有匹配项。# 左外连接显示所有学生即使他们没有选课 left_join session.query(Student.name, Course.title)\ .outerjoin(Enrollment, Student.id Enrollment.student_id)\ .outerjoin(Course, Enrollment.course_id Course.id)\ .all() print(\n左外连接结果:) for name, title in left_join: course title if title else no course print(f{name} is taking {course})尝试修改查询为右外连接观察结果差异。SQLAlchemy中可以使用join(..., isouterTrue)或outerjoin()方法。3. 除法运算的逐步解析除法(Division)是关系代数中最难理解的操作之一。它解决的问题是查找满足特定条件组合的所有实体。让我们用代码拆解这个过程。3.1 除法运算的实际场景假设我们想找出选修了所有特定课程的学生。这就是除法运算的典型用例。首先我们扩展数据集# 添加更多数据 session.add_all([ Student(id3, nameCharlie), Course(id103, titleChemistry), Enrollment(student_id1, course_id102), # Alice also takes Physics Enrollment(student_id3, course_id101), # Charlie takes Math Enrollment(student_id3, course_id102), # Charlie takes Physics Enrollment(student_id3, course_id103) # Charlie takes Chemistry ]) session.commit()3.2 实现除法运算的步骤SQL本身没有直接的除法运算符但可以通过多个步骤实现找出目标课程集合比如Math和Physics找出选修了这些课程的学生确保学生没有遗漏集合中的任何课程# 定义我们感兴趣的课程集合 target_courses {Math, Physics} # 步骤1找出选修了至少一门目标课程的学生 students_with_some session.query(Student.name)\ .join(Enrollment, Student.id Enrollment.student_id)\ .join(Course, Enrollment.course_id Course.id)\ .filter(Course.title.in_(target_courses))\ .distinct()\ .all() print(\n选修了至少一门目标课程的学生:) for (name,) in students_with_some: print(name) # 步骤2找出选修了所有目标课程的学生 from sqlalchemy import func students_with_all session.query(Student.name)\ .join(Enrollment, Student.id Enrollment.student_id)\ .join(Course, Enrollment.course_id Course.id)\ .filter(Course.title.in_(target_courses))\ .group_by(Student.id)\ .having(func.count(Course.title.distinct()) len(target_courses))\ .all() print(\n选修了所有目标课程的学生:) for (name,) in students_with_all: print(name)这个查询的关键在于having子句它确保学生选修的不同目标课程数量等于目标集合的大小。3.3 可视化除法运算过程为了更直观地理解我们可以打印中间结果# 打印每个学生选修的目标课程 print(\n学生选修目标课程情况:) for student in session.query(Student): courses [e.course.title for e in student.courses if e.course.title in target_courses] print(f{student.name}: {courses or none})通过这种逐步拆解除法运算的逻辑变得清晰可见它筛选出那些在相关属性上完全包含指定集合的元组。4. 高级应用与性能考量理解了基本原理后让我们探讨一些实际应用中的高级话题。4.1 使用SQLAlchemy Core进行复杂连接ORM虽然方便但有时我们需要更底层的控制。SQLAlchemy Core提供了更灵活的连接方式。from sqlalchemy import and_, or_ # 使用Core实现复杂的多表连接 students Student.__table__ courses Course.__table__ enrollments Enrollment.__table__ complex_join select([students.c.name, courses.c.title])\ .select_from( students.join( enrollments.join( courses, enrollments.c.course_id courses.c.id ), students.c.id enrollments.c.student_id ) )\ .where(or_( courses.c.title Math, and_( courses.c.title Physics, students.c.name.like(A%) ) )) result session.execute(complex_join) print(\n复杂连接结果:) for row in result: print(f{row.name} is taking {row.title})4.2 连接运算的性能优化连接操作可能成为性能瓶颈特别是在大型数据集上。以下是一些优化策略索引优化确保连接条件中的列有适当索引连接顺序小表连接大表通常更高效选择性过滤尽早应用WHERE条件减少中间结果集# 添加索引的示例 from sqlalchemy import Index # 创建选课表上的复合索引 Index(idx_enrollment, Enrollment.student_id, Enrollment.course_id) # 在查询中使用覆盖索引 efficient_query session.query(Student.name)\ .join(Enrollment, Student.id Enrollment.student_id)\ .filter(Enrollment.course_id.in_([101, 102]))\ .options(contains_eager(Student.courses))\ .all()4.3 除法运算的替代实现除了GROUP BY/HAVING方法除法运算还有其他实现方式使用EXCEPT/NOT EXISTS模式from sqlalchemy import except_ # 找出没有未选修的目标课程的学生 target_course_ids session.query(Course.id).filter(Course.title.in_(target_courses)) students_missing session.query(Student.id)\ .join(target_course_ids.subquery(), ~exists().where(and_( Enrollment.student_id Student.id, Enrollment.course_id target_course_ids.c.id ))) division_result session.query(Student)\ .filter(~Student.id.in_(students_missing))\ .all()这种方法逻辑上更接近除法运算的数学定义不存在任何目标课程未被选修。5. 实战案例课程推荐系统让我们把这些概念应用到一个实际场景中——构建一个简单的课程推荐系统。5.1 基于共同选课的推荐找出与学生已修课程相似的其他课程# 为Charlie推荐课程 charlie_id 3 charlie_courses session.query(Enrollment.course_id)\ .filter(Enrollment.student_id charlie_id) # 找出选修了Charlie已修课程的其他学生 similar_students session.query(Enrollment.student_id)\ .filter(Enrollment.course_id.in_(charlie_courses))\ .filter(Enrollment.student_id ! charlie_id)\ .distinct() # 找出这些学生还选修了哪些Charlie没选的课程 recommendations session.query(Course.title)\ .join(Enrollment, Course.id Enrollment.course_id)\ .filter(Enrollment.student_id.in_(similar_students))\ .filter(~Course.id.in_(charlie_courses))\ .group_by(Course.id)\ .order_by(func.count().desc())\ .limit(3)\ .all() print(\n为Charlie推荐的课程:) for (title,) in recommendations: print(title)5.2 基于课程集合的推荐使用除法运算概念找出选修了特定课程组合的学生还喜欢什么# 基础课程组合 base_courses {Math, Physics} # 找出选修了基础组合的学生还选修的其他课程 additional_courses session.query(Course.title)\ .join(Enrollment, Course.id Enrollment.course_id)\ .join(Student, Enrollment.student_id Student.id)\ .filter(Student.id.in_( session.query(Student.id) .join(Enrollment, Student.id Enrollment.student_id) .join(Course, Enrollment.course_id Course.id) .filter(Course.title.in_(base_courses)) .group_by(Student.id) .having(func.count(distinct(Course.title)) len(base_courses)) ))\ .filter(~Course.title.in_(base_courses))\ .group_by(Course.title)\ .order_by(func.count().desc())\ .limit(5)\ .all() print(\n选修了Math和Physics的学生还喜欢的课程:) for (title,) in additional_courses: print(title)

2026年简易操作安装Hermes Agent/OpenClaw Token Plan全流程解析大全集全解

2026年简易操作安装Hermes Agent/OpenClaw Token Plan全流程解析大全集全解。OpenClaw作为阿里云生态下新一代的开源AI自动化代理平台，曾用名Moltbot/Clawdbot，凭借“自然语言交互自动化任务执行大模型智能决策”的核心能力，正在重构个人与企…...

2026/5/11 11:43:45 阅读更多 →

别再手动算CT/MRI尺寸了！用Python+nibabel一键提取nii.gz图像所有关键参数

医学影像自动化分析：Pythonnibabel高效提取nii.gz全维度参数指南当面对数百个nii.gz格式的医学影像文件时，手动记录每个文件的扫描范围、层厚、分辨率等参数无异于一场噩梦。我曾见过一位研究员花费整整三天时间，用ImageJ逐个打开文件记录数…...

2026/5/11 11:43:44 阅读更多 →

学术研究者的数字工具困境：如何打通文献管理与知识沉淀的壁垒？

学术研究者的数字工具困境：如何打通文献管理与知识沉淀的壁垒？ 【免费下载链接】notero A Zotero plugin for syncing items and notes into Notion 项目地址: https://gitcode.com/gh_mirrors/no/notero 在当今数字化研究时代，学术工…...

2026/5/11 11:42:17 阅读更多 →

OpenClaw智能模型路由：基于任务复杂度与成本约束的动态调度实践

1. 项目概述：一个聪明的AI模型调度器如果你正在使用OpenClaw，并且手头同时接入了多个不同能力、不同成本的AI模型（比如Kimi、GPT、Claude等），那么你很可能遇到过这样的困扰：一个简单的文本总结任务&#xf…...

2026/5/10 0:01:34 阅读更多 →

机器学习的数据合成（二）

原文：annas-archive.org/md5/9d5ab593b867c3a47f27572d629020aa 译者：飞龙协议：CC BY-NC-SA 4.0 第十四章：合成到真实领域自适应本章向您介绍了一个常见的问题，通常限制了合成数据的使用性，称为领域差距…...

2026/5/10 0:10:18 阅读更多 →

cann/catlass MX FP8批量矩阵乘

MXFP8BatchMatmulTla Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 功能介绍演示 Ascend 950 上的 MX FP8 矩阵乘：A、B …...

2026/5/11 13:10:58 阅读更多 →