用Python和Pandas搞定AutoDock Vina对接结果：从log.txt到带化合物名称的Excel表格

张

张建站

2026/7/15 0:06:01

10分钟阅读

用Python和Pandas搞定AutoDock Vina对接结果：从log.txt到带化合物名称的Excel表格

用Python和Pandas高效处理AutoDock Vina对接结果从原始数据到结构化报告在药物发现和分子对接研究中AutoDock Vina作为一款广泛使用的开源工具能够快速预测小分子与靶标蛋白的结合模式和结合能。然而当面对数十甚至数百个化合物的批量对接任务时研究人员往往陷入数据碎片化的困境——每个化合物的对接结果分散在不同的文件夹中关键信息埋藏在log.txt文件里而化合物标识符与常用数据库不匹配。这种数据孤岛现象严重阻碍了后续的结果分析和决策效率。1. 构建自动化数据处理流水线1.1 环境准备与核心库导入处理AutoDock Vina输出需要建立一个可复用的Python环境。推荐使用conda创建独立环境conda create -n vina_analysis python3.9 pandas openpyxl conda activate vina_analysis核心依赖库及其作用库名称用途描述版本要求pandas数据清洗、转换与分析≥1.3.0openpyxl读写Excel文件≥3.0.0os操作系统接口用于文件遍历内置re正则表达式处理复杂文本匹配内置基础导入语句应包含错误处理机制import os import re import pandas as pd from pathlib import Path try: import openpyxl except ImportError: print(建议安装openpyxl以获得完整Excel支持pip install openpyxl)1.2 智能解析log.txt文件AutoDock Vina的log.txt包含多个关键数据段需要精准定位结合能信息。典型的文件结构如下... ------------------------------------- 1 | -8.1 | 0.000 | 0.000 2 | -7.4 | 1.200 | 0.900 ...改进版的解析函数应具备自动识别能量行起始标记捕获前N个对接构象处理异常文件格式def parse_vina_log(log_path, top_n3): 提取log文件中结合能最高的top_n个值返回格式: [(-8.1, 1), (-7.4, 2), ...] energy_pattern re.compile(r\s\d\s\|\s([-\d.])\s\|) energies [] try: with open(log_path, r) as f: in_energy_section False for line in f: if --------------------------- in line: in_energy_section True continue if in_energy_section and line.strip(): match energy_pattern.search(line) if match: energy float(match.group(1)) rank len(energies) 1 energies.append((energy, rank)) if len(energies) top_n: break except Exception as e: print(f解析{log_path}时出错: {str(e)}) return energies[:top_n]2. 批量处理与数据整合2.1 递归扫描对接结果目录使用pathlib模块构建更健壮的目录遍历方案def collect_vina_results(root_dir): 收集所有子目录中的log.txt文件返回生成器(CID, log_file_path) root_path Path(root_dir) for log_file in root_path.glob(**/log.txt): # 从路径中提取CID.../CID_12345/log.txt → 12345 cid log_file.parent.name.split(_)[-1] yield cid, str(log_file)2.2 构建结构化数据集将分散的数据整合为多维DataFramedef build_results_dataframe(root_dir): records [] for cid, log_file in collect_vina_results(root_dir): energies parse_vina_log(log_file) for energy, rank in energies: records.append({ CID: cid, Affinity: energy, Rank: rank, Source: log_file }) df pd.DataFrame(records) # 优化内存使用 return df.astype({CID: string, Affinity: float32, Rank: int8})关键数据处理步骤空值处理自动过滤无效记录df df.dropna(subset[Affinity])数据类型转换减少内存占用df[CID] df[CID].astype(string)排序优化加速后续筛选df df.sort_values([Affinity, Rank])3. 高级数据清洗与增强3.1 化合物数据库关联假设已有化合物信息数据库Excel格式需实现智能列名识别多字段匹配容错处理def enrich_compound_info(results_df, db_path): 关联化合物数据库添加额外信息 # 自动检测Excel格式 db_df pd.read_excel(db_path, engineopenpyxl) # 列名标准化 db_df.columns db_df.columns.str.upper() # 尝试多种CID列名 cid_columns [c for c in db_df.columns if CID in c] if not cid_columns: raise ValueError(数据库中未找到CID相关列) merge_on cid_columns[0] return pd.merge( results_df, db_df, left_onCID, right_onmerge_on, howleft )3.2 动态筛选策略超越固定阈值(-0.7)实现灵活筛选def dynamic_filter(df, strategytop_energy, **kwargs): 多种筛选策略选择 if strategy threshold: threshold kwargs.get(threshold, -0.7) return df[df[Affinity] threshold] elif strategy top_percent: percent kwargs.get(percent, 10) cutoff df[Affinity].quantile(percent/100) return df[df[Affinity] cutoff] elif strategy top_n: n kwargs.get(n, 20) return df.nsmallest(n, Affinity) else: raise ValueError(f未知筛选策略: {strategy})4. 生成专业级分析报告4.1 多工作表Excel输出创建包含原始数据、筛选结果和统计摘要的综合报告def generate_excel_report(df, output_path): with pd.ExcelWriter(output_path, engineopenpyxl) as writer: # 原始数据表 df.to_excel(writer, sheet_nameRaw Data, indexFalse) # 筛选结果表 filtered dynamic_filter(df, strategytop_percent, percent15) filtered.to_excel(writer, sheet_nameTop 15%, indexFalse) # 统计摘要表 stats pd.DataFrame({ Metric: [Mean, Median, Min, Max], Value: [ df[Affinity].mean(), df[Affinity].median(), df[Affinity].min(), df[Affinity].max() ] }) stats.to_excel(writer, sheet_nameStatistics, indexFalse) # 添加数据透视表 pivot df.pivot_table( valuesAffinity, indexCID, aggfunc[mean, count] ) pivot.to_excel(writer, sheet_nameCompound Summary)4.2 自动化报告增强技巧条件格式使用openpyxl添加颜色标度from openpyxl.formatting.rule import ColorScaleRule def add_conditional_formatting(writer): workbook writer.book ws workbook[Top 15%] # 对结合能列添加红-绿渐变色 rule ColorScaleRule( start_typemin, start_colorFF0000, end_typemax, end_color00FF00 ) ws.conditional_formatting.add(B2:B1000, rule)图表插入自动生成分布直方图from openpyxl.chart import BarChart, Reference def add_histogram_chart(writer): workbook writer.book ws workbook[Statistics] chart BarChart() data Reference(ws, min_col2, min_row1, max_row5) cats Reference(ws, min_col1, min_row2, max_row5) chart.add_data(data, titles_from_dataTrue) chart.set_categories(cats) chart.title Affinity Distribution ws.add_chart(chart, E2)在实际项目中这套流程将原本需要数小时的手工数据整理工作压缩到几分钟内完成。一个典型的应用场景是处理200个化合物的对接结果时原始方法需要逐个打开log文件记录数据而使用本方案只需执行df build_results_dataframe(docking_results) enriched_df enrich_compound_info(df, compound_database.xlsx) generate_excel_report(enriched_df, final_report.xlsx)

MediaCrawler：社交媒体数据采集的全方位解决方案

MediaCrawler：社交媒体数据采集的全方位解决方案【免费下载链接】MediaCrawler-new 项目地址: https://gitcode.com/GitHub_Trending/me/MediaCrawler-new 在信息爆炸的数字时代，社交媒体平台成为数据的富矿。无论是市场分析、学术研究还是内容…...

2026/7/14 23:57:10 阅读更多 →

3步搞定文档下载：智能提取工具完全指南

3步搞定文档下载：智能提取工具完全指南【免费下载链接】kill-doc 看到经常有小伙伴们需要下载一些免费文档，但是相关网站浏览体验不好各种广告，各种登录验证，需要很多步骤才能下载文档，该脚本就是为了解决您的烦恼而诞…...

2026/5/26 8:46:03 阅读更多 →

UE5新手避坑指南：用C++实现E键拾取物品，别再让射线检测失灵了！

UE5交互系统深度解析：从E键拾取失效到射线检测优化的全流程解决方案在虚幻引擎5的C开发中，交互系统是实现游戏沉浸感的核心模块。许多开发者在初次实现E键拾取物品功能时，都会遇到射线检测失灵、物品不消失等典型问题。本文将从一个资深技术…...

2026/5/26 8:55:29 阅读更多 →

3步搞定RTL8852BE驱动：从零开始配置Wi-Fi 6网卡

3步搞定RTL8852BE驱动：从零开始配置Wi-Fi 6网卡【免费下载链接】rtl8852be Realtek Linux WLAN Driver for RTL8852BE 项目地址: https://gitcode.com/gh_mirrors/rt/rtl8852be 还在为Linux系统无法识别RTL8852BE Wi-Fi 6网卡而烦恼吗？&#x1f…...

2026/7/13 10:21:55 阅读更多 →

openeuler/yocto-meta-virtualization分支管理完全指南：kirkstone版本适配详解

openeuler/yocto-meta-virtualization分支管理完全指南：kirkstone版本适配详解【免费下载链接】yocto-meta-virtualization Collection of layers for virtualized solutions 项目地址: https://gitcode.com/openeuler/yocto-meta-virtualization 前往项目官…...

2026/7/13 10:23:47 阅读更多 →

Python 基础语法（上篇 + 下篇）——综合自测题

Python 基础语法（上篇下篇）——综合自测题 📋 自测说明适用章节：第一期（环境搭建与数据基石） 第二期（运算符全解与实战演练）题型设置：填空题（10题&#xf…...

2026/7/13 10:21:25 阅读更多 →

毕设深度学习车道线检测（源码+论文）

文章目录 0 前言1 项目运行效果2 课题背景3 卷积神经网络3.1卷积层3.2 池化层3.3 激活函数：3.4 全连接层3.5 使用tensorflow中keras模块实现卷积神经网络 4 YOLOV56 数据集处理7 模型训练8 最后 0 前言 🔥这两年开始毕业设计和毕业答辩的要求和难度不断…...

2026/7/14 11:59:14 阅读更多 →