首页 / 客户案例

红彤软件助力某生物科技全球科研数据同步平台

项目名:全球科研数据同步平台

背景及需求*

      某生物科技是中国领先的基因药物创新企业,以基因编辑技术为核心驱动。在体内和体外两大创新药物方向的科学研究中,会频繁的需要使用中国和海外基因领域的公开参考数据,包括Amazon的公开数据集中的基因行业相关数据集,如 gnomAD、PubSeq、CCLE、BLAST等,以及其他公开的标准行业数据,如GenBank 、RefSeq、TCGA,NCBI SRA,ICGC等。
      基因行业的公开数据一般都数据量很大,通常从数十 GB 到数十 TB不等。由于成本考虑,广州某生物科技有限公司未建设跨境专线网络,只能通过公共互联网进行文件的跨境访问和下载。但由于跨境互联网络的延迟、丢包率非常不稳定,海外的数据几乎处于不能正常访问和下载的状态,经常数天才能完成一部分数据的下载,严重的影响了用户的科研进度和效率。
      某生物科技希望能够找到经济、高效、稳定、安全的跨境文件同步方案,建设一个长期持续使用的全球科研数据同步平台,用于能够高效从海外将科研需要使用的公开数据下载并同步到中国AWS账号内的S3存储桶中,以便后续的科研分析平台使用。

解决方案*

架构图

架构设计*

在本技术方案中,为了实现基于跨境互联网网络的大规模文件同步项目需求,我们主要采用了以下技术方法来实现架构设计和部署:
• 参考 AWS Identity and Access Management最佳实践来规划和完成 AWS Identity and Access Management中的用户创建、权限配置和安全设置;
• 在AWS中国(北京区域)和AWS海外(北弗吉尼亚区域)创建Amazon Virtual Private Cloud进行网络隔离和其他服务部署;
• 在AWS海外(北弗吉尼亚区域)创建 Amazon Elastic Compute Cloud 实例组,用于下载 AWS Public Datasets 中的数据及三方网站的数据,并传输到AWS海外(北弗吉尼亚区域)的Amazon Simple Storage Service 存储桶中。可根据客户需求,通过修改 Amazon Elastic Compute Cloud 实例组的数量快速启动多台Amazon Elastic Compute Cloud 实例用于多个数据源的数据下载。
• 通过使用可以访问Amazon Simple Storage Service 存储桶的Amazon Elastic Compute Cloud 角色,将其附加到Amazon Elastic Compute Cloud 以提供Amazon Simple Storage Service 访问权限,避免使用容易发生安全泄漏的Access Key/Secret Key;
• 在AWS海外(北弗吉尼亚区域),根据Amazon Simple Storage Service 存储桶上的存储桶前缀配置事件触发机制,将所有新对象事件发送到Amazon Simple Queue Service;
• 将读写AWS中国(北京区域)Amazon Simple Storage Service 所需的Access Key/Secret Key 安全存储在AWS System Manager 参数中,在AWS Lambda 中调用;
• 在AWS海外(北弗吉尼亚区域),配置Amazon Simple Queue Service 触发AWS Lambda,从Amazon Simple Storage Service 中读取文件并完成对象的跨境传输到AWS中国(北京区域)的Amazon Simple Storage Service 存储桶中;
• AWS Lambda 中对大文件进行切片,通过并发多线程传输,可在传输异常中断时提供可恢复的断点续传功能;
• 在AWS海外(北弗吉尼亚区域),通过 Amazon Cloudwatch进行传输过程各项服务的监控,包括网络传输速度、AWS Lambda 调用情况、Amazon Simple Queue Service队列消息数量、Amazon Elastic Compute Cloud利用率等指标;

项目收益*

通过使用 AWS Lambda、Amazon Simple Queue Service,结合 Amazon Simple Storage Service & Amazon Simple Storage Service 事件驱动机制,我们为客户构建了一个经济、可靠、安全、准实时的无服务器方式的跨境数据同步系统。
• 效率:通过使用我们提供的方案,用户可以大大缩短海外科研文件的下载和传输时间,大幅提升了工作效率。在实际的测试和使用中,每天(24小时)至少可以完成3到5 TB的文件传输(从 AWS 北弗吉尼亚区域的Amazon Simple Storage Service存储桶传输到AWS 北京区域的Amazon Simple Storage Service存储桶);以前相同大小的文件需要用户 7 到 10 天才能完成跨境的传输,并且需要多次重试和大量人工干预。
• 成本:客户的文件传输需求是不定期、非持续的,在没有下载和传输任务的时间,可以通过将Amazon Elastic Compute Cloud instance groups的大小设置为0来大幅降低成本;同时用户可以定期删除AWS 北弗吉尼亚区域的Amazon Simple Storage Service存储桶中不再需要保留的文件来降低存储费用。
• 可靠性:AWS Lambda文件传输代码对每个文件分片均进行MD5完整性校验,确保了文件的完整性和一致性。
• 安全性:传输时使用 SSL 加密,使用 IAM 角色并通过 AWS System Manager 参数来存储凭证访问密钥。

项目收获*

• 通过此项目的部署和实际测试,我们对 AWS 的无服务器技术(包括 AWS Lambda、Amazon Simple Storage Service、Amazon Simple Storage Service 事件驱动机制、Amazon Simple Queue Service等)有了很深的理解和实践经验;
• 此项目中所实现的跨境文件传输方案,在很多行业(特别在生命科学行业)和很多领域的客户项目中均可以反复使用;同时通过使用AWS Cloud Development Kit进行部署非常的高效和便捷。

【返回上页】 【打印本页】