Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > Java基础相关 >

科学计算与企业级应用的并行优化_ 刘文志 PDF 下载


分享到:
时间:2024-08-17 08:46来源:http://www.java1234.com 作者:转载  侵权举报
科学计算与企业级应用的并行优化_ 刘文志
失效链接处理
科学计算与企业级应用的并行优化_  刘文志 PDF 下载 


下载地址:
版权归出版社和原作者所有,链接已删除,请购买正版

用户下载说明:

电子版仅供预览,下载后24小时内务必删除,支持正版,喜欢的请购买正版书籍:
https://product.dangdang.com/11738962690.html
 

相关截图:



资料简介:
本书系统、深入讲解了科学计算及企业级应用的并行优化方法与实践。章介绍了常见的并行编程基于的多核/众核向量处理器架构。第2章介绍了如何在X86、ARM和GPU上优化常见的线性代数运算。第3章介绍了如何在X86和GPU处理器上优化偏微分方程的求解。第4章介绍了如何在X86处理器和GPU上优化常见的分子动力学算法。第5章详细介绍了如何在X86、ARM和GPU上优化常见的机器学习算法


资料目录:
前言
章 多核向量处理器架构
1.1 众核系统结构
1.2 众核架构的一致 多核向量处理器架构
1.3.1 Intel Haswell CPU架构
1.3.2 ARM A15多核向量处理器架构
1.3.3 AMD G GPU架构
1.3.4 NVIDIA Kepler和Maxwell GPU架构
1.4 Intel MIC架构
1.4.1 整体架构
1.4.2 计算单元
1.4.3 存储器单元
1.4.4 MIC架构上一些容易成为瓶颈的设计
1.5 OpenCL程序在多核向量处理器上的映射
1.5.1 OpenCL程序在多核向量CPU上的映射
1.5.2 OpenCL程序在NVIDIA GPU上的映射
1.5.3 OpenCL程序在AMD G上的映射
1.6 OpenCL程序在各众核硬件上执行的区别
1.7 众核编程模式
1.8 众核性能优化
1.9 MIC和GPU编程比较
1.10 本章小结
第2章 常见线性代数算法优化
2.1 稀疏矩阵与向量乘法
2.1.1 稀疏矩阵的存储格式
2.1.2 CSR 格式稀疏矩阵与向量乘法
2.1.3 ELL格式稀疏矩阵与向量乘
2.2 对称矩阵与向量乘积
2.2.1 串行代码
2.2.2 向量化对称矩阵与向量乘积
2.2.3 OpenMP 并行化
2.2.4 CUDA 代码
2.3 三角线性方程组的解法
2.3.1 串行算法
2.3.2 串行算法优化
2.3.3 AVX 优化实现
2.3.4 NEON 优化实现
2.3.5 如何提高并行度
2.3.6 CUDA 算法实现
2.4 矩阵乘法
2.4.1 AVX指令计算矩阵乘法
2.4.2 NEON指令计算矩阵乘法
2.4.3 GPU计算矩阵乘法
2.5 本章小结
第3章 优化偏微分方程的数值解法
3.1 热传递问题
3.1.1 C代码及性能
3.1.2 OpenMP代码及性能
3.1.3 OpenACC代码及性能
3.1.4 CUDA代码
3.2 简单三维Stencil
3.2.1 串行实现
3.2.2 Stencil在X86处理器上实现的困境
3.2.3 CUDA实现
3.3 本章小结
第4章 优化分子动力学算法
4.1 简单搜索的实现
4.1.1 串行代码
4.1.2 向量化实现分析
4.1.3 OpenMP实现
4.1.4 CUDA实现
4.2 范德华力计算
4.2.1 串行实现
4.2.2 向量化实现分析
4.2.3 OpenMP实现
4.2.4 CUDA实现
4.2.5 如何提高缓存的利用
4.3 键长伸缩力计算
4.3.1 串行实现
4.3.2 向量化实现
4.3.3 OpenMP实现
4.3.4 CUDA实现
4.4 径向分布函数计算
4.4.1 串行实现
4.4.2 向量化实现
4.4.3 OpenMP实现
4.4.4 CUDA实现
4.5 本章小结
第5章 机器学习算法
5.1 kmeans算法
5.1.1 计算流程
5.1.2 计算元素所属分类
5.1.3 更新分类中心
5.1.4 入口函数
5.2 KNN算法
5.2.1 计算步骤
5.2.2 相似度计算
5.2.3 求前k个相似度元素
5.2.4 统计所属分类
5.3 二维卷积
5.3.1 X86实现
5.3.2 ARM实现
5.3.3 CUDA实现
5.4 四维卷积
5.4.1 X86实现
5.4.2 ARM 实现
5.4.3 CUDA实现
5.5 多GPU并行优化深度学习软件Caffe
5.5.1 为什么要使用多GPU并行Caffe
5.5.2 AlexNet示例
5.5.3 Caffe的主要计算流程
5.5.4 多GPU并行卷积神经网络的方式
5.5.5 多GPU并行Caffe实践
5.6 本章小结



------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐