cuda

Tensorflow complains that no CUDA-capable device is detected

|▌冷眼眸甩不掉的悲伤 提交于 2020-12-30 03:55:08
问题 I'm trying to run some Tensorflow code, and I get what seems to be a common problem: $ LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64 python -c "import tensorflow; tensorflow.Session()" 2019-02-06 20:36:15.903204: I tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA 2019-02-06 20:36:15.908809: E tensorflow/stream_executor/cuda/cuda_driver.cc:300] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable

CUDA GPU processing: TypeError: compile_kernel() got an unexpected keyword argument 'boundscheck'

五迷三道 提交于 2020-12-29 12:00:25
问题 Today I started working with CUDA and GPU processing. I found this tutorial: https://www.geeksforgeeks.org/running-python-script-on-gpu/ Unfortunately my first attempt to run gpu code failed: from numba import jit, cuda import numpy as np # to measure exec time from timeit import default_timer as timer # normal function to run on cpu def func(a): for i in range(10000000): a[i]+= 1 # function optimized to run on gpu @jit(target ="cuda") def func2(a): for i in range(10000000): a[i]+= 1 if _

并行计算与并行编程课程内容介绍

﹥>﹥吖頭↗ 提交于 2020-12-27 13:49:59
課程大綱 本課程將介紹平行計算的基礎觀念和電腦系統架構,並教授針對不同平行計算環境所設計的程式語言,包括多核心系統使用的 Pthread、OpenMP, 叢集計算使用的MPI, GPU使用的CUDA, 以及分散式系統使用的MapReduce計算框架。修課同學必須使用 這些平行計算的語言和工具完成5個程式作業,並且以程式的執行效能結果作為學習的評量標準。 【課程說明 Course Description】 本課程將介紹平行計算的基礎觀念和電腦系統架構,並教授針對不同平行計算環境所設計的程式語言,包括多核心系統使用的 Pthread、OpenMP, 叢集計算使用的MPI, GPU使用的CUDA, 以及分散式系統使用的MapReduce計算框架。修課同學必須使用 這些平行計算的語言和工具完成5個程式作業,並且以程式的執行效能結果作為學習的評量標準。 Part I Introduction - Introduction to Parallel Computers - Introduction to Parallel Computing Part II Parallel Programming - Message-Passing Programming (MPI) - Shared Memory Programming (Pthread and OpenMP) Part III

联想Y7000安装Ubuntu16.04/Win10双系统,wifi问题,显卡驱动和CUDA10安装

拈花ヽ惹草 提交于 2020-12-27 00:58:14
https://blog.csdn.net/la9881275/article/details/86720752 Ubuntu16.04系统安装 拿到Ubuntu镜像制作装机优盘,这里就不写了。 我的优盘之前已经做成了Ubuntu16.04启动盘,装机一切顺利。 遇到的第一个问题是wifi无法启用,这个问题原本根据其他博客介绍通过禁用联想的ideapad驱动项可以解决,但是Ubuntu16.04这个版本没能给Y7000的无线网卡RTK8822BE安装合适的驱动,因此尝试自己安装,试过集中方案,均告失败,看到有个博客说用Ubuntu16.04.5这个版本可以一切OK,所以考虑换版本 但安装该版本后,wifi虽然能用,但是显卡存在问题,开机进入不了桌面,只显示背景,按ctrl+alt+f1和鼠标操作都没有反应,经过尝试可以通过在开机grub界面,按e, 在“quiet splash”后添加“nomodeset”,之后F10,重新启动正常进入Ubuntu系统。 这里这个参数好像是让系统使用集显。但要注意后面这个参数还需要修改。 让这个设置一直有效的方法是 sudo gedit /etc/default/grub 然后在里面进行修改,之后保存关闭文件,采用下面指令使其生效: sudo update-grub 此外,我还试过Ubuntu16.04其他版本,都有问题。 注意:经过尝试

Converting Thrust device iterators to raw pointers

帅比萌擦擦* 提交于 2020-12-25 04:34:51
问题 I'm considering the following simple code in which I'm converting thrust::host_vector<int>::iterator h_temp_iterator = h_temp.begin(); and thrust::device_vector<int>::iterator d_temp_iterator = d_temp.begin(); to raw pointers. To this end, I'm passing &(h_temp_iterator[0]) and &(d_temp_iterator[0]) to a function and a kernel, respectively. The former (CPU case) compiles, the latter (GPU case) not. The two cases should be in principle symmetric, so I do not understand the reason for the error

Converting Thrust device iterators to raw pointers

不想你离开。 提交于 2020-12-25 04:34:26
问题 I'm considering the following simple code in which I'm converting thrust::host_vector<int>::iterator h_temp_iterator = h_temp.begin(); and thrust::device_vector<int>::iterator d_temp_iterator = d_temp.begin(); to raw pointers. To this end, I'm passing &(h_temp_iterator[0]) and &(d_temp_iterator[0]) to a function and a kernel, respectively. The former (CPU case) compiles, the latter (GPU case) not. The two cases should be in principle symmetric, so I do not understand the reason for the error

Detectron2(AdelaiDet)加载COCO格式自定义数据集

喜欢而已 提交于 2020-12-24 09:20:51
测试环境: OS: Win10 CUDA: 11.0 pytorch: 1.7.1 GPU: 3060Ti python:3.8 Detectron: 0.3(笔者可以在win环境成功编译安装detectron2 Detectron2模型数量虽然比mmdetection少,不过有些论文还是用Detectron2做的,因此有必要了解一下如何用Detectron2训练自定义数据集。 关于mmdetection下训练coco格式的自定义数据请移步笔者另一篇博文: mmdetection-v2.3安装配置及训练自定义数据集 以笔者目前的经验来看,要想对自己领域内的图像做目标检测任务,最好的方法是制作成COCO格式数据集,个人习惯用labelimg先制作成voc格式,然后用脚本转换为coco格式,转换脚本可见笔者的github库: https://github.com/ouening/OD_dataset_conversion_scripts 。制作成COCO格式的好处是目前大部分OD框架都支持该数据格式,直接调用API或者简单修改就可以用,当然VOC格式也是基本都支持的,但是COCO在指标评价上更加丰富,VOC只有传统的mAP,COCO指标有AP,AP0.5,AP0.75,APs,APm,APl,AR1,AR10,AR100等。 下面以AdelaiDet(基于Detectron2

linux中anaconda环境下pytorch的安装(conda安装本地包)

别来无恙 提交于 2020-12-24 08:59:53
跑代码的时候遇到和这位博主几乎一模一样的问题,安装的也是同一版本。目前清华源已经停止服务,如果要自己下载pytorch包的话估计只能在官网下载了。 原文:https://blog.csdn.net/summer2day/article/details/88652934 pytorch的安装 (1)版本查看 查看cuda版本cat /usr/local/cuda/version.txt 查看cudnn版本cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 去官网找到适合的版本用conda安装 http://webcache.googleusercontent.com/search?q=cache:https://pytorch.org/get-started/previous-versions/ (python版本,64或者32位,cuda,cudnn的版本) (2)设置镜像 因为Anaconda.org的服务器在国外。可以用清华TUNA镜像源,包含Anaconda仓库的镜像,将其加入conda的配置。否则速度会很慢并且经常失败,其中出现”CondaHTTPError: HTTP None None for url……”这类错误时。 # 添加Anaconda的TUNA镜像 $ conda config --add

TensorFlow入门——bazel编译(带GPU)

。_饼干妹妹 提交于 2020-12-24 02:54:02
这一系列基本上是属于我自己进行到了那个步骤就做到那个步骤的 由于新装了GPU (GTX750ti)和CUDA9.0、CUDNN7.1版本的软件,所以希望TensorFlow能在GPU上运行,也算上补上之前的承诺 说了下初衷,由于现在新的CUDA版本对TensorFlow的支持不好,只能采取编译源码的方式进行 所以大概分为以下几个步骤 1.安装依赖库(这部分我已经做过了,不进行介绍,可以看前边的依赖库,基本一致) sudo apt-get install openjdk-8-jdk jdk是bazel必须的 2.安装Git(有的就跳过这一步) 3.安装TensorFlow的build工具bazel 4.配置并编译TensorFlow源码 5.安装并配置环境变量 1.安装依赖库 2.安装Git 使用 sudo apt-get install git git clone --recursive https://github.com/tensorflow/tensorflow 3. 安装TensorFlow的build工具bazel 这一步比较麻烦,是因为apt-get中没有bazel这个工具 因此需要到GitHub上先下载,再进行安装 下载地址是https://github.com/bazelbuild/bazel/releases 选择正确版本下载

Processing Shared Work Queue Using CUDA Atomic Operations and Grid Synchronization

混江龙づ霸主 提交于 2020-12-21 02:47:57
问题 I’m trying to write a kernel whose threads iteratively process items in a work queue. My understanding is that I should be able to do this by using atomic operations to manipulate the work queue (i.e., grab work items from the queue and insert new work items into the queue), and using grid synchronization via cooperative groups to ensure all threads are at the same iteration (I ensure the number of thread blocks doesn’t exceed the device capacity for the kernel). However, sometimes I observe