cuda | 易学教程

What does cudaSetDevice() do to a CUDA device's context stack?

阅读更多关于 What does cudaSetDevice() do to a CUDA device's context stack?

问题 Suppose I have an active CUDA context associated with device i , and I now call cudaSetDevice(i) . What happens? : Nothing? Primary context replaces the top of the stack? Primary context is pushed onto the stack? It actually seems to be inconsistent. I've written this program, running on a machine with a single device: #include <cuda.h> #include <cuda_runtime_api.h> #include <cassert> #include <iostream> int main() { CUcontext ctx1, primary; cuInit(0); auto status = cuCtxCreate(&ctx1, 0, 0);

libcudart.so.10.0: cannot open shared object file: No such file or directory

阅读更多关于 libcudart.so.10.0: cannot open shared object file: No such file or directory

tensorflow 2.0.0b1 cuda：10.1 报错，使用 tf.test.is_gpu_available()测试时也是false，原来是这个版本只支持10.0，不支持10.1. 解决办法：无需删除cuda10.1，也无需再下载cuda10.0包，直接 conda install cudatoolkit=10.0。 https://github.com/tensorflow/tensorflow/issues/30638 cudnn安装： conda install cudnn=7.0.5 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/ ok的，不写版本会自动选版本： conda install cudnn conda设置代理： vim ~/.condarc 这个文件中可以看到镜像源信息（如果配置了的话），在下面加上proxy就可以设置代理了： channels: - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ - defaults show_channel_urls: true proxy_servers: http: http://xxx.xx.com:8080 https: https://xxx.xx

【pytorch-ssd目标检测】可视化检测结果

阅读更多关于【pytorch-ssd目标检测】可视化检测结果

制作类似pascal voc格式的目标检测数据集： https://www.cnblogs.com/xiximayou/p/12546061.html 训练自己创建的数据集： https://www.cnblogs.com/xiximayou/p/12546556.html 验证自己创建的数据集： https://www.cnblogs.com/xiximayou/p/12550471.html 测试自己创建的数据集： https://www.cnblogs.com/xiximayou/p/12550566.html 还是以在谷歌colab上为例： cd /content/drive/My Drive/pytorch_ssd 导入相应的包： import os import sys module_path = os.path.abspath(os.path.join( ' .. ' )) if module_path not in sys.path: sys.path.append(module_path) import torch import torch.nn as nn import torch.backends.cudnn as cudnn from torch.autograd import Variable import numpy as np import cv2

模型GPU和CPU的保存和加载

阅读更多关于模型GPU和CPU的保存和加载

# Save on GPU, Load on CPU import torch import torch.nn as nn class Model(nn.Module): def __init__(self, n_input_features): super(Model, self).__init__() self.linear = nn.Linear(n_input_features, 1) def forward(self, x): y_pred = torch.sigmoid(self.linear(x)) return y_pred model = Model(n_input_features=6) # train your model... FILE = "model_gpu_cpu.pth" """ Save on GPU, Load on CPU """ device = torch.device("cuda") model.to(device) torch.save(model.state_dict(), FILE) device = torch.device("cpu") model = Model(n_input_features=6) model.load_state_dict(torch.load(FILE, map_location=device))

fastHan: 基于BERT的中文NLP集成工具

阅读更多关于 fastHan: 基于BERT的中文NLP集成工具

简介 fastHan是基于 fastNLP 与pytorch实现的中文自然语言处理工具，像spacy一样调用方便。其内核为基于BERT的联合模型，其在13个语料库中进行训练，可处理中文分词、词性标注、依存句法分析、命名实体识别四项任务。fastHan共有base与large两个版本，分别利用BERT的前四层与前八层。base版本在总参数量150MB的情况下各项任务均有不错表现，large版本则接近甚至超越SOTA模型。项目地址为： https:// github.com/fastnlp/fast Han 安装 fastHan的安装非常简便。它存在如下包的依赖： fastNLP>=0.5.0 pytorch>=1.0.0 执行指令 pip install fastHan 即可安装。使用 fastHan的使用非常简单，只需要两步，加载模型、输入句子。加载模型：执行以下代码即可加载模型：用户首次初始化模型时模块将自动从服务器下载参数。模型默认初始化base版本，可修改model_type参数值为’large’加载large版本。输入句子：输入模型的可以是单独的字符串，也可是由字符串组成的列表。如果输入的是列表，模型将一次性处理所有输入的字符串，所以请自行控制 batch size。模型对句子进行依存分析、命名实体识别的简单例子如下：其中，target参数可在

宜信OCR技术探索与实践|直播速记

阅读更多关于宜信OCR技术探索与实践|直播速记

宜信OCR技术探索与实践|直播速记宜信OCR技术探索与实践|完整视频回放分享实录一、OCR概述 1.1 OCR技术演进传统图像，冈萨雷斯的图像处理。信号处理、频域分析以及各类算法：SIFT、HOG、HOUGH、Harris、Canny…都很赞。从2016年以后业界基本上都已经转向深度了，因为效果真的特别好。 1.2 OCR技术商业服务身份证卡证类相对容易些，但是要做到复杂场景的，也不是那么容易。发票、业务单据相对复杂，除了识别，更重要的是版面分析。最近表格识别比较火，各家都在努力实现，微软的开放tablebank数据集移动端backboneMobileNet，或者是tesseract+opencv 二、我们的业务场景 2.1 业务需求满足业务是第一需要，不同于大厂，对外服务API，要求大并发那么强，多样性品类完备，我们更强调单品要做到尽量达到业务要求，更强调定制化，可以分布走，业务上可以给反馈不断改进。 2.2 识别过程中需要解决的问题三、OCR算法详解 3.1 算法概述——分享原则大家一定要自己弄细节，读代码、甚至自己动手撸，自己训练，调参，排错，才能有真正的体会和理解，只讲我认为每个算法里面不太好理解，重点，以及容易忽略的点，跟同行一起交流，沟通。一个模型，要全面深入了解，需要：目标、目的、意义是啥？网络结构啥样？ loss是啥？

YOLO实战（GPU）（win10+vs2017+cuda10.2）

阅读更多关于 YOLO实战（GPU）（win10+vs2017+cuda10.2）

一.首先当然是训练好自己的训练集我是在ubuntu上跑的训练，训练遇到挺多问题的，埋个坑，后面讲***************************此处有坑二.然后在win10里配置yolov3 （现在yolov5粗来了，不过两个的配置应该都差不多） 1.首先安装cada+cudnn 这里一定要去下载对应的版本（查你自己的显卡） cuda安装地址： https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64&target_version=10&target_type=exelocal cudnn安装地址： https://developer.nvidia.com/cudnn （一定要对应版本我的是7.6） 2.然后是解压常规操作（win内傻瓜式操作）很多人c盘不够，这里提醒下，先确保空间安装（cuda一定安装在c，即使你选择了其他路径也无济于事）上图是把cudnn内的（bin,inlcude,lib）放进如图的文件夹内 cuda安装就是一路next<<................................................................................ 3.配置cuda的环境（系统环境）

Python3.7+Pycharm+cuda10.0+tensorflow GPU版本安装

阅读更多关于 Python3.7+Pycharm+cuda10.0+tensorflow GPU版本安装

处理器：I5-7500 显卡：GTX1050Ti 系统：Win10 1. 首先搭建Python环境。官网 https://www.python.org/downloads/ 下载Python3.7（目前最新的版本为3.7.4，暂时不用最新版本）。下载安装完成后在环境变量中添加bin路径。 cmd 运行 python 查看是否配置成功。 C:\Users\admin> python Python 3.7 . 0 (v3. 7.0 :1bf9cc5093, Jun 27 2018 , 04 : 59 : 51 ) [MSC v. 1914 64 bit (AMD64)] on win32 Type " help " , " copyright " , " credits " or " license " for more information. >>> 2. 下载Cuda 官网链接： https://developer.nvidia.com/cuda-downloads 网盘链接：https://pan.baidu.com/s/1K_PEdQ-aJRu3mnCpVvPREQ 提取码：l2vw 按步骤安装。 3. Cuddn 链接：https://pan.baidu.com/s/1BXCwyUb6fUF7ULfKJd_8VA 提取码：qlgy 将解压出来的文件替换到CUDA

__shfl_down and __shfl_down_sync give different results

阅读更多关于 __shfl_down and __shfl_down_sync give different results

问题 I am confused by __shfl_down and __shfl_down_sync , they give different results. __global__ void shufledown1(double* a, double *b,double *c, int N) { double temp = 2.0; __syncthreads(); for (int offset = 32/2; offset > 0; offset /= 2){ temp+=__shfl_down(temp, offset,32); } printf("%d %f %d \n",threadIdx.x ,temp,blockDim.x * gridDim.x); } __global__ void shufledown2(double* a, double *b,double *c, int N) { double temp = 2.0; __syncthreads(); for (int offset = 32/2; offset > 0; offset /= 2){

【pytorch-ssd目标检测】可视化检测结果

阅读更多关于【pytorch-ssd目标检测】可视化检测结果

订阅 cuda