Added a spinlock template as well as a thread work pool class.

Also, optimized shader compilation to happen on threads.
2019-07-29 12:59:18 -03:00 · 2019-07-29 12:59:18 -03:00 · c613ead5fa
parent 4fe3ee1730
commit c613ead5fa
37 changed files with 458 additions and 192 deletions
--- a/core/bind/core_bind.cpp
+++ b/core/bind/core_bind.cpp
@ -2612,7 +2612,7 @@ void _Semaphore::_bind_methods() {
 _Semaphore::_Semaphore() {
-	semaphore = Semaphore::create();
+	semaphore = SemaphoreOld::create();
 }
 _Semaphore::~_Semaphore() {
--- a/core/bind/core_bind.h
+++ b/core/bind/core_bind.h
@ -642,7 +642,7 @@ public:
 class _Semaphore : public Reference {
 	GDCLASS(_Semaphore, Reference);
-	Semaphore *semaphore;
+	SemaphoreOld *semaphore;
 	static void _bind_methods();
--- a/core/command_queue_mt.cpp
+++ b/core/command_queue_mt.cpp
@ -111,11 +111,11 @@ CommandQueueMT::CommandQueueMT(bool p_sync) {
 	for (int i = 0; i < SYNC_SEMAPHORES; i++) {
-		sync_sems[i].sem = Semaphore::create();
+		sync_sems[i].sem = SemaphoreOld::create();
 		sync_sems[i].in_use = false;
 	}
 	if (p_sync)
-		sync = Semaphore::create();
+		sync = SemaphoreOld::create();
 	else
 		sync = NULL;
 }
--- a/core/command_queue_mt.h
+++ b/core/command_queue_mt.h
@ -297,7 +297,7 @@ class CommandQueueMT {
 	struct SyncSemaphore {
-		Semaphore *sem;
+		SemaphoreOld *sem;
 		bool in_use;
 	};
@ -342,7 +342,7 @@ class CommandQueueMT {
 	uint32_t dealloc_ptr;
 	SyncSemaphore sync_sems[SYNC_SEMAPHORES];
 	Mutex *mutex;
-	Semaphore *sync;
+	SemaphoreOld *sync;
 	template <class T>
 	T *allocate() {
--- a/core/io/file_access_network.cpp
+++ b/core/io/file_access_network.cpp
@ -231,7 +231,7 @@ FileAccessNetworkClient::FileAccessNetworkClient() {
 	singleton = this;
 	last_id = 0;
 	client.instance();
-	sem = Semaphore::create();
+	sem = SemaphoreOld::create();
 	lockcount = 0;
 }
@ -522,8 +522,8 @@ FileAccessNetwork::FileAccessNetwork() {
 	eof_flag = false;
 	opened = false;
 	pos = 0;
-	sem = Semaphore::create();
+	sem = SemaphoreOld::create();
-	page_sem = Semaphore::create();
+	page_sem = SemaphoreOld::create();
 	buffer_mutex = Mutex::create();
 	FileAccessNetworkClient *nc = FileAccessNetworkClient::singleton;
 	nc->lock_mutex();
--- a/core/io/file_access_network.h
+++ b/core/io/file_access_network.h
@ -49,7 +49,7 @@ class FileAccessNetworkClient {
 	List<BlockRequest> block_requests;
-	Semaphore *sem;
+	SemaphoreOld *sem;
 	Thread *thread;
 	bool quit;
 	Mutex *mutex;
@ -85,8 +85,8 @@ public:
 class FileAccessNetwork : public FileAccess {
-	Semaphore *sem;
+	SemaphoreOld *sem;
-	Semaphore *page_sem;
+	SemaphoreOld *page_sem;
 	Mutex *buffer_mutex;
 	bool opened;
 	size_t total_size;
--- a/core/io/ip.cpp
+++ b/core/io/ip.cpp
@ -71,7 +71,7 @@ struct _IP_ResolverPrivate {
 	}
 	Mutex *mutex;
-	Semaphore *sem;
+	SemaphoreOld *sem;
 	Thread *thread;
 	//Semaphore* semaphore;
@ -319,7 +319,7 @@ IP::IP() {
 #ifndef NO_THREADS
-	resolver->sem = Semaphore::create();
+	resolver->sem = SemaphoreOld::create();
 	if (resolver->sem) {
 		resolver->thread_abort = false;
--- a/core/os/semaphore.cpp
+++ b/core/os/semaphore.cpp
@ -32,14 +32,14 @@
 #include "core/error_macros.h"
-Semaphore *(*Semaphore::create_func)() = 0;
+SemaphoreOld *(*SemaphoreOld::create_func)() = 0;
-Semaphore *Semaphore::create() {
+SemaphoreOld *SemaphoreOld::create() {
 	ERR_FAIL_COND_V(!create_func, 0);
 	return create_func();
 }
-Semaphore::~Semaphore() {
+SemaphoreOld::~SemaphoreOld() {
 }
--- a/core/os/semaphore.h
+++ b/core/os/semaphore.h
@ -32,19 +32,53 @@
 #define SEMAPHORE_H
 #include "core/error_list.h"
 #include "core/typedefs.h"
 #include <condition_variable>
 #include <mutex>
 class Semaphore {
 private:
 	std::mutex mutex_;
 	std::condition_variable condition_;
 	unsigned long count_ = 0; // Initialized as locked.
 public:
 	_ALWAYS_INLINE_ void post() {
 		std::lock_guard<decltype(mutex_)> lock(mutex_);
 		++count_;
 		condition_.notify_one();
 	}
 	_ALWAYS_INLINE_ void wait() {
 		std::unique_lock<decltype(mutex_)> lock(mutex_);
 		while (!count_) // Handle spurious wake-ups.
 			condition_.wait(lock);
 		--count_;
 	}
 	_ALWAYS_INLINE_ bool try_wait() {
 		std::lock_guard<decltype(mutex_)> lock(mutex_);
 		if (count_) {
 			--count_;
 			return true;
 		}
 		return false;
 	}
 };
 class SemaphoreOld {
 protected:
-	static Semaphore *(*create_func)();
+	static SemaphoreOld *(*create_func)();
 public:
 	virtual Error wait() = 0; ///< wait until semaphore has positive value, then decrement and pass
 	virtual Error post() = 0; ///< unlock the semaphore, incrementing the    value
 	virtual int get() const = 0; ///< get semaphore value
-	static Semaphore *create(); ///< Create a mutex
+	static SemaphoreOld *create(); ///< Create a mutex
-	virtual ~Semaphore();
+	virtual ~SemaphoreOld();
 };
 #endif
--- a/core/os/thread_dummy.cpp
+++ b/core/os/thread_dummy.cpp
@ -48,12 +48,12 @@ void MutexDummy::make_default() {
 	Mutex::create_func = &MutexDummy::create;
 };
-Semaphore *SemaphoreDummy::create() {
+SemaphoreOld *SemaphoreDummy::create() {
 	return memnew(SemaphoreDummy);
 };
 void SemaphoreDummy::make_default() {
-	Semaphore::create_func = &SemaphoreDummy::create;
+	SemaphoreOld::create_func = &SemaphoreDummy::create;
 };
 RWLock *RWLockDummy::create() {
--- a/core/os/thread_dummy.h
+++ b/core/os/thread_dummy.h
@ -58,9 +58,9 @@ public:
 	static void make_default();
 };
-class SemaphoreDummy : public Semaphore {
+class SemaphoreDummy : public SemaphoreOld {
-	static Semaphore *create();
+	static SemaphoreOld *create();
 public:
 	virtual Error wait() { return OK; };
--- a/core/rid_owner.h
+++ b/core/rid_owner.h
@ -3,6 +3,8 @@
 #include "core/print_string.h"
 #include "core/rid.h"
 #include "core/spin_lock.h"
 #include <typeinfo>
 class RID_AllocBase {
@ -28,7 +30,7 @@ public:
 	virtual ~RID_AllocBase() {}
 };
-template <class T>
+template <class T, bool THREAD_SAFE = false>
 class RID_Alloc : public RID_AllocBase {
 	T **chunks;
@ -41,9 +43,15 @@ class RID_Alloc : public RID_AllocBase {
 	const char *description;
 	SpinLock spin_lock;
 public:
 	RID make_rid(const T &p_value) {
 		if (THREAD_SAFE) {
 			spin_lock.lock();
 		}
 		if (alloc_count == max_alloc) {
 			//allocate a new chunk
 			uint32_t chunk_count = alloc_count == 0 ? 0 : (max_alloc / elements_in_chunk);
@ -85,11 +93,19 @@ public:
 		validator_chunks[free_chunk][free_element] = validator;
 		alloc_count++;
 		if (THREAD_SAFE) {
 			spin_lock.unlock();
 		}
 		return _make_from_id(id);
 	}
 	_FORCE_INLINE_ T *getornull(const RID &p_rid) {
 		if (THREAD_SAFE) {
 			spin_lock.lock();
 		}
 		uint64_t id = p_rid.get_id();
 		uint32_t idx = uint32_t(id & 0xFFFFFFFF);
 		if (unlikely(idx >= max_alloc)) {
@ -104,14 +120,27 @@ public:
 			return NULL;
 		}
-		return &chunks[idx_chunk][idx_element];
+		T *ptr = &chunks[idx_chunk][idx_element];
 		if (THREAD_SAFE) {
 			spin_lock.unlock();
 		}
 		return ptr;
 	}
 	_FORCE_INLINE_ bool owns(const RID &p_rid) {
 		if (THREAD_SAFE) {
 			spin_lock.lock();
 		}
 		uint64_t id = p_rid.get_id();
 		uint32_t idx = uint32_t(id & 0xFFFFFFFF);
 		if (unlikely(idx >= max_alloc)) {
 			if (THREAD_SAFE) {
 				spin_lock.unlock();
 			}
 			return false;
 		}
@ -119,11 +148,22 @@ public:
 		uint32_t idx_element = idx % elements_in_chunk;
 		uint32_t validator = uint32_t(id >> 32);
-		return validator_chunks[idx_chunk][idx_element] == validator;
+
 		bool owned = validator_chunks[idx_chunk][idx_element] == validator;
 		if (THREAD_SAFE) {
 			spin_lock.unlock();
 		}
 		return owned;
 	}
 	_FORCE_INLINE_ void free(const RID &p_rid) {
 		if (THREAD_SAFE) {
 			spin_lock.lock();
 		}
 		uint64_t id = p_rid.get_id();
 		uint32_t idx = uint32_t(id & 0xFFFFFFFF);
 		ERR_FAIL_COND(idx >= max_alloc);
@ -139,6 +179,10 @@ public:
 		alloc_count--;
 		free_list_chunks[alloc_count / elements_in_chunk][alloc_count % elements_in_chunk] = idx;
 		if (THREAD_SAFE) {
 			spin_lock.unlock();
 		}
 	}
 	_FORCE_INLINE_ uint32_t get_rid_count() const {
@ -147,8 +191,15 @@ public:
 	_FORCE_INLINE_ T *get_rid_by_index(uint32_t p_index) {
 		ERR_FAIL_INDEX_V(p_index, alloc_count, NULL);
 		if (THREAD_SAFE) {
 			spin_lock.lock();
 		}
 		uint64_t idx = free_list_chunks[p_index / elements_in_chunk][p_index % elements_in_chunk];
-		return &chunks[idx / elements_in_chunk][idx % elements_in_chunk];
+		T *ptr = &chunks[idx / elements_in_chunk][idx % elements_in_chunk];
 		if (THREAD_SAFE) {
 			spin_lock.unlock();
 		}
 		return ptr;
 	}
 	void get_owned_list(List<RID> *p_owned) {
@ -203,9 +254,9 @@ public:
 	}
 };
-template <class T>
+template <class T, bool THREAD_SAFE = false>
 class RID_PtrOwner {
-	RID_Alloc<T *> alloc;
+	RID_Alloc<T *, THREAD_SAFE> alloc;
 public:
 	_FORCE_INLINE_ RID make_rid(T *p_ptr) {
@ -239,9 +290,9 @@ public:
 			alloc(p_target_chunk_byte_size) {}
 };
-template <class T>
+template <class T, bool THREAD_SAFE = false>
 class RID_Owner {
-	RID_Alloc<T> alloc;
+	RID_Alloc<T, THREAD_SAFE> alloc;
 public:
 	_FORCE_INLINE_ RID make_rid(const T &p_ptr) {
--- a/core/spin_lock.h
+++ b/core/spin_lock.h
@ -0,0 +1,20 @@
 #ifndef SPIN_LOCK_H
 #define SPIN_LOCK_H
 #include "core/typedefs.h"
 #include <atomic>
 class SpinLock {
 	std::atomic_flag locked = ATOMIC_FLAG_INIT;
 public:
 	_ALWAYS_INLINE_ void lock() {
 		while (locked.test_and_set(std::memory_order_acquire)) {
 			;
 		}
 	}
 	_ALWAYS_INLINE_ void unlock() {
 		locked.clear(std::memory_order_release);
 	}
 };
 #endif // SPIN_LOCK_H
--- a/core/thread_work_pool.cpp
+++ b/core/thread_work_pool.cpp
@ -0,0 +1,53 @@
 #include "thread_work_pool.h"
 #include "core/os/os.h"
 void ThreadWorkPool::_thread_function(ThreadData *p_thread) {
 	while (true) {
 		p_thread->start.wait();
 		if (p_thread->exit.load()) {
 			break;
 		}
 		p_thread->work->work();
 		p_thread->completed.post();
 	}
 }
 void ThreadWorkPool::init(int p_thread_count) {
 	ERR_FAIL_COND(threads != nullptr);
 	if (p_thread_count < 0) {
 		p_thread_count = OS::get_singleton()->get_processor_count();
 	}
 	thread_count = p_thread_count;
 	threads = memnew_arr(ThreadData, thread_count);
 	for (uint32_t i = 0; i < thread_count; i++) {
 		threads[i].exit.store(false);
 		threads[i].thread = memnew(std::thread(ThreadWorkPool::_thread_function, &threads[i]));
 	}
 }
 void ThreadWorkPool::finish() {
 	if (threads == nullptr) {
 		return;
 	}
 	for (uint32_t i = 0; i < thread_count; i++) {
 		threads[i].exit.store(true);
 		threads[i].start.post();
 	}
 	for (uint32_t i = 0; i < thread_count; i++) {
 		threads[i].thread->join();
 		memdelete(threads[i].thread);
 	}
 	memdelete_arr(threads);
 	threads = nullptr;
 }
 ThreadWorkPool::~ThreadWorkPool() {
 	finish();
 }
--- a/core/thread_work_pool.h
+++ b/core/thread_work_pool.h
@ -0,0 +1,78 @@
 #ifndef THREAD_WORK_POOL_H
 #define THREAD_WORK_POOL_H
 #include "core/os/memory.h"
 #include "core/os/semaphore.h"
 #include <atomic>
 #include <thread>
 class ThreadWorkPool {
 	std::atomic<uint32_t> index;
 	struct BaseWork {
 		std::atomic<uint32_t> *index;
 		uint32_t max_elements;
 		virtual void work() = 0;
 	};
 	template <class C, class M, class U>
 	struct Work : public BaseWork {
 		C *instance;
 		M method;
 		U userdata;
 		virtual void work() {
 			while (true) {
 				uint32_t work_index = index->fetch_add(1, std::memory_order_relaxed);
 				if (work_index >= max_elements) {
 					break;
 				}
 				(instance->*method)(work_index, userdata);
 			}
 		}
 	};
 	struct ThreadData {
 		std::thread *thread;
 		Semaphore start;
 		Semaphore completed;
 		std::atomic<bool> exit;
 		BaseWork *work;
 	};
 	ThreadData *threads = nullptr;
 	uint32_t thread_count = 0;
 	static void _thread_function(ThreadData *p_thread);
 public:
 	template <class C, class M, class U>
 	void do_work(uint32_t p_elements, C *p_instance, M p_method, U p_userdata) {
 		ERR_FAIL_COND(!threads); //never initialized
 		index.store(0);
 		Work<C, M, U> *w = memnew((Work<C, M, U>));
 		w->instance = p_instance;
 		w->userdata = p_userdata;
 		w->method = p_method;
 		w->index = &index;
 		w->max_elements = p_elements;
 		for (uint32_t i = 0; i < thread_count; i++) {
 			threads[i].work = w;
 			threads[i].start.post();
 		}
 		for (uint32_t i = 0; i < thread_count; i++) {
 			threads[i].completed.wait();
 			threads[i].work = nullptr;
 		}
 	}
 	void init(int p_thread_count = -1);
 	void finish();
 	~ThreadWorkPool();
 };
 #endif // THREAD_POOL_H
--- a/drivers/unix/semaphore_posix.cpp
+++ b/drivers/unix/semaphore_posix.cpp
@ -62,7 +62,7 @@ int SemaphorePosix::get() const {
 	return val;
 }
-Semaphore *SemaphorePosix::create_semaphore_posix() {
+SemaphoreOld *SemaphorePosix::create_semaphore_posix() {
 	return memnew(SemaphorePosix);
 }
--- a/drivers/unix/semaphore_posix.h
+++ b/drivers/unix/semaphore_posix.h
@ -37,11 +37,11 @@
 #include <semaphore.h>
-class SemaphorePosix : public Semaphore {
+class SemaphorePosix : public SemaphoreOld {
 	mutable sem_t sem;
-	static Semaphore *create_semaphore_posix();
+	static SemaphoreOld *create_semaphore_posix();
 public:
 	virtual Error wait();
--- a/drivers/vulkan/rendering_device_vulkan.cpp
+++ b/drivers/vulkan/rendering_device_vulkan.cpp
@ -3448,8 +3448,6 @@ bool RenderingDeviceVulkan::_uniform_add_binding(Vector<Vector<VkDescriptorSetLa
 RID RenderingDeviceVulkan::shader_create(const Vector<ShaderStageData> &p_stages) {
 	_THREAD_SAFE_METHOD_
 	//descriptor layouts
 	Vector<Vector<VkDescriptorSetLayoutBinding> > set_bindings;
 	Vector<Vector<UniformInfo> > uniform_info;
@ -3694,6 +3692,8 @@ RID RenderingDeviceVulkan::shader_create(const Vector<ShaderStageData> &p_stages
 	//all good, let's create modules
 	_THREAD_SAFE_METHOD_
 	Shader shader;
 	shader.vertex_input_locations = vertex_input_locations;
--- a/drivers/vulkan/rendering_device_vulkan.h
+++ b/drivers/vulkan/rendering_device_vulkan.h
@ -114,7 +114,7 @@ class RenderingDeviceVulkan : public RenderingDevice {
 		RID owner;
 	};
-	RID_Owner<Texture> texture_owner;
+	RID_Owner<Texture, true> texture_owner;
 	uint32_t texture_upload_region_size_px;
 	PoolVector<uint8_t> _texture_get_data_from_image(Texture *tex, VkImage p_image, VmaAllocation p_allocation, uint32_t p_layer);
@ -264,7 +264,7 @@ class RenderingDeviceVulkan : public RenderingDevice {
 		Size2 size;
 	};
-	RID_Owner<Framebuffer> framebuffer_owner;
+	RID_Owner<Framebuffer, true> framebuffer_owner;
 	/***********************/
 	/**** VERTEX BUFFER ****/
@ -279,7 +279,7 @@ class RenderingDeviceVulkan : public RenderingDevice {
 	// This mapping is done here internally, and it's not
 	// exposed.
-	RID_Owner<Buffer> vertex_buffer_owner;
+	RID_Owner<Buffer, true> vertex_buffer_owner;
 	struct VertexDescriptionKey {
 		Vector<VertexDescription> vertex_formats;
@ -359,7 +359,7 @@ class RenderingDeviceVulkan : public RenderingDevice {
 		Vector<VkDeviceSize> offsets;
 	};
-	RID_Owner<VertexArray> vertex_array_owner;
+	RID_Owner<VertexArray, true> vertex_array_owner;
 	struct IndexBuffer : public Buffer {
 		uint32_t max_index; //used for validation
@ -368,7 +368,7 @@ class RenderingDeviceVulkan : public RenderingDevice {
 		bool supports_restart_indices;
 	};
-	RID_Owner<IndexBuffer> index_buffer_owner;
+	RID_Owner<IndexBuffer, true> index_buffer_owner;
 	struct IndexArray {
 		uint32_t max_index; //remember the maximum index here too, for validation
@ -379,7 +379,7 @@ class RenderingDeviceVulkan : public RenderingDevice {
 		bool supports_restart_indices;
 	};
-	RID_Owner<IndexArray> index_array_owner;
+	RID_Owner<IndexArray, true> index_array_owner;
 	/****************/
 	/**** SHADER ****/
@ -495,7 +495,7 @@ class RenderingDeviceVulkan : public RenderingDevice {
 	String _shader_uniform_debug(RID p_shader, int p_set = -1);
-	RID_Owner<Shader> shader_owner;
+	RID_Owner<Shader, true> shader_owner;
 	/******************/
 	/**** UNIFORMS ****/
@ -559,8 +559,8 @@ class RenderingDeviceVulkan : public RenderingDevice {
 	DescriptorPool *_descriptor_pool_allocate(const DescriptorPoolKey &p_key);
 	void _descriptor_pool_free(const DescriptorPoolKey &p_key, DescriptorPool *p_pool);
-	RID_Owner<Buffer> uniform_buffer_owner;
+	RID_Owner<Buffer, true> uniform_buffer_owner;
-	RID_Owner<Buffer> storage_buffer_owner;
+	RID_Owner<Buffer, true> storage_buffer_owner;
 	//texture buffer needs a view
 	struct TextureBuffer {
@ -568,7 +568,7 @@ class RenderingDeviceVulkan : public RenderingDevice {
 		VkBufferView view;
 	};
-	RID_Owner<TextureBuffer> texture_buffer_owner;
+	RID_Owner<TextureBuffer, true> texture_buffer_owner;
 	// This structure contains the descriptor set. They _need_ to be allocated
 	// for a shader (and will be erased when this shader is erased), but should
@ -589,7 +589,7 @@ class RenderingDeviceVulkan : public RenderingDevice {
 		Vector<RID> attachable_textures; //used for validation
 	};
-	RID_Owner<UniformSet> uniform_set_owner;
+	RID_Owner<UniformSet, true> uniform_set_owner;
 	/*******************/
 	/**** PIPELINES ****/
@ -607,7 +607,7 @@ class RenderingDeviceVulkan : public RenderingDevice {
 	// was not supplied as intended.
 	struct RenderPipeline {
-	//Cached values for validation
+		//Cached values for validation
 #ifdef DEBUG_ENABLED
 		struct Validation {
 			FramebufferFormatID framebuffer_format;
@ -627,7 +627,7 @@ class RenderingDeviceVulkan : public RenderingDevice {
 		uint32_t push_constant_stages;
 	};
-	RID_Owner<RenderPipeline> pipeline_owner;
+	RID_Owner<RenderPipeline, true> pipeline_owner;
 	/*******************/
 	/**** DRAW LIST ****/
--- a/drivers/windows/semaphore_windows.cpp
+++ b/drivers/windows/semaphore_windows.cpp
@ -61,7 +61,7 @@ int SemaphoreWindows::get() const {
 	ERR_FAIL_V(-1);
 }
-Semaphore *SemaphoreWindows::create_semaphore_windows() {
+SemaphoreOld *SemaphoreWindows::create_semaphore_windows() {
 	return memnew(SemaphoreWindows);
 }
--- a/drivers/windows/semaphore_windows.h
+++ b/drivers/windows/semaphore_windows.h
@ -37,11 +37,11 @@
 #include <windows.h>
-class SemaphoreWindows : public Semaphore {
+class SemaphoreWindows : public SemaphoreOld {
 	mutable HANDLE semaphore;
-	static Semaphore *create_semaphore_windows();
+	static SemaphoreOld *create_semaphore_windows();
 public:
 	virtual Error wait();
--- a/editor/editor_resource_preview.cpp
+++ b/editor/editor_resource_preview.cpp
@ -476,7 +476,7 @@ EditorResourcePreview::EditorResourcePreview() {
 	thread = NULL;
 	singleton = this;
 	preview_mutex = Mutex::create();
-	preview_sem = Semaphore::create();
+	preview_sem = SemaphoreOld::create();
 	order = 0;
 	exit = false;
 	exited = false;
--- a/editor/editor_resource_preview.h
+++ b/editor/editor_resource_preview.h
@ -71,7 +71,7 @@ class EditorResourcePreview : public Node {
 	List<QueueItem> queue;
 	Mutex *preview_mutex;
-	Semaphore *preview_sem;
+	SemaphoreOld *preview_sem;
 	Thread *thread;
 	volatile bool exit;
 	volatile bool exited;
--- a/modules/glslang/register_types.cpp
+++ b/modules/glslang/register_types.cpp
@ -140,9 +140,6 @@ static PoolVector<uint8_t> _compile_shader_glsl(RenderingDevice::ShaderStage p_s
 	ERR_FAIL_COND_V(p_language==RenderingDevice::SHADER_LANGUAGE_HLSL,ret);
 	// initialize in case it's not initialized. This is done once per thread
 	// and it's safe to call multiple times
 	glslang::InitializeProcess();
 	EShLanguage stages[RenderingDevice::SHADER_STAGE_MAX] = {
 		EShLangVertex,
 		EShLangFragment,
@ -229,6 +226,9 @@ static PoolVector<uint8_t> _compile_shader_glsl(RenderingDevice::ShaderStage p_s
 }
 void preregister_glslang_types() {
 	// initialize in case it's not initialized. This is done once per thread
 	// and it's safe to call multiple times
 	glslang::InitializeProcess();
 	RenderingDevice::shader_set_compile_function(_compile_shader_glsl);
 }
@ -236,5 +236,5 @@ void register_glslang_types() {
 }
 void unregister_glslang_types() {
-
+	glslang::FinalizeProcess();
 }
--- a/platform/iphone/semaphore_iphone.cpp
+++ b/platform/iphone/semaphore_iphone.cpp
@ -91,7 +91,7 @@ int SemaphoreIphone::get() const {
 	return 0;
 }
-Semaphore *SemaphoreIphone::create_semaphore_iphone() {
+SemaphoreOld *SemaphoreIphone::create_semaphore_iphone() {
 	return memnew(SemaphoreIphone);
 }
--- a/platform/iphone/semaphore_iphone.h
+++ b/platform/iphone/semaphore_iphone.h
@ -39,11 +39,11 @@ typedef struct cgsem cgsem_t;
 #include "core/os/semaphore.h"
-class SemaphoreIphone : public Semaphore {
+class SemaphoreIphone : public SemaphoreOld {
 	mutable cgsem_t sem;
-	static Semaphore *create_semaphore_iphone();
+	static SemaphoreOld *create_semaphore_iphone();
 public:
 	virtual Error wait();
--- a/platform/osx/semaphore_osx.cpp
+++ b/platform/osx/semaphore_osx.cpp
@ -86,7 +86,7 @@ int SemaphoreOSX::get() const {
 	return 0;
 }
-Semaphore *SemaphoreOSX::create_semaphore_osx() {
+SemaphoreOld *SemaphoreOSX::create_semaphore_osx() {
 	return memnew(SemaphoreOSX);
 }
--- a/platform/osx/semaphore_osx.h
+++ b/platform/osx/semaphore_osx.h
@ -39,11 +39,11 @@ typedef struct cgsem cgsem_t;
 #include "core/os/semaphore.h"
-class SemaphoreOSX : public Semaphore {
+class SemaphoreOSX : public SemaphoreOld {
 	mutable cgsem_t sem;
-	static Semaphore *create_semaphore_osx();
+	static SemaphoreOld *create_semaphore_osx();
 public:
 	virtual Error wait();
--- a/servers/physics_2d/physics_2d_server_wrap_mt.cpp
+++ b/servers/physics_2d/physics_2d_server_wrap_mt.cpp
@ -107,7 +107,7 @@ void Physics2DServerWrapMT::init() {
 	if (create_thread) {
-		step_sem = Semaphore::create();
+		step_sem = SemaphoreOld::create();
 		//OS::get_singleton()->release_rendering_thread();
 		if (create_thread) {
 			thread = Thread::create(_thread_callback, this);
--- a/servers/physics_2d/physics_2d_server_wrap_mt.h
+++ b/servers/physics_2d/physics_2d_server_wrap_mt.h
@ -58,7 +58,7 @@ class Physics2DServerWrapMT : public Physics2DServer {
 	volatile bool step_thread_up;
 	bool create_thread;
-	Semaphore *step_sem;
+	SemaphoreOld *step_sem;
 	int step_pending;
 	void thread_step(real_t p_delta);
 	void thread_flush();
--- a/servers/visual/rasterizer_rd/rasterizer_rd.cpp
+++ b/servers/visual/rasterizer_rd/rasterizer_rd.cpp
@ -76,7 +76,7 @@ void RasterizerRD::initialize() {
 		RenderingDevice::ShaderStageData frag;
 		frag.shader_stage = RenderingDevice::SHADER_STAGE_FRAGMENT;
-		frag.spir_v =RenderingDevice::get_singleton()->shader_compile_from_source(RenderingDevice::SHADER_STAGE_FRAGMENT,
+		frag.spir_v = RenderingDevice::get_singleton()->shader_compile_from_source(RenderingDevice::SHADER_STAGE_FRAGMENT,
 				"#version 450\n"
 				"layout (location = 0) in vec2 uv;\n"
 				"layout (location = 0) out vec4 color;\n"
@ -120,8 +120,12 @@ void RasterizerRD::initialize() {
 	}
 }
 ThreadWorkPool RasterizerRD::thread_work_pool;
 void RasterizerRD::finalize() {
 	thread_work_pool.finish();
 	memdelete(scene);
 	memdelete(canvas);
 	memdelete(storage);
@ -133,6 +137,7 @@ void RasterizerRD::finalize() {
 }
 RasterizerRD::RasterizerRD() {
 	thread_work_pool.init();
 	time = 0;
 	storage = memnew(RasterizerStorageRD);
 	canvas = memnew(RasterizerCanvasRD(storage));
--- a/servers/visual/rasterizer_rd/rasterizer_rd.h
+++ b/servers/visual/rasterizer_rd/rasterizer_rd.h
@ -2,10 +2,12 @@
 #define RASTERIZER_RD_H
 #include "core/os/os.h"
 #include "core/thread_work_pool.h"
 #include "servers/visual/rasterizer.h"
 #include "servers/visual/rasterizer_rd/rasterizer_canvas_rd.h"
 #include "servers/visual/rasterizer_rd/rasterizer_scene_forward_rd.h"
 #include "servers/visual/rasterizer_rd/rasterizer_storage_rd.h"
 class RasterizerRD : public Rasterizer {
 protected:
 	RasterizerCanvasRD *canvas;
@ -51,6 +53,8 @@ public:
 	virtual bool is_low_end() const { return true; }
 	static ThreadWorkPool thread_work_pool;
 	RasterizerRD();
 	~RasterizerRD() {}
 };
--- a/servers/visual/rasterizer_rd/rasterizer_storage_rd.h
+++ b/servers/visual/rasterizer_rd/rasterizer_storage_rd.h
@ -4,8 +4,8 @@
 #include "core/rid_owner.h"
 #include "servers/visual/rasterizer.h"
 #include "servers/visual/rasterizer_rd/effects_rd.h"
 #include "servers/visual/rendering_device.h"
 #include "servers/visual/rasterizer_rd/shader_compiler_rd.h"
 #include "servers/visual/rendering_device.h"
 class RasterizerStorageRD : public RasterizerStorage {
 public:
@ -109,7 +109,8 @@ private:
 		}
 	};
-	mutable RID_Owner<Texture> texture_owner;
+	//textures can be created from threads, so this RID_Owner is thread safe
 	mutable RID_Owner<Texture, true> texture_owner;
 	Ref<Image> _validate_texture_format(const Ref<Image> &p_image, TextureToRDFormat &r_format);
--- a/servers/visual/rasterizer_rd/shader_rd.cpp
+++ b/servers/visual/rasterizer_rd/shader_rd.cpp
@ -30,6 +30,7 @@
 #include "shader_rd.h"
 #include "core/string_builder.h"
 #include "rasterizer_rd.h"
 #include "servers/visual/rendering_device.h"
 void ShaderRD::setup(const char *p_vertex_code, const char *p_fragment_code, const char *p_name) {
@ -160,6 +161,121 @@ void ShaderRD::_clear_version(Version *p_version) {
 		p_version->variants = NULL;
 	}
 }
 void ShaderRD::_compile_variant(uint32_t p_variant, Version *p_version) {
 	Vector<RD::ShaderStageData> stages;
 	String error;
 	String current_source;
 	RD::ShaderStage current_stage = RD::SHADER_STAGE_VERTEX;
 	bool build_ok = true;
 	{
 		//vertex stage
 		StringBuilder builder;
 		builder.append(vertex_codev.get_data()); // version info (if exists)
 		builder.append("\n"); //make sure defines begin at newline
 		builder.append(general_defines.get_data());
 		builder.append(variant_defines[p_variant].get_data());
 		for (int j = 0; j < p_version->custom_defines.size(); j++) {
 			builder.append(p_version->custom_defines[j].get_data());
 		}
 		builder.append(vertex_code0.get_data()); //first part of vertex
 		builder.append(p_version->uniforms.get_data()); //uniforms (same for vertex and fragment)
 		builder.append(vertex_code1.get_data()); //second part of vertex
 		builder.append(p_version->vertex_globals.get_data()); // vertex globals
 		builder.append(vertex_code2.get_data()); //third part of vertex
 		builder.append(p_version->vertex_code.get_data()); // code
 		builder.append(vertex_code3.get_data()); //fourth of vertex
 		current_source = builder.as_string();
 		RD::ShaderStageData stage;
 		stage.spir_v = RD::get_singleton()->shader_compile_from_source(RD::SHADER_STAGE_VERTEX, current_source, RD::SHADER_LANGUAGE_GLSL, &error);
 		if (stage.spir_v.size() == 0) {
 			build_ok = false;
 		} else {
 			stage.shader_stage = RD::SHADER_STAGE_VERTEX;
 			stages.push_back(stage);
 		}
 	}
 	if (build_ok) {
 		//fragment stage
 		current_stage = RD::SHADER_STAGE_FRAGMENT;
 		StringBuilder builder;
 		builder.append(fragment_codev.get_data()); // version info (if exists)
 		builder.append("\n"); //make sure defines begin at newline
 		builder.append(general_defines.get_data());
 		builder.append(variant_defines[p_variant].get_data());
 		for (int j = 0; j < p_version->custom_defines.size(); j++) {
 			builder.append(p_version->custom_defines[j].get_data());
 		}
 		builder.append(fragment_code0.get_data()); //first part of fragment
 		builder.append(p_version->uniforms.get_data()); //uniforms (same for fragment and fragment)
 		builder.append(fragment_code1.get_data()); //first part of fragment
 		builder.append(p_version->fragment_globals.get_data()); // fragment globals
 		builder.append(fragment_code2.get_data()); //third part of fragment
 		builder.append(p_version->fragment_light.get_data()); // fragment light
 		builder.append(fragment_code3.get_data()); //fourth part of fragment
 		builder.append(p_version->fragment_code.get_data()); // fragment code
 		builder.append(fragment_code4.get_data()); //fourth part of fragment
 		current_source = builder.as_string();
 		RD::ShaderStageData stage;
 		stage.spir_v = RD::get_singleton()->shader_compile_from_source(RD::SHADER_STAGE_FRAGMENT, current_source, RD::SHADER_LANGUAGE_GLSL, &error);
 		if (stage.spir_v.size() == 0) {
 			build_ok = false;
 		} else {
 			stage.shader_stage = RD::SHADER_STAGE_FRAGMENT;
 			stages.push_back(stage);
 		}
 	}
 	if (!build_ok) {
 		variant_set_mutex.lock(); //properly print the errors
 		ERR_PRINT("Error compiling " + String(current_stage == RD::SHADER_STAGE_VERTEX ? "Vertex" : "Fragment") + " shader, variant #" + itos(p_variant) + " (" + variant_defines[p_variant].get_data() + ").");
 		ERR_PRINT(error);
 #ifdef DEBUG_ENABLED
 		ERR_PRINT("code:\n" + current_source.get_with_code_lines());
 #endif
 		variant_set_mutex.unlock();
 		return;
 	}
 	RID shader = RD::get_singleton()->shader_create(stages);
 	variant_set_mutex.lock();
 	p_version->variants[p_variant] = shader;
 	variant_set_mutex.unlock();
 }
 void ShaderRD::_compile_version(Version *p_version) {
 	_clear_version(p_version);
@ -168,134 +284,34 @@ void ShaderRD::_compile_version(Version *p_version) {
 	p_version->dirty = false;
 	p_version->variants = memnew_arr(RID, variant_defines.size());
 #if 1
 	RasterizerRD::thread_work_pool.do_work(variant_defines.size(), this, &ShaderRD::_compile_variant, p_version);
 #else
 	for (int i = 0; i < variant_defines.size(); i++) {
-		Vector<RD::ShaderStageData> stages;
+		_compile_variant(i, p_version);
-
+	}
 		String error;
 		String current_source;
 		RD::ShaderStage current_stage = RD::SHADER_STAGE_VERTEX;
 		bool build_ok=true;
 		{
 			//vertex stage
 			StringBuilder builder;
 			builder.append(vertex_codev.get_data()); // version info (if exists)
 			builder.append("\n"); //make sure defines begin at newline
 			builder.append(general_defines.get_data());
 			builder.append(variant_defines[i].get_data());
 			for (int j = 0; j < p_version->custom_defines.size(); j++) {
 				builder.append(p_version->custom_defines[j].get_data());
 			}
 			builder.append(vertex_code0.get_data()); //first part of vertex
 			builder.append(p_version->uniforms.get_data()); //uniforms (same for vertex and fragment)
 			builder.append(vertex_code1.get_data()); //second part of vertex
 			builder.append(p_version->vertex_globals.get_data()); // vertex globals
 			builder.append(vertex_code2.get_data()); //third part of vertex
 			builder.append(p_version->vertex_code.get_data()); // code
 			builder.append(vertex_code3.get_data()); //fourth of vertex
 			current_source = builder.as_string();
 			RD::ShaderStageData stage;
 			stage.spir_v = RD::get_singleton()->shader_compile_from_source(RD::SHADER_STAGE_VERTEX,current_source,RD::SHADER_LANGUAGE_GLSL,&error);
 			if (stage.spir_v.size()==0) {
 				build_ok=false;
 			} else {
 				stage.shader_stage = RD::SHADER_STAGE_VERTEX;
 				stages.push_back(stage);
 			}
 		}
 		if (build_ok){
 			//fragment stage
 			current_stage =RD::SHADER_STAGE_FRAGMENT;
 			StringBuilder builder;
 			builder.append(fragment_codev.get_data()); // version info (if exists)
 			builder.append("\n"); //make sure defines begin at newline
 			builder.append(general_defines.get_data());
 			builder.append(variant_defines[i].get_data());
 			for (int j = 0; j < p_version->custom_defines.size(); j++) {
 				builder.append(p_version->custom_defines[j].get_data());
 			}
 			builder.append(fragment_code0.get_data()); //first part of fragment
 			builder.append(p_version->uniforms.get_data()); //uniforms (same for fragment and fragment)
 			builder.append(fragment_code1.get_data()); //first part of fragment
 			builder.append(p_version->fragment_globals.get_data()); // fragment globals
 			builder.append(fragment_code2.get_data()); //third part of fragment
 			builder.append(p_version->fragment_light.get_data()); // fragment light
 			builder.append(fragment_code3.get_data()); //fourth part of fragment
 			builder.append(p_version->fragment_code.get_data()); // fragment code
 			builder.append(fragment_code4.get_data()); //fourth part of fragment
 			current_source = builder.as_string();
 			RD::ShaderStageData stage;
 			stage.spir_v = RD::get_singleton()->shader_compile_from_source(RD::SHADER_STAGE_FRAGMENT,current_source,RD::SHADER_LANGUAGE_GLSL,&error);
 			if (stage.spir_v.size()==0) {
 				build_ok=false;
 			} else {
 				stage.shader_stage = RD::SHADER_STAGE_FRAGMENT;
 				stages.push_back(stage);
 			}
 		}
 		if (!build_ok) {
 			ERR_PRINT("Error compiling " + String(current_stage == RD::SHADER_STAGE_VERTEX ? "Vertex" : "Fragment") + " shader, variant #" + itos(i) + " (" + variant_defines[i].get_data() + ").");
 			ERR_PRINT(error);
 #ifdef DEBUG_ENABLED
 			ERR_PRINT("code:\n" + current_source.get_with_code_lines());
 #endif
 			//clear versions if they exist
 			for (int j = 0; j < i; j++) {
 				RD::get_singleton()->free(p_version->variants[j]);
 			}
-			memdelete_arr(p_version->variants);
+	bool all_valid = true;
-			p_version->variants = NULL;
+	for (int i = 0; i < variant_defines.size(); i++) {
-			return;
+		if (p_version->variants[i].is_null()) {
 			all_valid = false;
 			break;
 		}
 	}
-		RID shader = RD::get_singleton()->shader_create(stages);
+	if (!all_valid) {
-
+		//clear versions if they exist
-		if (shader.is_null()) {
+		for (int i = 0; i < variant_defines.size(); i++) {
-			//clear versions if they exist
+			if (!p_version->variants[i].is_null()) {
-			for (int j = 0; j < i; j++) {
+				RD::get_singleton()->free(p_version->variants[i]);
 				RD::get_singleton()->free(p_version->variants[j]);
 			}
 			memdelete_arr(p_version->variants);
 			p_version->variants = NULL;
 			return;
 		}
-
+		memdelete_arr(p_version->variants);
-		p_version->variants[i] = shader;
+		p_version->variants = NULL;
 		return;
 	}
 	p_version->valid = true;
--- a/servers/visual/rasterizer_rd/shader_rd.h
+++ b/servers/visual/rasterizer_rd/shader_rd.h
@ -36,7 +36,7 @@
 #include "core/rid_owner.h"
 #include "core/variant.h"
 #include <stdio.h>
-
+#include <mutex>
 /**
 	@author Juan Linietsky <reduzio@gmail.com>
 */
@ -67,6 +67,10 @@ class ShaderRD {
 		bool initialize_needed;
 	};
 	std::mutex variant_set_mutex;
 	void _compile_variant(uint32_t p_variant, Version *p_version);
 	void _clear_version(Version *p_version);
 	void _compile_version(Version *p_version);
--- a/servers/visual/visual_server_scene.cpp
+++ b/servers/visual/visual_server_scene.cpp
@ -3511,7 +3511,7 @@ VisualServerScene *VisualServerScene::singleton = NULL;
 VisualServerScene::VisualServerScene() {
 #ifndef NO_THREADS
-	probe_bake_sem = Semaphore::create();
+	probe_bake_sem = SemaphoreOld::create();
 	probe_bake_mutex = Mutex::create();
 	probe_bake_thread = Thread::create(_gi_probe_bake_threads, this);
 	probe_bake_thread_exit = false;
--- a/servers/visual/visual_server_scene.h
+++ b/servers/visual/visual_server_scene.h
@ -517,7 +517,7 @@ public:
 	volatile bool probe_bake_thread_exit;
 	Thread *probe_bake_thread;
-	Semaphore *probe_bake_sem;
+	SemaphoreOld *probe_bake_sem;
 	Mutex *probe_bake_mutex;
 	List<Instance *> probe_bake_list;