Parallelisierung mit SIMD

In dieser Übung soll eine Einführung in die Nutzung von Vektoroperationen erfolgen. Vektoroperationen erfüllen das Single-Instruction Multiple-Data Stream Paradigma. Bei SIMD werden die gleiche (i.A. arithmetische, Boolesche, logische oder relationale) Operation auf verschiedene Daten gleichzeitig angewendet. Die Daten müssen homogen sein, daher die Anwendung auf Vektoren.

Die Lua Virtual Machine (lvm) bot bisher Parallelität auf Kontrollpfadebene. Schon bei der Parallelisierung wurde deutlich dass zusätzliche Kommunikation und Nachrichten die mögliche Beschleunigung teils deutlich reduzieren kann. D.h. man parallele Programm sinnvoll gestalten um einen Vorteil durch (physische) Parallelisierung zu bekommen. Bei der Datenpfadparalleliät wird diese Randbedingung nochmals verschärft. Es muss genauestens der zusätzliche Aufwand - wie z.B. das Kopieren von Daten von einem Puffer in einen anderen - bedacht und analysiert werden.

Die modernen (Dekstop und Server) Mikroprozessoren stellen Vektoroperationen zur Verfügung, die in (C) Programmen direkt über den Compiler genutzt werden können.

Je ach verfügbarer Prozessorerweiterung gibt es unterschiedlich breite Vektordatenformate, i.A. 128 und 256 Bit, mittlerweile auch 512 Bits. Die Datenwortbreite ist immer gleich. Es werden verschiedene Datentypen der Vektorelemente unterstützt, i.A. 16 und 32 Bit Integer, 32 und 64 Bit Fliesskomma (float und double Datentypen).

Hat man z.B W=128 Bit, und der Datentyp ist 16 Bits Integer, dann können pro Vektoroperation 8 parallele Operationen wie z.B. Addition durchgeführt werden.
Hat man z.B W=128 Bit, und der Datentyp ist 32 Bits Float, dann können pro Vektoroperation 4 parallele Operationen wie z.B. Addition durchgeführt werden.

#label

Die Vektoroperationen arbeiten auf (speicherbasierten) Registern fester Breite. Beispiele in C sind:

#include <immintrin.h>
__v4sf x4; // 4 x Single Precisio Float
__v8sf x8; // 8 x Single Precision Float
c=__mm_add_ps(a,b)

Lua verarbeitet i.A. Daten mit doppelter Float Präzision (double), Arrays sind heterogen und können nicht direkt für Vektoroperationen genutzt werden. Es gibt aber das Array Module welches typisierte und gepackte Arrays unterstützt. Diese wird hier verwendet.

Die Verwendung der Vektoroperationen in C/C++ Programmen kann direkt erfolgen. Bei einer VM muss es aber zunächst eine C-Schnittstelle geben, d.h. z.B. eine Lua Funktion ruft eine C Funktion über eine durch die VM definierte API auf. Dieser Aufruf ist kostenintensiv!

Ein typischer Lua Aufruf einer C Funktion:

#include "lua.h"
#include "lauxlib.h"

int foo(ua_State *L ) {
  int arg1 = luaL_checkint( L, 1 ),
      arg2 = luaL_checkint( L, 2 );
  lua_pushnumber( L, 1234 );
  return 1;
}

Die Ein- und Ausgabewerte werden über den Stack übergeben. Der Rückgabewert einer Lua-C Funktion gibt die Anzahl der Elemente auf dem Stack als Rückgabe an.

Man muss dann ein binäres Modul (Shared Object Library) name.so erzeugen und kann diese dann mittels require name laden. Unten ist ein Beispiel gezeigt.

Frage 1. Wann würden sich wohl Vektoroperationen für ein Lua Programm lohnen? Welche Eigenschaften müsste ein Algorithmus haben der mit Vektoroperationen beschleunigt werden soll?

Lösung.

Wenn eine große Anzahl von homogenen numerischen Daten (vektoriell) in der Lua-C Funktion verarbeitet werden, also eine Batchverarbeitung.
Die Rechenkomplexität sollte mindestens O(n²) betragen.
Beispiele: Vektorprodukt (O(n)) ,Matrixprodukt (O(n³))

Nachfolgend ist ein Beispielmodul in C gezeigt welches einfache Vektoroperationen in Lua zur Verfügung stellt. Es gibt Operationen die auf einzelnen Vektoren operieren und welche die auf Arrays in multiplen Vielfachen der Vektoren operieren (also eine Batchverarbeitung).

Aufgabe 2. Untersuche die parallelen Einzeloperationen (z.B. v4add) im Vergleich zur reinen Lua Berechnung und der sequenziellen C Implementierung (z.B. v4addS). Ist eine Beschleunigung erzielbar, wo liegt die "Reibung"?

Lösung.

Nein, der zusätzliche Rechenaufwand der Lua-C Aufrufe und das Kopieren der Daten macht jegliche Beschleunigung zu nichte.
Aber v4add kann gegenüber v4addS für sich schneller rechnen.

128 Bit Vektoroperationen

C Code (simd.c) für 128 Bit Vektoroperationen

#define LUA_LIB
#include "lua.h"
#include "lauxlib.h"
#include <stdio.h>
#include <string.h>
#include <math.h>
#include <assert.h>
#include <stddef.h>
#include <immintrin.h>

#if (LUA_VERSION_NUM==501)
#define lua_len(L,i) (lua_pushnumber( (L), lua_objlen( (L), (i) )))
#define luaL_newlib(L,t) (luaL_register( (L), "simd", (t) ))
#endif

int luaopen_simd( lua_State *L );

__v4sf xmm[1000];

static int lsimd_extensions( lua_State *L ) {
	int count = 0;
#ifdef __MMX__ 
	lua_pushstring( L, "MMX" ); count++;
#endif
#ifdef __SSE__ 
	lua_pushstring( L, "SSE" ); count++;
#endif
#ifdef __SSE2__ 
	lua_pushstring( L, "SSE2" ); count++;
#endif
#ifdef __SSE3__ 
	lua_pushstring( L, "SSE3" ); count++;
#endif
#if defined (__SSE4_2__) || defined (__SSE4_1__)
	lua_pushstring( L, "SSE4" ); count++;
#endif
#ifdef __AVX__
	lua_pushstring( L, "AVX" ); count++;
#endif
#ifdef __AVX2__
	lua_pushstring( L, "AVX2" ); count++;
#endif
	return count;
}


static int lsimd_v4set( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	xmm[i][0] = lua_tonumber( L, 2 );
	xmm[i][1] = lua_tonumber( L, 3 );
	xmm[i][2] = lua_tonumber( L, 4 );
	xmm[i][3] = lua_tonumber( L, 5 );
	return 0;
}


static int lsimd_v4zeros( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	xmm[i] = _mm_setzero_ps();
	return 0;
}

static int lsimd_v4tonumber( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	lua_pushnumber( L, xmm[i][0] );
	lua_pushnumber( L, xmm[i][1] );
	lua_pushnumber( L, xmm[i][2] );
	lua_pushnumber( L, xmm[i][3] );
	return 4;
}

static int lsimd_v4add( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	int k = luaL_checkint( L, 3 );
	xmm[k] = _mm_add_ps( xmm[i], xmm[j] );
	return 0;
}

static int lsimd_v4addS( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	int k = luaL_checkint( L, 3 );
	for(int u=0;u<4;u++) {
	  xmm[k][u]=xmm[i][u]+xmm[j][u];
	}
	return 0;
}

static int lsimd_v4sub( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	int k = luaL_checkint( L, 3 );
	xmm[k] = _mm_sub_ps( xmm[i], xmm[j] );
	return 0;
}

static int lsimd_v4subS( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	int k = luaL_checkint( L, 3 );
	for(int u=0;u<4;u++) {
	  xmm[k][u]=xmm[i][u]-xmm[j][u];
	}
	return 0;
}

static int lsimd_v4mul( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	int k = luaL_checkint( L, 3 );
	xmm[k] = _mm_mul_ps( xmm[i], xmm[j] );
	return 0;
}

static int lsimd_v4mulS( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	int k = luaL_checkint( L, 3 );
	for(int u=0;u<4;u++) {
	  xmm[k][u]=xmm[i][u]*xmm[j][u];
	}
	return 0;
}

static int lsimd_v4div( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	int k = luaL_checkint( L, 3 );
	xmm[k] = _mm_div_ps( xmm[i], xmm[j] );
	return 0;
}

static int lsimd_v4divS( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	int k = luaL_checkint( L, 3 );
	for(int u=0;u<4;u++) {
	  xmm[k][u]=xmm[i][u]/xmm[j][u];
	}
	return 0;
}


static int lsimd_v4prodsum( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	xmm[0] = _mm_mul_ps( xmm[i], xmm[j] );
  xmm[0] = _mm_hadd_ps(xmm[0],xmm[0]);
  xmm[0] = _mm_hadd_ps(xmm[0],xmm[0]);
	lua_pushnumber( L,xmm[0][0] );
	return 1;
}

static int lsimd_v4prodsumS( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	float sum=0;
	for(int u=0;u<4;u++) {
	  sum=sum+xmm[i][u]*xmm[j][u];
	}
	lua_pushnumber( L, sum );
	return 1;
}

#include "array.h"

array_Array *array_checkarray (lua_State *L, int index)
{
  adjust_index (index);

  //if (!array_testarray (L, index)) {
  //  typeerror(L, index, "array");
  // }

  return lua_touserdata (L, index);
}

static int lsimd_fromarray ( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
  array_Array *array;
  array = array_checkarray (L, 2);
  printf("xmm[%d] array [%d] Type %d\n",i,array->size[0],array->type);
  for(int j=0;j<4;j++) {
    xmm[i][j]=(float)(array->type==ARRAY_TDOUBLE?array->values.doubles[j]:array->values.floats[j]);
  }
  return 0;
}

static int lsimd_v4prodsumArray( lua_State *L ) {
  array_Array *arrayA,*arrayB;
  arrayA = array_checkarray (L, 1);
  arrayB = array_checkarray (L, 2);
  float sum=0;
  if (arrayA->size[0]!=arrayB->size[0]) return 0;
  if (arrayA->type!=ARRAY_TFLOAT || arrayB->type!=ARRAY_TFLOAT) return 0;
  for(int i4=0;i4<arrayA->size[0];i4=i4+4) {
    //memcpy(&xmm[1],&arrayA->values.floats[i4],sizeof(__v4sf));
    // memcpy(&xmm[2],&arrayB->values.floats[i4],sizeof(__v4sf));
    //for(int j=0;j<4;j++) {
    //  xmm[1][j]=arrayA->values.floats[i4+j];
    //  xmm[2][j]=arrayB->values.floats[i4+j];
    //}
	  // xmm[0] = _mm_mul_ps( xmm[1],xmm[2]);
	  xmm[0] = _mm_mul_ps((__v4sf)*((__v4sf*)&arrayA->values.floats[i4]),
	                            (__v4sf)*((__v4sf*)&arrayB->values.floats[i4]));
    xmm[0] = _mm_hadd_ps(xmm[0],xmm[0]);
    xmm[0] = _mm_hadd_ps(xmm[0],xmm[0]);
    sum+=xmm[0][0];
  }
	lua_pushnumber( L,sum);
	return 1;
}

static int lsimd_v4prodsumArrayS( lua_State *L ) {
  array_Array *arrayA,*arrayB;
  arrayA = array_checkarray (L, 1);
  arrayB = array_checkarray (L, 2);
  float sum=0;
  if (arrayA->size[0]!=arrayB->size[0]) return 0;
  if (arrayA->type!=ARRAY_TFLOAT || arrayB->type!=ARRAY_TFLOAT) return 0;
  for(int i=0;i<arrayA->size[0];i++) {
    sum=sum+arrayA->values.floats[i]*
            arrayB->values.floats[i];
  }
	lua_pushnumber( L,sum);
	return 1;
}

/*
  Lua-C API
*/
static const luaL_Reg simdlib[] = {
  {"v4set", lsimd_v4set},
  {"v4zeros", lsimd_v4zeros},
  {"v4add", lsimd_v4add},
  {"v4sub", lsimd_v4sub},
  {"v4div", lsimd_v4div},
  {"v4mul", lsimd_v4mul},
  {"v4prodsum", lsimd_v4prodsum},
  {"v4prodsumArray", lsimd_v4prodsumArray},
  {"v4addS", lsimd_v4divS},
  {"v4subS", lsimd_v4divS},
  {"v4mulS", lsimd_v4divS},
  {"v4divS", lsimd_v4divS},
  {"v4prodsumS", lsimd_v4prodsumS},
  {"v4prodsumArrayS", lsimd_v4prodsumArrayS},
  {"v4tonumber", lsimd_v4tonumber},
  {"extensions", lsimd_extensions },
  {"setFromArray",  lsimd_fromarray},
  {NULL,NULL}
};

int luaopen_simd( lua_State *L ) {
  luaL_newlib( L, simdlib );
  return 1;
}

Lua Code (test.lua) für 128 Bit Vektoroperationen

local simd = require'simd'
local Array = require "array"

xa = Array.floats(4*10000)
xb = Array.floats(4*10000)
for i=1,4*1000 do
  xa[i]=math.random()
  xb[i]=math.random()
end
print(simd.v4prodsumArrayS(xa,xb))
print(simd.v4prodsumArray(xa,xb))
local t0 = luv.milli()
for run=1,1000 do
  simd.v4prodsumArrayS(xa,xb)
end
local t1 = luv.milli()
for run=1,1000 do
  simd.v4prodsumArray(xa,xb)
end
local t2 = luv.milli()
print(t1-t0,t2-t1)

In der nachfolgenden Shell (temporärer Ordner) kann (auf dem eigene Rechner außerhalb des Web Browsers) die Lua-C Module kompiliert (make) und ausgeführt/getestet werden (run). Die Quellkodedateien (s.o.) werden automatisch synchronisiert. Derzeit nur unter Linux ausführbar! Lokal muss wex (min. Version 1.10) gestartet werden.

Compile & Test

Type help or hit TAB for a list of commands.

Aufgabe 3. Jetzt untersuche die Array-basierte v4prodsum Funktion, wähle die Größe der Arrays (float) groß genug um einen Effekt zu sehen. Welche typische Beschleunigung (unter Berücksichtigung des Lua-C Overhwads) kann erzielt werden?

Lösung.

Bis Faktor 2 (typisch eher 1.5)

256 Bit Vektoroperationen

Jetzt kommt ein Problem aus uns zu. Wenn man obigen Code einfach mit __v8sf und den entsprechenden 256 Bit Operationen __mm256_xxx ersetzt wird es bei der Ausführung zu Speicherfehlern kommen. Der Grund: Die Vektoren müssen aus Effizienzgründen im Speicher ausgerichtet sein. Bei __v4sf reichen 16 Byte Ausrichtungen, d.h. addr modulo 16 = 0, bei __v8sf wird aber eine Ausrichtung von 32 Byte gefordert, d.h. addr modulo 32 = 0.

Das Array Module wird i.A. eine 4 Byte Ausrichtung vornehmen. Bisher waren alle Datenadressen auf 16 byte ausgerichtet.
Solange wir dem Array Modul nicht die Ausrichtung vorgeben können (wird noch ergänzt) müssen wir uns behelfen.
Dazu werden wir das Array etwas größer machen und dann die Ausrichtung (Bytes) mittels der simd.align Funktion erfragen, die uns einen Offset (in 4 Byte Schritten gibt) definiert. Die Produktsummenberechnung erwartet jetzt diesen Offset und die tatsächliche Länge des Arrays (ohne Offset und Anhang).

C Code (simd.c) für 256 Bit Vektoroperationen

#define LUA_LIB
#include "lua.h"
#include "lauxlib.h"
#include <stdio.h>
#include <string.h>
#include <math.h>
#include <assert.h>
#include <stddef.h>
#include <immintrin.h>

#if (LUA_VERSION_NUM==501)
#define lua_len(L,i) (lua_pushnumber( (L), lua_objlen( (L), (i) )))
#define luaL_newlib(L,t) (luaL_register( (L), "simd", (t) ))
#endif

int luaopen_simd( lua_State *L );

__v8sf xmm[1000];

static int lsimd_extensions( lua_State *L ) {
	int count = 0;
#ifdef __MMX__ 
	lua_pushstring( L, "MMX" ); count++;
#endif
#ifdef __SSE__ 
	lua_pushstring( L, "SSE" ); count++;
#endif
#ifdef __SSE2__ 
	lua_pushstring( L, "SSE2" ); count++;
#endif
#ifdef __SSE3__ 
	lua_pushstring( L, "SSE3" ); count++;
#endif
#if defined (__SSE4_2__) || defined (__SSE4_1__)
	lua_pushstring( L, "SSE4" ); count++;
#endif
#ifdef __AVX__
	lua_pushstring( L, "AVX" ); count++;
#endif
#ifdef __AVX2__
	lua_pushstring( L, "AVX2" ); count++;
#endif
	return count;
}


static int lsimd_v8set( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	xmm[i][0] = lua_tonumber( L, 2 );
	xmm[i][1] = lua_tonumber( L, 3 );
	xmm[i][2] = lua_tonumber( L, 4 );
	xmm[i][3] = lua_tonumber( L, 5 );
	xmm[i][4] = lua_tonumber( L, 6 );
	xmm[i][5] = lua_tonumber( L, 7 );
	xmm[i][6] = lua_tonumber( L, 8 );
	xmm[i][7] = lua_tonumber( L, 9 );
	return 0;
}


static int lsimd_v8zeros( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	xmm[i] = _mm256_setzero_ps();
	return 0;
}

static int lsimd_v8tonumber( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	lua_pushnumber( L, xmm[i][0] );
	lua_pushnumber( L, xmm[i][1] );
	lua_pushnumber( L, xmm[i][2] );
	lua_pushnumber( L, xmm[i][3] );
	lua_pushnumber( L, xmm[i][4] );
	lua_pushnumber( L, xmm[i][5] );
	lua_pushnumber( L, xmm[i][6] );
	lua_pushnumber( L, xmm[i][7] );
	return 8;
}

static int lsimd_v8add( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	int k = luaL_checkint( L, 3 );
	xmm[k] = _mm256_add_ps( xmm[i], xmm[j] );
	return 0;
}

static int lsimd_v8addS( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	int k = luaL_checkint( L, 3 );
	for(int u=0;u<8;u++) {
	  xmm[k][u]=xmm[i][u]+xmm[j][u];
	}
	return 0;
}

static int lsimd_v8sub( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	int k = luaL_checkint( L, 3 );
	xmm[k] = _mm256_sub_ps( xmm[i], xmm[j] );
	return 0;
}

static int lsimd_v8subS( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	int k = luaL_checkint( L, 3 );
	for(int u=0;u<8;u++) {
	  xmm[k][u]=xmm[i][u]-xmm[j][u];
	}
	return 0;
}

static int lsimd_v8mul( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	int k = luaL_checkint( L, 3 );
	xmm[k] = _mm256_mul_ps( xmm[i], xmm[j] );
	return 0;
}

static int lsimd_v8mulS( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	int k = luaL_checkint( L, 3 );
	for(int u=0;u<8;u++) {
	  xmm[k][u]=xmm[i][u]*xmm[j][u];
	}
	return 0;
}

static int lsimd_v8div( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	int k = luaL_checkint( L, 3 );
	xmm[k] = _mm256_div_ps( xmm[i], xmm[j] );
	return 0;
}

static int lsimd_v8divS( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	int k = luaL_checkint( L, 3 );
	for(int u=0;u<8;u++) {
	  xmm[k][u]=xmm[i][u]/xmm[j][u];
	}
	return 0;
}


static int lsimd_v8prodsum( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	xmm[0] = _mm256_mul_ps( xmm[i], xmm[j] );
  xmm[0] = _mm256_hadd_ps(xmm[0],xmm[0]);
  xmm[0] = _mm256_hadd_ps(xmm[0],xmm[0]);
  xmm[0] = _mm256_hadd_ps(xmm[0],xmm[0]);
	lua_pushnumber( L,xmm[0][0] );
	return 1;
}

static int lsimd_v8prodsumS( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
	int j = luaL_checkint( L, 2 );
	float sum=0;
	for(int u=0;u<8;u++) {
	  sum=sum+xmm[i][u]*xmm[j][u];
	}
	lua_pushnumber( L, sum );
	return 1;
}

#include "array.h"

array_Array *array_checkarray (lua_State *L, int index)
{
  adjust_index (index);

  //if (!array_testarray (L, index)) {
  //  typeerror(L, index, "array");
  // }

  return lua_touserdata (L, index);
}

static int lsimd_fromarray ( lua_State *L ) {
	int i = luaL_checkint( L, 1 );
  array_Array *array;
  array = array_checkarray (L, 2);
  printf("xmm[%d] array [%d] Type %d\n",i,array->size[0],array->type);
  for(int j=0;j<4;j++) {
    xmm[i][j]=(float)(array->type==ARRAY_TDOUBLE?array->values.doubles[j]:array->values.floats[j]);
  }
  return 0;
}

static int lsimd_align ( lua_State *L ) {
  array_Array *array;
  array = array_checkarray (L, 1);
  unsigned long align = lua_tonumber( L, 2 );
  lua_pushnumber( L, ((unsigned long)array->values.floats) % align);
  return 1;
}

static int lsimd_v8prodsumArray( lua_State *L ) {
  array_Array *arrayA,*arrayB;
  float *a,*b;
  arrayA = array_checkarray (L, 1);
  arrayB = array_checkarray (L, 2);
  int offset = lua_tonumber( L, 3 );
  int length = lua_tonumber( L, 4 );

  float sum=0;
  if (arrayA->size[0]!=arrayB->size[0]) return 0;
  if (arrayA->type!=ARRAY_TFLOAT || arrayB->type!=ARRAY_TFLOAT) return 0;
  a=&arrayA->values.floats[offset];
  b=&arrayB->values.floats[offset];
  // Arrays must be 32 byte memory aligned!!!
  if ((unsigned long)a%32 ||
      (unsigned long)b%32) return 0; 
  for(int i8=0;i8<length;i8=i8+8) {
    //memcpy(&xmm[1],&arrayA->values.floats[i4],sizeof(__v8sf));
    //memcpy(&xmm[2],&arrayB->values.floats[i4],sizeof(__v8sf));
    //for(int j=0;j<4;j++) {
    //  xmm[1][j]=arrayA->values.floats[i4+j];
    //  xmm[2][j]=arrayB->values.floats[i4+j];
    //}
	  // xmm[0] = _mm256_mul_ps( xmm[1],xmm[2]);
	  xmm[0] = _mm256_mul_ps((__v8sf)*((__v8sf*)&a[i8]),
	                         (__v8sf)*((__v8sf*)&b[i8]));
    xmm[0] = _mm256_hadd_ps(xmm[0],xmm[0]);
    xmm[0] = _mm256_hadd_ps(xmm[0],xmm[0]);
    xmm[0] = _mm256_hadd_ps(xmm[0],xmm[0]);
    sum+=xmm[0][0];
  }
	lua_pushnumber( L,sum);
	return 1;
}

static int lsimd_v8prodsumArrayS( lua_State *L ) {
  array_Array *arrayA,*arrayB;
  arrayA = array_checkarray (L, 1);
  arrayB = array_checkarray (L, 2);
  int offset = lua_tonumber( L, 3 );
  int length = lua_tonumber( L, 4 );

  float sum=0;
  if (arrayA->size[0]!=arrayB->size[0]) return 0;
  if (arrayA->type!=ARRAY_TFLOAT || arrayB->type!=ARRAY_TFLOAT) return 0;
  for(int i=offset;i<offset+length;i++) {
    sum=sum+arrayA->values.floats[i]*
            arrayB->values.floats[i];
  }
	lua_pushnumber( L,sum);
	return 1;
}

static const luaL_Reg simdlib[] = {
	{"v8set", lsimd_v8set},
  {"v8zeros", lsimd_v8zeros},
	{"v8add", lsimd_v8add},
	{"v8sub", lsimd_v8sub},
	{"v8div", lsimd_v8div},
	{"v8mul", lsimd_v8mul},
	{"v8prodsum", lsimd_v8prodsum},
	{"v8prodsumArray", lsimd_v8prodsumArray},
	{"v8addS", lsimd_v8divS},
	{"v8subS", lsimd_v8divS},
	{"v8mulS", lsimd_v8divS},
	{"v8divS", lsimd_v8divS},
	{"v8prodsumS", lsimd_v8prodsumS},
	{"v8prodsumArrayS", lsimd_v8prodsumArrayS},
	{"v8tonumber", lsimd_v8tonumber},
	{"align", lsimd_align},
	{"extensions", lsimd_extensions },
	{"setFromArray",  lsimd_fromarray},
	{NULL,NULL}
};

int luaopen_simd8( lua_State *L ) {
	luaL_newlib( L, simdlib );
	return 1;
}

Lua Code (test.lua) für 256 Bit Vektoroperationen

local simd = require'simd8'
local A = require "array"


xa = A.floats(16*10000+8)
xb = A.floats(16*10000+8)
offset = simd.align(xa,32)/4
length = 16*10000
print(offset)
for i=offset,length+offset do
  xa[i+offset]=math.random()
  xb[i+offset]=math.random()
end
print(simd.v8prodsumArrayS(xa,xb,offset,length))
print(simd.v8prodsumArray(xa,xb,offset,length))

-- if false then
local t0 = luv.milli()
for run=1,1000 do
  simd.v8prodsumArrayS(xa,xb,offset,length)
end
local t1 = luv.milli()
for run=1,1000 do
  simd.v8prodsumArray(xa,xb,offset,length)
end
local t2 = luv.milli()
print(t1-t0,t2-t1)
-- end

Compile & Test

Type help or hit TAB for a list of commands.

Created by the NoteBook Compiler Ver. 1.38.1 (c) Dr. Stefan Bosse (Tue Aug 12 2025 15:51:55 GMT+0200 (Central European Summer Time))